okt
형태소 분석기
한국어 문장을 분석하려면 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈작업을 제일 먼저 수행해야 한다. 이때 토큰 단위를 어떻게 정의하느냐에 따라 자연어 처리 성능에 영향을 준다. 일단 형태소(𝒎𝒐𝒓𝒑𝒉𝒆𝒎𝒆)를 토큰 단위로 사용하고자 한다. 형태소는 일정한 의미가 있는 가장 작은 말의 단위이다. 즉, 의미가 더 이상 쪼개지지 않는 단어를 의미한다. 형태소를 토큰 단위로 사용할 경우 단어와 품사 정보를 같이 활용할 수 있기 때문에 효과적이다. 영어의 경우 단어의 변화가 크지 않고, 띄어쓰기로 단어를 구분하기 때문에 공백을 기준으로 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈을 수행해도 큰 문제 없다. 하지만 한국어는 명사와 조사를 띄어 쓰지 않고, 용언에 따라 여러 가지 어미가 붙기 때문에 띄어쓰기만으로는 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈 할 수 없다. 따라서 한국어의..