lemmatization

    어간 추출(Stemming)과 표제어 추출(Lemmatization)

    택스트 전처리의 목적은 말뭉치(Corpus)로부터 복잡성을 줄이는 것이다. 어간 추출(Stemming)과 표제어 추출(Lemmatization) 역시 말뭉치의 복잡성을 줄여주는 텍스트 정규화 기법이다. 어간 추출과 표제어 추출은 단어의 원형을 찾는것을 말한다. 예를들어 played, plays, playing으로부터 play를 찾는 것이다. 표제어 추출(Lemmatization) 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단한다. 예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있고, 이 단어들의 표제어는 be이다. 형태소는 두 가지 종류가 있다. 1) 어간(stem) : 단어의 의미를 담고 있는 단..