불용어
불용어(Stop word) 제거
갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요하다. 불용어(Stop word)는 분석에 큰 의미가 없는 단어를 지칭한다. 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말한다. 예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 의미가 없는 경우가 있다. 이런 불용어는 텍스트에 빈번하게 나타나기 때문에 중요한 단어로 인지될 수 있다. 하지만 실질적으로는 중요한 단어가 아니므로 사전에 제거하는 과정을 거쳐야 한다. 불용어 확인하기 - NLTK 모듈 활용 import nltk nltk.download('stopwords..