형태소
형태소 분석기
한국어 문장을 분석하려면 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈작업을 제일 먼저 수행해야 한다. 이때 토큰 단위를 어떻게 정의하느냐에 따라 자연어 처리 성능에 영향을 준다. 일단 형태소(𝒎𝒐𝒓𝒑𝒉𝒆𝒎𝒆)를 토큰 단위로 사용하고자 한다. 형태소는 일정한 의미가 있는 가장 작은 말의 단위이다. 즉, 의미가 더 이상 쪼개지지 않는 단어를 의미한다. 형태소를 토큰 단위로 사용할 경우 단어와 품사 정보를 같이 활용할 수 있기 때문에 효과적이다. 영어의 경우 단어의 변화가 크지 않고, 띄어쓰기로 단어를 구분하기 때문에 공백을 기준으로 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈을 수행해도 큰 문제 없다. 하지만 한국어는 명사와 조사를 띄어 쓰지 않고, 용언에 따라 여러 가지 어미가 붙기 때문에 띄어쓰기만으로는 𝒕𝒐𝒌𝒆𝒏𝒊𝒛𝒊𝒏𝒈 할 수 없다. 따라서 한국어의..
파이썬(Python) 한글 형태소 분석 Konlpy 설치하기
Konlpy를 설치하기 위해서는 아래의 조건이 만족되어야 한다. 1. Java 1.7 이상의 설치 오라클(Oracle) 사이트(http://www.oracle.com/technetwork/java/javase/downloads/index.html)에서해당 OS에 맞는 JDK(Java Developement Kit)를 설치한다. 2. JAVA_HOME Path 설정 JDK가 정상적으로 동작하기 위하여 JAVA_HOME 경로(Path)를 설정해야한다. [제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정 > 환경 변수] [시스템 변수]에 path의 변수값 부분에 JDK가 설치되어있는 경로를 입력한다. 3. JPype1 JAVA로 작성된 모듈을 로드하여야 하기 때문에 JPype1 모듈이 설치가 되어야 ..