자연어(Nautral Language)란 인간이 일상에서 사용하는 언어를 말한다.
자연어 처리(Natural Laguage Processing)란 기계가 자연어를 이해하고 해석하여 처리할 수 있도록 하는 일을 말하며, 줄여서 NLP라고 합니다.
NLP가 활용되는 분야
텍스트 분류(Text Classification)
텍스트가 특정 분류, 카테고리에 속하는 것을 예측하는 기법을 말한다.
스팸 메일 분류나 뉴스 기사의 내용을 기반으로 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동으로 분류해주는 프로그램이 이에 속한다. 텍스트 분류는 지도학습이다.
감성 분석(Sentiment Analysis)
텍스트에 나타나는 감정/기분 등의 주관적 요소를 분석하는 기법을 말한다.
SNS의 글을 분석하여 글쓴이의 감정을 분석하는 것, 영화 및 제품의 리뷰를 분석하는 것 등이 이에 속한다.
지도학습 뿐만 아니라 비지도학습을 이용할 수도 있다.
내용 요약(Text Summarization)
텍스트에서 중요한 주제를 추출하여 요약하는 기법을 의미한다.
Text Summarization은 크게 추출 요약과 생성 요약으로 나뉜다. 추출 요약은 문서에서 중요하다고 생각되는 문장들을 뽑아내어 요약문으로 이용하는 방법이며, 생성 요약은 요약문을 새롭게 생성하는 방법이다.
토픽 모델링(Topic Modeling)이 이에 속합니다.
텍스트 군집화(Clustering)와 유사도 측정
비슷한 유형의 텍스트에 대해 군집화하는 기법을 뜻한다.
기계 번역(Translation)
서로 다른 나라의 언어로 변역해주는 문제에 사용되는 기법을 말한다.
구글 번역기나 파파고와 같은 번역기에도 활용된다.
대화 시스템 및 자동 질의 응답 시스템
애플의 시리나 삼성 갤럭시의 빅스비, 챗봇 등이 이에 속한다.
NLP 처리 프로세스
1. 텍스트 전처리(Text Preprocessing)
대/소문자 변경, 특수문자 삭제, 이모티콘 삭제 등의 전처리 작업
단어(Word) 토큰화 작업, 불용어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행한다.
2. 피처 벡터화 (Feature Vectorization)
전처리된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당한다.
대표적인 피처 벡터화 기법은 BOW(Bag of words)와 Word2Vec이 있다.
3. Modeling
피처 벡터화된 데이터에 대하여 모델을 수립하고 학습/예측을 하는 단계
Natural Language Processing
'NLP' 카테고리의 다른 글
어간 추출(Stemming)과 표제어 추출(Lemmatization) (0) | 2022.01.27 |
---|---|
토큰화 Tokenization (0) | 2022.01.27 |
불용어(Stop word) 제거 (0) | 2022.01.27 |
형태소 분석기 (0) | 2022.01.27 |
파이썬(Python) 한글 형태소 분석 Konlpy 설치하기 (0) | 2022.01.27 |