Tokenization

토큰화 Tokenization

2022.01.27

말뭉치 또는 코퍼스(Corpus)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 토큰화는 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업이며, 주로 텍스트 전처리 과정에서 사용된다. 토큰화를 어떻게 하느냐에 따라 성능에 차이가 난다. 예를들어 "This is a pen" 이라는 말뭉치(Corpus)가 있을 때 토큰화를 하면 "this", "is", "a", "pen"으로 나뉜다. 한국어 문장을 예를 들면, "아버지가 방에 들어가신다" 를 토큰화..

토큰화 Tokenization

티스토리툴바