tf-idf

    카운트 기반의 단어 표현(Count based word Representation)

    1. Bag of Words (BOW) Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. Bag of Words는 직역하자면 단어들의 가방입니다. 문서 내 모든 단어를 한꺼번에 가방(Bag) 안에 넣은 뒤에 흔들어서 섞는다는 의미로 Bag of Words(BOW) 모델이라고 한다. ✔ BoW를 만드는 과정 우선, 각 단어에 고유한 정수 인덱스를 부여합니다. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다. from konlpy.tag import Komoran import re # 코모란 형태소 분석기를 사용 komoran = Komoran() # 정규 표현식을 통해 온점을 제거 t..