Bag-of-Words 텍스트 마이닝 분야에서 딥 러닝 기술이 적용되기 이전에 자주 활용되었던 간단한 기법이다. 단어장에 등록된 단어가 어떠한 문장에 얼마나 등장했는지를 벡터(vector)로 표현하며, 단어장을 구성하는 과정을 필요로 한다. 먼저 텍스트 데이터 셋에서 unique한 단어들만 모아서 단어장(사전)을 구축한다. $$ \text{This is the most powerful device.}\\ \text{That is the strongest equipment.} $$ $$ \text{단어장(Vocabulary)}: \text{{this, is, the, most, powerful, device, that, strongest, equipment}} $$ 중복된 단어를 제거하고 최종적으로 단어장..
Bag-of-Words와 나이브 베이즈 분류
Bag-of-Words 텍스트 마이닝 분야에서 딥 러닝 기술이 적용되기 이전에 자주 활용되었던 간단한 기법이다. 단어장에 등록된 단어가 어떠한 문장에 얼마나 등장했는지를 벡터(vector)로 표현하며, 단어장을 구성하는 과정을 필요로 한다. 먼저 텍스트 데이터 셋에서 unique한 단어들만 모아서 단어장(사전)을 구축한다. $$ \text{This is the most powerful device.}\\ \text{That is the strongest equipment.} $$ $$ \text{단어장(Vocabulary)}: \text{{this, is, the, most, powerful, device, that, strongest, equipment}} $$ 중복된 단어를 제거하고 최종적으로 단어장..