한국정보통신학회:학술대회논문집 (Proceedings of the Korean Institute of Information and Commucation Sciences Conference)
- 한국정보통신학회 2015년도 추계학술대회
- /
- Pages.242-245
- /
- 2015
TF-IDF와 Naïve Bayes 분류기를 활용한 문서 분류 기법
Text Document Classification Scheme using TF-IDF and Naïve Bayes Classifier
- Yoo, Jong-Yeol (Dept. of Information & Communications Engineering, Daejeon University) ;
- Hyun, Sang-Hyun (Dept. of Information & Communications Engineering, Daejeon University) ;
- Yang, Dong-Min (Dept. of Information & Communications Engineering, Daejeon University)
- 발행 : 2015.10.26
초록
최근 디지털 경제의 확산으로 대규모의 데이터들이 생성되는 빅데이터 시대가 도래하고 있다. 이러한 빅데이터에서 비정형 데이터 중에서 기술문서, 기밀문서, 허위정보문서 등 유출 시 심각한 문제가 발생하는 텍스트 문서들이 존재한다. 이러한 문제를 방지하기 위해 비정형 텍스트 문서를 분류하고 처리하는 기술의 필요성이 크게 증가하고 있다. 본 논문에서는 TF-IDF와
Recently due to large-scale data spread in digital economy, the era of big data is coming. Through big data, unstructured text data consisting of technical text document, confidential document, false information documents are experiencing serious problems in the runoff. To prevent this, the need of art to sort and process the document consisting of unstructured text data has increased. In this paper, we propose a novel text classification scheme which learns some data sets and correctly classifies unstructured text data into two different categories, True and False. For the performance evaluation, we implement our proposed scheme using