Proceedings of The KACE (한국컴퓨터교육학회 학술대회)
- 2017.08a
- /
- Pages.41-45
- /
- 2017
- /
- 2287-4097(pISSN)
Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order
단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류
- Kim, Nam-Hun (Dept. of Computer Science, Chonnam National University) ;
- Yang, Hyung-Jeong (Dept. of Computer Science, Chonnam National University)
- Published : 2017.08.09
Abstract
본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.
Keywords