Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order

Kim, Nam-Hun;Yang, Hyung-Jeong;

한국컴퓨터교육학회 학술대회 (Proceedings of The KACE)

한국컴퓨터교육학회 2017년도 하계학술대회
/
Pages.41-45
/
2017
/
2287-4097(pISSN)

한국컴퓨터교육학회 (The Korean Association of Computer Education)

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류

Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order

김남훈 (전남대학교 전자컴퓨터공학대학원) ;
양형정 (전남대학교 전자컴퓨터공학대학원)

Kim, Nam-Hun (Dept. of Computer Science, Chonnam National University) ;
Yang, Hyung-Jeong (Dept. of Computer Science, Chonnam National University)

발행 : 2017.08.09

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

한국컴퓨터교육학회 학술대회 (Proceedings of The KACE)

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류

Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)