Automatic Generating Stopword Methods for Improving Topic Model

Lee, Jung-Been;In, Hoh Peter;

doi:10.3745/PKIPS.y2017m04a.869

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

한국정보처리학회 2017년도 춘계학술발표대회
/
Pages.869-872
/
2017
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

DOI QR Code

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법

Automatic Generating Stopword Methods for Improving Topic Model

이정빈 (고려대학교 컴퓨터학과) ;
인호 (고려대학교 컴퓨터학과)

Lee, Jung-Been (Dept of Computer Science, Korea Universityty) ;
In, Hoh Peter (Dept of Computer Science, Korea Universityty)

발행 : 2017.04.27

https://doi.org/10.3745/PKIPS.y2017m04a.869 인용 PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법

Automatic Generating Stopword Methods for Improving Topic Model

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)