DOI QR코드

DOI QR Code

Keyword Extraction in Korean Using Unsupervised Learning Method

비감독 학습 기법에 의한 한국어의 키워드 추출

  • 신성윤 (군산대학교 컴퓨터공학과) ;
  • 이양원 (군산대학교 컴퓨터공학과)
  • Received : 2010.05.28
  • Accepted : 2010.05.28
  • Published : 2010.06.30

Abstract

Korean information retrieval uses noun as index terms or keywords of representing the document. and noun and keyword extraction is to find all nouns presented in the document, In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용하는데, 이러한 명사 및 키워드 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업이다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

Keywords

References

  1. 정민수, "코퍼스로부터 구문분석을 위한 사전 구성," 군산대학교 대학원 석사학위 논문, 1999.
  2. 이재성, 박재득, 차건희, 박세영, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.13-22, 1999.
  3. 김남철, 서영훈, "형태소 분석기 CMKMA와 색인어추출기 CBKMA/IX," 제1회 형태소 분석기 및 품사태거평가 워크숍 논문집, p.50-59, 1999.
  4. 이중영, 신병훈, 이공주, 김지은, 안상규, "COM 기반의 다목적 형태소 본석기를 이용한 명사 추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.167-172, 1999.
  5. 안동언, "좌우접속정보를 이용한 명사추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.173-178, 1999.
  6. 심준혁, 김준석, 이근배, "통계와 규칙을 이용한 강인한 품사태거," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.60-75, 1999.
  7. 권오옥, 정유진, 김미영, 류동원, 이문기, 이종혁, "음절 단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사 태거", 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.76-88, 1999.
  8. 이운재, 김선배, 김길연, 최기선, "모듈화된 형태소 분석기의 구현," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.123-136. 1999.
  9. 장동현, 맹성현, "학습데이타를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, pp.151-156, 1999.
  10. Masaaki NAGATA, Teruka SAITO, Kenji SUZUKI, "Using the web as a bilingual dictionary", Proceedings of the workshop on Data-driven methods in machine translation, pp. 1-8, 2001
  11. QING LI, SUNG HYON MYAENG, YUN JIN, KANG Bo-Yeong, " Translation of Unknown Terms via Web Mining for Information Retrieval", Asia Information Retrieval Symposium No 3, vol. 4182, pp. 258-269, 2006
  12. Lee D. G., Lee S. Z., Rim H. C., "An Efficient Method for Korean Noun Extraction Using Noun Patterns, Journal of Korean Institute of Information Scientists and Engineers, Vol. 30, No. 2, 2003
  13. 김지숙, 김영지, 문현정, 우용태, "효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법", 정보기술과 데이터베이스저널, 제8권 제1호, 2001
  14. D. D. Lewis and W. A. Gale., "A sequential algorithm for training text classifiers," In Proceedings of the Seventeenth Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 3-12, 1994.