DOI QR코드

DOI QR Code

한국어 정보처리를 위한 명사 및 키워드 추출

Noun and Keyword Extraction for Information Processing of Korean

  • 신성윤 (군산대학교 컴퓨터정보공학과) ;
  • 이양원 (군산대학교 컴퓨터정보공학과)
  • 발행 : 2009.03.31

초록

언어에서 명사 및 키워드 추출은 정보처리에서 매우 필수적인 요소이다. 하지만, 한국어 정보처리에서 명사 추출과 키워드 추출은 아직도 많은 문제점을 안고 있다. 본 논문에서는 명사의 등장 특성을 고려한 효율적인 명사 추출 방법에 대해서 제시하였다. 제시한 방법은 대량의 문서를 빠르게 처리해야 하는 정보 검색과 같은 분야에서 유용하게 쓰일 수 있다. 또한 대량의 문제를 자동으로 분류하기 위하여 비감독 학습 기법에 의해 카테고리별 키워드를 구성하기 위한 방법을 제안하였다. 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X2기법과 DF 기법보다 우수한 분류 성능을 보였다.

In a language, noun and keyword extraction is a key element in information processing. When it comes to processing Korean language information, however, there are still a lot of problems with noun and keyword extraction. This paper proposes an effective noun extraction method that considers noun emergence features. The proposed method can be effectively used in areas like information retrieval where large volumes of documents and data need to be processed in a fast manner. In this paper, a category-based keyword construction method is also presented that uses an unsupervised learning technique to ensure high volumes of queries are automatically classified. Our experimental results show that the proposed method outperformed both the supervised learning-based X2 method known to excel in keyword extraction and the DF method, in terms o classification precision.

키워드

참고문헌

  1. 정민수, "코퍼스로부터 구문분석을 위한 사전 구성," 군산대학교 대학원 석사학위 논문, 1999년 2월
  2. 이재성, 박재득, 차건희, 박세영, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요, "형태소 분석기 및 품사 태거 평가대회(MATEC99) 개요," 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문집, 13-22쪽, 1999년 10월
  3. 김준홍, 김준홍, 김재훈, 박호진, "문서요약을 위한 한국어 기준명사 추출 시스템," 한국해양대학교 산업기술연구소 연구논문집, 제19권, 169-184쪽, 2002년
  4. Masaaki NAGATA, Teruka SAITO, Kenji SUZUKI. "Using the web as a bilingual dictionary," Proceedings of the workshop on Data-driven methods in machine translation. Vol. 14, pp. 1-8, July 2001.
  5. QING LI, SUNG HYON MYAENG, YUN JIN, KANG Bo-Yeong, "Translation of Unknown Terms via Web Mining for Information Retrieval," Asia Information Retrieval Symposium No 3, vol. 4182, pp. 258-269, Oct. 2006.
  6. 박소영, "웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축", 한국컴퓨터정보학회논문지, 제13권, 제3호, 27-33쪽, 2008년 5월.
  7. Lee D. G., Lee S. Z., Rim H. C., "An Efficient Method for Korean Noun Extraction Using Noun Patterns," Journal of Korean Information Science Society, Vol. 30, No. 2, pp. 173-183, 2003년 2월.
  8. 김지숙, 김영지, 문현정, 우용태, "효율적인 문서 자동분류를 위한 대표 색인어 추출 기법," 정보기술과 데이터베이스저널, 제8권 제1호, 295-302쪽, 2001년 6월.