A Study of automatic indexing based on the linguistic analysis for newspaper articles

언어학적 분석기법에 의한 신문기사 자동색인시스팀 설계에 관한 연구

  • Published : 1991.06.30

Abstract

So far, most of Korea's newspapers indexing have been done manually using tesaurus. In recent years, however, the need for automatic indexing system has grown stronger so as for indexers to save time, efforts and money. And some newspapers have started establishing their databases along with introducing electronic newspapers and CTS. This thesis is on establishing and automatic indexing system for the full-text of the Korea Economic Daily's articles, which have been accumulated in its database, KETEL. In my thesis, I suggest methods to create a keyword file, a stopword list, an auxiliary word list and an infected word list by applying linguistic analysis methods to Hangul, taking advantage of the language's morphological peculiarity. Through these studies, I was able to reach four conclusions as follows. First, we can obtain satisfactory keywords by automatic indexing methods that were made through morphological analysis. Second, an indexer can improve the efficiency of indexing work by controlling extracted vocabulary, as syntax analysis and semantic analysis is not complete in Hangul. Third, The keyword file in this system which is made of about 20,000 most-frequently-used newspaper terms can be used in the future in compiling a thesaurus. Finally, the suggested methods to prepare an auxiliary word list and an infected word list can be applicable to designing other automatic systems.

본 연구는 전자신문인 한경 KETEL의 기사 전문을 대상으로 키워드를 자동 추출하는 자동색인 시스팀을 구축한 것으로서 한글의 형태적 특성을 이용한 언어학적 분석기법을 적용해서 키워드 화일을 생성하는 법을 제시하였으며, 불용어리스트 조사표 용언인식표의 작성법을 상세히 기술했다. 본 연구에서 얻어진 결론은 다음과 같다. 첫째, 형태소 분석을 통한 자동색인 기법으로 만족할 만한 키워드를 추출할 수 있었다. 둘째, 아직까지는 컴퓨터에 의한 한글의 구문분석과 의미분석이 완전하지 못하므로 자동색인으로 추출된 색인어를 색인자가 조절함으로써 색인의 성능을 향상시킬 수 있었다. 셋째, 이 시스팀에서 만들어진 약 20,000어 정도의 키워드 화일은 향후 디소러스 작성에 기본 자료로 사용할 수 있다. 넷째, 본 시스팀에서는 역순사전을 활용해 조사표와 용언인식표 작성법을 제시하였는데, 이는 여러 자동색인 시스팀 설계에 적용될 수 있을 것이다.

Keywords