Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법

  • 원형석 (포항공과대학교 학술정보원) ;
  • 박미화 (포항공과대학교 학술정보원) ;
  • 이근배 (포항공과대학교 컴퓨터공학과)
  • Published : 2000.01.15

Abstract

In this paper, we propose an integrated indexing method with compound noun segmentation and noun phrase synthesis. Statistical information is used in the compound noun segmentation and natural language processing techniques are carefully utilized in the noun phrase synthesis. Firstly, we choose index terms from simple words through morphological analysis and part-of-speech tagging results. Secondly, noun phrases are automatically synthesized from the syntactic analysis results. If syntactic analysis fails, only morphological analysis and tagging results are applied. Thirdly, we select compound nouns from the tagging results and then segment and re-synthesize them using statistical information. In this way, segmented and synthesized terms are used together as index terms to supplement the single terms. We demonstrate the effectiveness of the proposed integrated indexing method for Korean compound noun processing using KTSET2.0 and KRIST SET which are a standard test collection for Korean information retrieval.

본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

Keywords

References

  1. 이원일, '단일화 기반 범주 문법에 기반한 음성 한국어 처리', 포항공대 박사학위 논문, 1998
  2. Jeongwon Cha, Wonil Lee, Geunbae Lee and Jong-Hyeok Lee, 'Morpho-Syntactic Modeling of Korean with K-CCG,' Proceedings of the 18th ICCPOL, pp. 67-74, 1999
  3. Smith, M.E., 'Aspects of the P-Norm model of Information Retrieval: Syntactical query generation, Efficiency and Theoretical properties,' Ph.D. Thesis, CS, Cornell Univ., 1990
  4. Gerard Salton, Chris buckley, 'A comparison between statistically and syntactically generated term phrases,' Tr89-1027, CS department, Cornell Univ., 1989
  5. Joel L. Fagan, 'The effectiveness of a non-syntactic approach to automatic phrase indexing for document retrieval,' JASIS, Vol.40, No.2, pp.115-132, 1989 https://doi.org/10.1002/(SICI)1097-4571(198903)40:2<115::AID-ASI6>3.0.CO;2-B
  6. Joel L. Fagan, 'Experiments in automatic phrase indexing for document retrieval: a comparison of syntactic and non-syntactic methods,' Ph.D. thesis, Cornell University, 1987
  7. Chengxiang Zhai, 'Fast statistical parsing of noun phrases for document indexing,' Fifth conference on applied natural language processing, pp.312-319, 1997 https://doi.org/10.3115/974557.974603
  8. 남세진, 이지연, 신동욱, 채미옥, '복합명사의 통계적 처리에 대한 평가', 제8회 한글 및 한국어 정보처리 학술발표논문집, pp. 36-41, 1996
  9. 이현아, '구문분석과 공기 정보를 이용한 개념 기반 명사구 색인 방법', 포항공대 전산과 석사 학위 논문, 1996
  10. 윤보현, 김상범, 임해창, '한국어 정보검색에서 구문적 용어 불일치 완화방안', 제 10회 한글 및 한국어 정보처리 학술발표 논문집, pp.143-149, 1998
  11. 김미진, 박미성, 장혁창, 이상조, 최재혁, '고빈도어를 이용한 복합명사 색인어 추출 방안', 제 10회 한글 및 한국어 정보 처리 학술 발표 논문집, pp.121-129, 1998
  12. 윤준태, 정의석, 송만석, '명사간 어휘 정보를 이용한 한국어 복합 명사 분석', 정보과학회논문지(B), 제 25권, 제 11호, 1998
  13. 윤보현, 조민정, 임해창, '통계 정보와 선호 규칙을 이용한 한국어 복합 명사의 분해', 정보과학회논문지(B), 제24권, 제8호, 1997
  14. 심광섭, '합성된 상호 정보를 이용한 복합명사 분리', 정보과학회 논문지(B), 제24권, 제11호, pp.1307-1317, 1997
  15. 장동현, 맹성현, '효율적인 색인어 추출을 위한 복합명사 분석 방법', 제8회 한글 및 한국어 정보처리 학술발표논문집, pp.32-35, 1996
  16. 강승식, '한국어 복합명사 분해 알고리즘', 정보과학회논문지(B), 제25권, 제1호, pp.172-182, 1998
  17. 채영숙, 권혁철, '말뭉치로부터 추출된 통계정보를 활용한 한국어 복합명사 분석', 인지과학회 논문지, 제8권, 제2호, pp.101-108, 1997
  18. Stanley Chen and Joshua Goodman, 'An empirical study of smoothing techniques for language modeling,' Proceedings of the 34th Annual meeting of the Association for Computational Linguistics, pp.310-318, 1996 https://doi.org/10.3115/981863.981904
  19. 최대선, '구 색인에서 성분 단어의 가중치 부여 방법에 관한 연구', 포항공대 석사학위 논문, 1997
  20. 김재군, 김영환, 김성혁, '한국어 정보검색연구를 위한 시험용 데이터 모음(KISET) 개발', 제6회 한글 및 한국어 정보처리 학술 발표 논문집, pp. 378-385, 1994
  21. 이준호, 최광남, 한현숙, 김종원, 남성원, '정보검색 연구를 위한 KRIST 테스트 컬렉션의 개발', 정보관리학회지, 제12권, 제2호, pp. 225-232, 1995
  22. 박미화, 원형석, 이원일, 이근배, '구문분석에 기반한 자연언어 질의로부터 불리언 질의 생성', 제10회 한글 및 한국어 정보처리 학술 발표 논문집, pp73-80, 1998