질의응답시스템 응답순위 개선을 위한 새로운 유사도 계산방법

A New Similarity Measure for Improving Ranking in QA Systems

  • 김명관 (서울보건대학 전산정보처리과) ;
  • 박영택 (숭실대학교 컴퓨터학부)
  • 발행 : 2004.12.01

초록

본 논문에서는 질의응답시스템의 성능을 개선하기 위해 문장의 위치정보와 질의형태분류기를 사용하여 질의에 대한 대답순위를 조정하는 새로운 질의-문서 유사도 계산을 제안한다. 이를 위해 첫째로 문서내용을 표현하고 문서의 위치정보를 반영하기 위해 개념그래프를 사용한다. 이 방법은 문서비교에 대표적으로 사용되는 Dice-Coefficient에 기반하고 문장에서 단어의 위치정보론 반영한 유사도 계산이다. 두번째로 질의응답시스템의 대답순위를 개선하기 위하여 질의형태를 고려한 기계학습을 통한 질문에 대한 분류를 하였으며 이를 위해서 뉴스그룹의 FAQ 문서 30,000개를 가지고 기계학습 방법인 나이브 베이지안을 사용한 분류기를 구현하였다. 이에 대한 평가를 위해 세계적인 정보검색대회인 TREC-9의 질의응답시스템분야에 제출된 데이타를 가지고 실험하였으며 기존의 방법에 비해 자동학습기법을 사용하였음에도 평균상호순위가 0.29, 상위 5위에 정답을 포함시킨 경우가 55.1%의 성능을 보였다. 이 방법은 다른 시스템과 달리 질의형태분류를 기계학습 방법을 사용하여 자동으로 학습하는 것에 의의를 갖는다.

The main idea of this paper is to combine position information in sentence and query type classification to make the documents ranking to query more accessible. First, the use of conceptual graphs for the representation of document contents In information retrieval is discussed. The method is based on well-known strategies of text comparison, such as Dice Coefficient, with position-based weighted term. Second, we introduce a method for learning query type classification that improves the ability to retrieve answers to questions from Question Answering system. Proposed methods employ naive bayes classification in machine learning fields. And, we used a collection of approximately 30,000 question-answer pairs for training, obtained from Frequently Asked Question(FAQ) files on various subjects. The evaluation on a set of queries from international TREC-9 question answering track shows that the method with machine learning outperforms the underline other systems in TREC-9 (0.29 for mean reciprocal rank and 55.1% for precision).

키워드

참고문헌

  1. 이경순, 김재호, 최기선, '질의응답 시스템의 성능 평가를 위한 테스트컬렉션 구축', 제12회 한글 및 한국어 정보처리 학술대회, pp. 190-197, 2000
  2. Voorhees, E. and Harmon, D., 'Overview of the TREC 2001 Question Answering Track,' TREC-10 Proceedings, 2001
  3. 이영신, 황영숙, 임해창, '질의응답 시스템을 위한 가변 길이 단락 검색', 제14회 한글과 한국어정보처리 학술대회. pp. 259-266, 2002
  4. Lin, J., 'Indexing and Retrieving Natural Language Using Ternary Expression,' Master's Thesis, Massachusetts Institute of Technology, 2001
  5. Li, J. and Yu, Z., 'Learning to Generate CGs from Domain Specific Sentences,' The Proceedings of the 9th International Conference on Conceptual Structures, 2001
  6. Katz, Boris and Winston, Patric H., 'A two-way natural language interface,' In proceedings of the European Conference on Integrated Interactive Computing Systems, 1982
  7. Fagan, Joel L., 'Experiments in Automatic Phrase Indexing for Document Retrieval,' Ph.D thesis, Cornell University, 1987
  8. Xu, J. and Croft, W. B., 'Improving the effectiveness of information retrieval with local context analysis,' ACM Transaction on Information Systems, vol. 18, No.l, pp.79-112, 2000 https://doi.org/10.1145/333135.333138
  9. Alpha, S. Dixon, P. Liao,C., 'Oracle at TREC 10,' TREC-10 Proceedings, 2001
  10. Moldovan, D., 'A tool for surfing the answer net,' TREC-8 Proceedings, 1999
  11. Aliod, D. and Berri, J., 'A real world implementation of answer extraction,' In Proceedings of the 9th International Workshop on Database and Expert Systems, 1998 https://doi.org/10.1109/DEXA.1998.707394
  12. Cardie, C. and Pierce, D., 'Examining the role of statistical and linguistic knowledge sources in a general-knowledge question answering system,' ANLP-2000, 2000 https://doi.org/10.3115/974147.974172
  13. Harabagiu, S. M., 'Experiments with open-domain textual question-answering,' COLING-2000, 2000 https://doi.org/10.3115/990820.990863
  14. Hovy, E.H., 'Question Answering in Webclopidia,' TREC-9 Proceedings, 2000
  15. Strzalkowski, Tomek., 'Natural Language Information Retrieval,' TREC-5 Proceedings, 1996