Semantic Query Expansion based on Concept Coverage of a Deep Question Category in QA systems

질의 응답 시스템에서 심층적 질의 카테고리의 개념 커버리지에 기반한 의미적 질의 확장

  • 김혜정 (경북대학교 컴퓨터공학과) ;
  • 강보영 (한국정보통신대학교 컴퓨터공학과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 2005.06.01

Abstract

When confronted with a query, question answering systems endeavor to extract the most exact answers possible by determining the answer type that fits with the key terms used in the query. However, the efficacy of such systems is limited by the fact that the terms used in a query may be in a syntactic form different to that of the same words in a document. In this paper, we present an efficient semantic query expansion methodology based on a question category concept list comprised of terms that are semantically close to terms used in a query. The semantically close terms of a term in a query may be hypernyms, synonyms, or terms in a different syntactic category. The proposed system constructs a concept list for each question type and then builds the concept list for each question category using a learning algorithm. In the question answering experiments on 42,654 Wall Street Journal documents of the TREC collection, the traditional system showed in 0.223 in MRR and the proposed system showed 0.50 superior to the traditional question answering system. The results of the present experiments suggest the promise of the proposed method.

질의응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer type) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 흑은 다른 문법적 정보를 가진 카테고리에 등장하여 정답 추출에 어려움이 따른다. 만약, 질의에서 요구하는 정보유형을 보다 깊게 세분화하고, 세분화된 질의 유형과 개념적으로 유사한 문장을 대상으로 정답 추출을 수행할 수 있다면 보다 정확한 정답을 추출할 수 있을 것이다. 따라서, 본 논문은 심층 질의 카테고리의 개념 커버리지에 기반한 효과적인 의미적 질의 확장 방법론을 제안한다. 질의에서 요구하는 정보 유형을 보다 세분화된 심충 질의 카테고리로 나누고, 이러한 심층 질의 카테고리를 표현하기 위해 동원되는 어휘 집합에 질의 확장을 적용함으로써 정답 추출의 성능을 향상시키고자 하였다. 제안된 시스템의 성능 평가를 위하여, TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건과 TREC-9의 질의를 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

Keywords

References

  1. M. Pasca and S. Harabagui, 'High Performance Question/Answer,' In Proceedings of the 24rd ACM-SIGIR Conference, pp. 366-374, 2001 https://doi.org/10.1145/383952.384025
  2. J. Kupiec, 'MURAX: A Robust Linguistic Approach for Question Answering Using an On-line Encyclopedia,' In Proceedings of the 16th ACM SIGlR Conference, pp. 181-190, 1993 https://doi.org/10.1145/160688.160717
  3. S. Na, I. Kang, O. Kwan, and J. Lee, 'Answer Candidate Ranking based on syntactic Proximity in Question Answering,' In Proceedings of the 29th KISS Sprint Conference, pp. 478-480, 2002
  4. R. Mandela, T. Tokunaga, and H. Tanaka, 'Combining Multiple Evidence from Different Types of Thesaurus,' In Proceedings of the 17th ACM-SIGIR Conference, pp. 15-19, 1999
  5. J. Prager and J. C-Carroll, 'Use of WordNet Hypernyms for Answering What-Is Questions,' In Proceedings of TREC-2001, pp. 143-150, 2000
  6. C. Cardie, V. Ng, D. Pierce, and C. Buckley, 'Examining the Role of Statistical and Linguistic Knowledge Sources in a General-Knowledge Question-Answering System,' In Proceedings of the 6th ANLP, pp. 180-187, 2000 https://doi.org/10.3115/974147.974172
  7. G. Miller, 'WordNet: A Lexical Database for English,' In Proceedings of the Communications of the ACM, pp. 39-41, 1995 https://doi.org/10.1145/219717.219748
  8. E. Voorhees, 'Query Expansion using Lexical-Semantic Relations,' In Proceedings of the 17th ACM-SIGIR Conference, pp. 61-69, 1994
  9. D. Moldovan and R. Mihalcea, 'Using WordNet and Lexical Operators to Improve Internet Searches,' In Proceedings of IEEE Internet Computing, pp. 34-43, 2000 https://doi.org/10.1109/4236.815847
  10. R. Mandela, T. Tokunage and H. Tanaka, 'Combining Multiple Evidence from Different Types of Thesaurus for Query Expansion,' In Proceedings of the 22nd Annual International ACM SIGIR Conference, pp. 15-19, 1999 https://doi.org/10.1145/312624.312677
  11. J. Prager, D. Radev, E. Brown, and A. Coden, 'The Use of Predictive Annotation for Question Answering in TREC8,' In Proceedings of TREC-2000, pp. 399-411, 2000
  12. J. Prager, D. Radev, and K. Czuba 'Answering What-Is Questions by Virtual Annotation,' In Proceedings of Human Language Technology Conference, pp. 26-30, 2001 https://doi.org/10.3115/1072133.1072139
  13. Y. Kiyota, S. Kurohashi, and F. Kido, 'Dialog Navigator:A Question Answering System based on Large Text knowledge Base,' In Proceedings of COLING, pp. 460-466. 2002 https://doi.org/10.3115/1072228.1072312
  14. D. Ravichandran and E. Hovy 'Learning Surface Text Patterns for a Question Answering system,' In Proceedings of the ACL Conference, pp. 41-47, 2002
  15. TREC(Text REtrieval Conference) : http://trec.nist.gov/overview.html