(A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System)

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기

  • 김학수 (서강대학교 컴퓨터학과 자연어처리 연구실) ;
  • 안영훈 (서강대학교 컴퓨터학과 자연어처리 연구실) ;
  • 서정연 (서강대학교 컴퓨터학과)
  • Published : 2003.06.01

Abstract

To build an efficient Question-Answering (QA) system, a question type classifier is needed. It can classify user's queries into predefined categories regardless of the surface form of a question. In this paper, we propose a question type classifier using a Support Vector Machine (SVM). The question type classifier first extracts features like lexical forms, part of speech and semantic markers from a user's question. The system uses $X^2$ statistic to select important features. Selected features are represented as a vector. Finally, a SVM categorizes questions into predefined categories according to the extracted features. In the experiment, the proposed system accomplished 86.4% accuracy The system precisely classifies question type without using any rules like lexico-syntactic patterns. Therefore, the system is robust and easily portable to other domains.

고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

Keywords

References

  1. Voorhees E. and Tice D. M., 'Building a Question Answering Test Collection', In Proceedings of SIGIR 2000, pp. 200-207, 2000 https://doi.org/10.1145/345508.345577
  2. AAAI Fall Symposium on Question Answering, http://www.aaai.org/Press/Reports/Symposia/Fall/fs-99-02.html
  3. TREC (Text REtrieval Conference) Overview, http://trec.nist.gov/overview.html
  4. Moldovan D., Harabagiu S., Pasca M., Mihalcea R., Goodrum R., Girju R. and Rus V., 'LASSO: A Tool for Surfing the Answer Net', In Proceedings of The Eighth Text REtrieval Conference (TREC-8), from http://trec.nist.gov/pubs/trec8/t8_proceedings.html, 1999
  5. Prager J., Radev D., Brown E. and Coden A., 'The Use of Predictive Annotation for Question Answering in TREC8', In Proceedings of The Eighth Text REtrieval Conference (TREC-8), from http://trec.nist.gov/pubs/trec8/t8_proceedings.html, 1999
  6. O. Ferret, B. Grau, G. Illouz, and C. Jacquemin, 'QALC the Question-Answering program of the Language and Cognition group at LIMSI-CNRS', In Proceedings of the Eighth Text REtrieval Conference (TREC-8), http// trec.nist.gov/pubs/trec8/t8_proceedings.html, Gaithersburg, Maryland, 1999
  7. Harabagiu S., Moldovan D., Pasca M., Mihalcea R., Surdeanu M., Bunescu R., Girju R., Rus V. and Morarescu P., 'FALCON: Boosting Knowledge for Answer Engines', In Proceedings of the Ninth Text REtrieval Conference, from http:// trec.nist.gov/pubs/trec9/t9_proceedings.html, 2000
  8. Kupiec J., 'Murax: A Robust Linguistic Approach for Question Answering Using an On-line Encyclopedia', In Proceedings of SIGIR'93, 1993 https://doi.org/10.1145/160688.160717
  9. Berri J., Molla D., and Hess M., 'Extraction automatique de reponses: implementations du systeme ExtrAns', In Proceedings of the fifth conference TALN 1998, pp. 10-12, 1998
  10. Vicedo J. L. and Ferrandex A., 'Importance of Pronominal Anaphora resolution in Question Answering systems', In Proceeding of ACL 2000, pp. 555-562, 2000 https://doi.org/10.3115/1075218.1075288
  11. Prager J., Brown E. and Coden A., 'Question-Answering by Predictive Annotation', In Proceedings of SIGIR 2000, pp. 184-191, 2000 https://doi.org/10.1145/345508.345574
  12. Hermjakob U., 'Parsing and Question Classification for Question Answering', In Proceedings of the ACL Workshop Open-Domain Question Answering, pp. 17-22, 2001
  13. Ittycheriah A., Franz M., Zhu W. and Ratnaparkhi A., 'IBM's Statistical Question Answering System', In Proceedings of the Ninth Text REtrieval Conference, http://trec.nist.gov/pubs/trec9/t9_pro-ceedings.html, Maryland, 2000
  14. Ittycheriah A., Franz M., Zhu W. and Ratnaparkhi A., 'Question Answering Using Maximum Entropy Components', In Proceedings of NAACL, 2001 https://doi.org/10.3115/1073336.1073341
  15. Mann G. S., 'A Statistical Method for Short Answer Extraction', In Proceedings of the ACL Workshop Open-Domain Question Answering, pp. 13-30, 2001
  16. Miller G., WordNet: An on-line lexical database, International Journal of Lexicography, Vol. 3(4), 1990
  17. U. Hermjakob and R. J. Mooney, 'Learning Parse and Translation Decisions From Examples With Rich Context', In Proceedings of the 35th ACL, pp. 482-489, 1997
  18. Vapnik V., The Natural of Statistical Learning Theory, Springer, New York, 1995
  19. diquest, http://www.diquest.com
  20. Maarek Y., Berry D. and Kaiser G., An Information Retrieval Approach For Automatically Construction Software Libraries, IEEE Transaction On Software Engineering, Vol. 17, No. 8, pp.800-813, August 1991 https://doi.org/10.1109/32.83915
  21. Y. Yang and J. O. Pederson, 'A comparative study on feature selection in text categorization', In Proceedings of the 14th International Conference on Machine Learning, 1997
  22. $SVM^{light}$, http://ais.gmd.de/~thorsten/svm_light
  23. J. Weston and C. Watkins, 'Support vector machines for multiclass pattern recognition', In Proceedings of the 7th European Symposium On Artificial Neural Networks, April 1999
  24. Kim H., Kim K., Lee G. G. and Seo J., 'MAYA: A Fast Question-answering System Based On A Predictive Answer Indexer', In Proceedings of the ACL Workshop Open-Domain Question Answering, pp. 9-16, 2001
  25. 김학수, 안영훈, 서정연, 하이브리드 방법에 기반한 사용자 질의 의도 분류, 한국정보과학회 제30권 1,2호, pp. 51-57, 2003