한국어 정보 검색에서 의미적 용어 불일치 완화 방안

Alleviating Semantic Term Mismatches in Korean Information Retrieval

  • 윤보현 (한국전자통신연구원 언어이해연구팀) ;
  • 박성진 (한신대학교 정보시스템공학과) ;
  • 강현규 (한국전자통신연구원 언어이해연구팀)
  • 발행 : 2000.12.01

초록

정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

An information retrieval system has to retrieve all and only documents which are relevant to a user query, even if index terms and query terms are not matched exactly. However, term mismatches between index terms and qucry terms have been a serious obstacle to the enhancement of retrieval performance. In this paper, we discuss automatic term normalization between words in text corpora and their application to a Korean information retrieval system. We perform two types of term normalizations to alleviate semantic term mismatches: equivalence class and co-occurrence cluster. First, transliterations, spelling errors, and synonyms are normalized into equivalence classes bv using contextual similarity. Second, context-based terms are normalized by using a combination of mutual information and word context to establish word similarities. Next, unsupervised clustering is done by using K-means algorithm and co-occurrence clusters are identified. In this paper, these normalized term products are used in the query expansion to alleviate semantic tem1 mismatches. In other words, we utilize two kinds of tcrm normalizations, equivalence class and co-occurrence cluster, to expand user's queries with new tcrms, in an attempt to make user's queries more comprehensive (adding transliterations) or more specific (adding spc'Cializationsl. For query expansion, we employ two complementary methods: term suggestion and term relevance feedback. The experimental results show that our proposed system can alleviatl' semantic term mismatches and can also provide the appropriate similarity measurements. As a result, we know that our system can improve the rctrieval efficiency of the information retrieval system.

키워드

참고문헌

  1. Han, C., Fujii, H., Croft, W.B., 'Automatic Query Expansion for Japanese Text Retrieval,' UMass Technical Report 95-11, 1995
  2. Grefenstte, G., 'Use of syntactic context to produce term association lists for text retrieval,' Proc. of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.89-97, 1992 https://doi.org/10.1145/133160.133181
  3. Jeong, K. S., Kwon, Y. H., Myaeng, S. H., 'Construction of Equivalence Class of Foreign Words through Automatic Identification and Extraction,' Proc. of Natural Language Processing Pacific Rim Symposium, pp.335-340, 1997
  4. Kim, B. H. 'Automatic Transliteration of the English words into Hangul,' Master Dissertation, Public Policy Graduated School, Seogang University, 1997
  5. Kukich, K., 'Techniques for Automatically Correcting Words in Text,' ACM Computing Survey, Vol.24, No.4, December, 1992 https://doi.org/10.1145/146370.146380
  6. Lee, J. S., Choi, K. S., 'English to Korean Statistical Transliteration for information retrieval,' Computer Processing of Oriental Languages, Vol.12, No.1, pp.17-37, 1998
  7. Mitra, M., Burkely, C., Singhal, A., Cardie, C., 'An Analysis of Statistical and Syntatic Phrases,' Proc. of Computer-Assisted Information Searching on Internet, pp.200-214, 1997
  8. Myaeng, S. H., Li, M., 'Building Term Clusters by Acquiring Lexical Semantics from a Corpus,' Proc. of International Conference of Information and Knowledge Management, pp.130-137, 1992
  9. Park, B. R., Yun, B. H., Rim., H. C., 'Automatic Identification of Standard words Corresponding to Misspelled Words based on Contextual Similarity,' Proc. of the Workshop on Information Retrieval with Asian Languages, pp.116-121, 1998
  10. Peat, H. J., Willett, P., 'The limitation of term co-occurrence data for query expansion in document retrieval system,' Journal of the American Society Information Science, 42(5), pp.378-383, 1991 https://doi.org/10.1002/(SICI)1097-4571(199106)42:5<378::AID-ASI8>3.0.CO;2-8
  11. Qiu, Y., Frei, H. P., 'Concept Based Query Expansion,' Proc. of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.160-169, 1993 https://doi.org/10.1145/160688.160713
  12. Ruge, G., 'Experiments on Linguistically-based term associations,' Information Processing & Management, 28(3), pp.317-332, 1992 https://doi.org/10.1016/0306-4573(92)90078-E
  13. Salton, G. Automatic Text Processing, Addison Wesley, 1989
  14. Strzalkowski, T., Perez-Carballo, J., Marinescu, M., 'Natural Language Information Retrieval: TREC-4 report,' The Fourth Text REtrieval Conference, NIST SP 500-236, 1996
  15. Yun, B. H., Cho, M. J., Rim, H. C., 'A Korean Information Retrieval Model Alleviating Syntactic Term Mismatches,' Proc. of Natural Language Processing Pacific Rim Symposium, pp.107-112, 1997
  16. 김진동, 이상주, 임해창, '어절 띄어쓰기를 고려한 형태소 단위 품사 태깅 모델', 제10회 한글 및 한국어정보처리 학술발표 논문집, pp.3-8, 1998
  17. 임희석, '어절의 중의성 유형 분류에 근거한 한국어 형태소 분석기', 고려대학교 석사학위 논문, 1993
  18. 윤보현, 조민정, 임해창, '통계정보와 선호규칙을 이용한 한국어 복합 명사의 분해', 정보과학회논문지,24권 8호, pp.900-909, 1997