DOI QR코드

DOI QR Code

Verb Sense Disambiguation using Subordinating Case Information

종속격 정보를 적용한 동사 의미 중의성 해소

  • 박요셉 (전남대학교 전자컴퓨터공학과) ;
  • 신준철 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
  • 박혁로 (전남대학교 전자컴퓨터공학부)
  • Received : 2001.06.14
  • Accepted : 2011.07.04
  • Published : 2011.08.31

Abstract

Homographs can have multiple senses. In order to understand the meaning of a sentence, it is necessary to identify which sense isused for each word in the sentence. Previous researches on this problem heavily relied on the word co-occurrence information. However, we noticed that in case of verbs, information about subordinating cases of verbs can be utilized to further improve the performance of word sense disambiguation. Different senses require different sets of subordinating cases. In this paper, we propose the verb sense disambiguation using subordinating case information. The case information acquire postposition features in Standard Korean Dictionary. Our experiment on 12 high-frequency verb homographs shows that adding case information can improve the performance of word sense disambiguation by 1.34%, from 97.3% to 98.7%. The amount of improvement may seem marginal, we think it is meaningful because the error ratio reduced to less than a half, from 2.7% to 1.3%.

동형이의어는 여러 가지 의미를 가진 단어를 의미한다. 문장의 의미를 이해하기 위해서는 필수적으로 문장에 포함된 동형이의어의 의미를 결정해야 한다. 기존의 단어 의미 중의성 연구들은 공기 빈도를 기반으로 해결하였다. 하지만, 동사의 경우에는 정확도 향상을 위해서 격 정보가 중요하다. 왜냐하면, 동사 동형이의어의 의미는 행위의 주체나 객체에 따라 결정되어서 종속격(목적격, 부사격, 보격) 정보가 필요하며, 동사동형이의어 의미마다 서로 다른 격 정보가 필요하기 때문이다. 본 논문에서는 한국어 격 정보를 적용한 동사 의미 중의성 해소를 제안한다. 격정보는 표준국어대사전에 명시된 조사 정보를 이용하였다. 실험은 고빈도 동형이의어 12개를 대상으로 하였으며, 실험결과 정확도가 기존의 97.3%에서 98.7%로 1.34% 향상되었다. 이는 원래의 오류율을 2.7%에서 1.3%으로 절반정도 줄였다.

Keywords

References

  1. 김영택, '자연언어처리', 생능출판사, 2001.
  2. Roberto Navigli,"Word Sense Disambiguation : A Survey", ACM Computing Survey, Vol.41, No.2, 2009.
  3. J.R. Quinlan, "Induction of decision trees", Machine Learning Vol.1, No.1, pp.81-106, 1986.
  4. J.R. Quinlan, 'Programs for Machine Learning", Morgan Kaufmann', 1993.
  5. Gerand Escudero, "Naive Bayes and Exemplar-Based approaches to Word Sense Disambiguation Revisited", In Proceedings of the 14th European Conference on Artificial Intelligence, pp.421-425, 2000.
  6. Tae-Gil Noh, Seong-Bae Park, Sang-Jo Lee, "Unsupervised word sense disambiguation in biomedical texts with co-occurrence network and graph kernel", ACM fourth international workshop on data and text mining in biomedical informatics(DTMBIO '10), pp.61-64, 2010.
  7. Yorick A. Wilks, Brian M. Slator, Louise M. Gutherie, 'Electric Words: Dictionaries, Computers and Meanings', MIT Press, 1996.
  8. Andrew Harley, Dominic Glennon, "Sense Tagging in Action : Combining Different Tests with Additive Weightings", Proceedings of the SIGLEX Workshop on tagging text with lexical semantics, pp.74-78, 1997.
  9. Roget P.M, 'Roget's International Thesaurus', Bebook, 1991.
  10. John R.L. Bernard, "Macquarie Thesaurus", The Macquarie Library, 1986.
  11. David Yarowsky, "Word Sense Disambiguation Using Statistical Models of Roget's Categories Trained on Large Corpora", Proceedings of the 14th COLING, pp.454-460, 1992.
  12. 옥철영, 김준수, 옥은주, 이왕우, 이재흥, 최호섭, '한국어정보처리에서 동형이의어 중의성 해결 시스템 기술', 정보통신부, 2002.
  13. http://www.stdweb2.korean.go.kr/(국립국어원 표준국어대사전)
  14. 허정, 옥철영, "사전의 뜻풀이 말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템", 정보과학회논문지(소프트웨어 및 응용), 제28권, 제9호, pp.688-698, 2001.
  15. 김준수, 최호섭, 옥철영, "가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델", 정보과학회논문지(소프트웨어 및 응용), 제30권, 제11호, pp.1112-1123, 2001.
  16. 김준수, 옥철영, "정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템", 정보처리학회논문지(B), 제12권, 제7호, pp.829-840, 2005. https://doi.org/10.3745/KIPSTB.2005.12B.7.829
  17. 허정, 서희철, 장명길, "상호 정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소", 정보과학회논문지(소프트웨어 및 응용), 제33권, 제12호, pp.1073-1089, 2006.
  18. Michael Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries : How to Tell a Pine Cone from an Ice Cream Cone", SIGDOC-86 Proceedings of the 5th annual international conference on Systems Documentation, pp.24-26, 1986.
  19. 김동명, 배영준, 옥철영, 최호섭, 김창환, "HMM을 이용한 한국어 품사 및 동형이의어 태깅 시스템", 제20회 한글 및 한국어 정보처리 학술대회 발표논문, pp.12-16, 2008.
  20. Sammer S. Pradhan, Edward Loper, Dmitriy Dligach, Martha Palmer, "SemEval-2007 Tasks 17 : Enlglish Lexical Sample, SRL and All Words", Proceedings of the 4th International Workshop on Semantic Evaluations, pp.87-92, 2007.
  21. Simone Paolo Ponzetto, Roberto Navigli, "Knowledge-rich Word Sense Disambiguation Rivaling Supervised Systems", Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pp.1522-1531, 2010.
  22. Roberto Navigli, Mirella Lapata, "An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation", IEEE Transanctions on Parttern Analysis and Machine Intelligence, Vol.32, No.4, pp.678-692, 2010. https://doi.org/10.1109/TPAMI.2009.36
  23. 김원경, '한국어의 격', 박문사, 2009.
  24. Lawrence Rabiner(1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Vol.77, No.2, 1989.
  25. 김재한, 옥철영, "어절 사전을 이용한 한국어 형태소 분석", 1994년 정보과학회 봄 학술발표논문집, 제21권, 제1호, pp.813-816, 1994.
  26. 임수종 박영자, 송만석, "가중치 정보를 이용한 한국어 동사의 의미 중의성 해소", 제10회 한글 및 한국어 정보 처리 학술대회 발표논문, pp.425-429, 1998.
  27. 남승호, '한국어 술어의 사건 구조와 논항 구조', 서울대학교 출판사, 2007.
  28. 옥철영, '세종 형태의미말뭉치 : 형태분석 오류 수정 및 동형이의어 태깅', 국어정보처리시스템 경진대회 사용자 설명서, 2010.
  29. 옥철영, 김혜영, 배영준, 신준철, 이용훈, 김홍순, 정성린, 김윤정, 최효식, 조희산, 최종원, 조미옥, 이민정, '어휘의미 관계 데이터베이스 확장', 국립국어원, 2010.
  30. 옥철영, 안미정, 김창환, 김혜영, Antangerel Changnaa, 배영준, 신준철, 이용훈, Nguyen Kiem Hieu, Vo Duc Thuan, 김홍순, 김지언, 이민정, 조미옥, '오픈 웹QA를 위한 어휘의미부착 기술 개발', 한국전자통신연구원, 2010.

Cited by

  1. Word sense disambiguation using dynamic sized context and distance weighting vol.38, pp.4, 2014, https://doi.org/10.5916/jkosme.2014.38.4.444