DOI QR코드

DOI QR Code

Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소

  • 강상욱 (부산대학교 전기전자컴퓨터공학과) ;
  • 김민호 (부산대학교 전기전자컴퓨터공학과) ;
  • 권혁철 (부산대학교 전기컴퓨터공학부) ;
  • 오주현 (KBS 방송기술연구소)
  • Received : 2015.09.14
  • Accepted : 2015.11.19
  • Published : 2016.02.15

Abstract

The Sejong Electronic(machine-readable) Dictionary, developed by the 21st century Sejong Plan, contains systematically organized information on Korean words. It helps to solve problems encountered in the electronic formatting of the still-commonly-used hard-copy dictionary. The Sejong Electronic Dictionary, however has a limitation relate to sentence structure and selection-restricted nouns. This paper discuses the limitations of word-sense disambiguation(WSD) that uses subcategorization information suggested by the Sejong Electronic Dictionary and generalized selection-restricted nouns from the Korean Lexico-semantic network. An alternative method that utilized semi-supervised learning, the chi-square test and some other means to make WSD decisions is presented herein.

국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.

Keywords

Acknowledgement

Grant : Symbolic Approach 기반 인간모사형 자가학습 지능 원천 기술 개발

Supported by : 정보통신기술연구진흥센터

References

  1. Burnard, Lou. Reference guide for the British National Corpus (world edition), 2000.
  2. Taylor, Ann, Mitchell Marcus, and Beatrice Santorini, The Penn treebank: an overview, pp. 5-22, Springer, Netherlands, 2003.
  3. Ide, Nancy, and Catherine Macleod, "The american national corpus: A standardized resource of american english," Proc. of Corpus Linguistics 2001. Vol. 3, 2001.
  4. Y.P. Hong, Result and problem of 21 century Sejong Plan Business, The National Institute of the Korean Language, Saegugeosaenghwal, Vol. 19, No. 1, 2009. (in Korean)
  5. J. S. Hong, Development Research Paper of 21 century Sejong Plan Electronic Dictionary, (11-1370252-000063-10), the Ministry of Culture and Tourism, The National Institute of the Korean Language, 2007. (in Korean)
  6. M. Kim, H. Kwon, "Word Sense Disambiguation using Semantic Relations in Korean WordNet," Journal of KIISE: Software and Application, Vol. 38, No. 9, pp. 554-564, Oct. 2011. (in Korean)
  7. J. Jo, G. Shin, "A Graph-based Word Sense Disambiguation Using Measures of Graph Connectivity," Journal of KIIT, Vol. 12, No. 6, pp. 143-151, Jun. 2014. (in Korean)
  8. S. Kim, S. Bae, Y. Ko, "Ambiguity Resolution and Expansion of Query using Wikipedia," Proc. of KIISE, Vol. 37, No. 2A, pp. 46-47, Nov. 2010. (in Korean)
  9. S. Kang, M. Kim, H. Kwon, J. Oh, S Jeon, "Word Sense Disambiguation of Predicate using Sejong Electonic Dictionary and KorLex," Journal of KIISE: Transactions and Computer Practices, Vol. 21, No. 7, pp. 500-505. Jul. 2015. (in Korean) https://doi.org/10.5626/KTCP.2015.21.7.500
  10. S. Bae, G. Lim, A. Yoon, "Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5," Korean Journal of Cognitive Science, Vol. 20, No. 1, pp. 95-126. Mar. 2010. (in Korean)
  11. A. Yoon, S. Hwang, E. Lee, H. Kwon, "Construction of Korean Wordnet KorLex 1.5," Journal of KIISE: Software and Application, Vol. 36, No. 1, pp. 92-108, Jan. 2009. (in Korean)
  12. Ch. Fellbaum (ed.), WordNet: An Electronic Lexical Database, The MIT Press, Cambridge, 1998.