DOI QR코드

DOI QR Code

Rule Construction for Determination of Thematic Roles by Using Large Corpora and Computational Dictionaries

대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축

  • Published : 2003.04.01

Abstract

This paper presents an efficient construction method of determination rules of thematic roles from syntactic relations in Korean language processing. This process is one of the main core of semantic analysis and an important issue to be solved in natural language processing. It is problematic to describe rules for determining thematic roles by only using general linguistic knowledge and experience, since the final result may be different according to the subjective views of researchers, and it is impossible to construct rules to cover all cases. However, our method is objective and efficient by considering large corpora, which contain practical osages of Korean language, and case frames in the Sejong Electronic Lexicon of Korean, which is being developed by dozens of Korean linguistic researchers. To determine thematic roles more correctly, our system uses syntactic relations, semantic classes, morpheme information, position of double subject. Especially by using semantic classes, we can increase the applicability of the rules.

본 논문은 한국어정보처리 과정에서 구문 관계를 의미역으로 사상시키기 위한 규칙을 효과적으로 구축하는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제 중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어 학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 규칙의 적용률이 향상되는 효과를 가져올 수 있었다.

Keywords

References

  1. 21세기 세종계획 전자사전 개발 연구보고서, 문화관광부, 2000
  2. 김나리, 김영택, '한국어 동사 패턴에 기반한 한국어 문장 분석과 한영 변환의 모호성 해결,' 한국정보과학회논문지, 제23권 제7호, pp.766-775, 1996
  3. 남기심, '국어 조사의 용법 '-에' 와 '-로'를 중심으로', 서광학술자료사, 1993
  4. 박성배, 김영택, '한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소', 한국정보과학회논문지, 제27권 제6호, pp.668-677, 2000
  5. 박정운, '한국어 도구격 조사의 다의어 체계 언어', 제24권 제3호, pp.405-426, 1999
  6. 서정수, '국어 문법', 뿌리 깊은 나무, 1994
  7. 양단희, 송만석, '기계학습에 의한 단어의 격 원형성 자동 획득', 한국정보과학회논문지, 제25권 제7호, pp.1116-1127, 1998
  8. 이익환, '의미론 개론', 한신문화사, 1995
  9. 이홍식, '국어문장의 주성분 연구', 서울대학교 박사학위논문, 1996
  10. 이휘봉, '구문의존구조에서 중간언어 방식 기계번역을 위한 개념그래프의 생성', 포항공과대학교 전자계산학과 박사학위논문, 1998
  11. 이회자, 이종희, '사전식 텍스트분석적 국어 조사의 연구', 한국문화사, 1998
  12. 조일영, ''NP로'의 의미역', 제16차 한국어학회 전국 학술 대회, pp.56-65, 1998
  13. 조정미, 김길창, '한국어 의미 해석시 중의성 해소에 대한 연구', 정보과학회지, 제14권 제7호, pp.71-83, 1996
  14. D. Gildea and D. Jurafsky, 'Automatic Labeling of Semantic Roles,' In Proceedings of the 38th Annual Meeting of Association of Computational Linguistics, Hong Kong, pp.512-520, 2000 https://doi.org/10.3115/1075218.1075283
  15. J. F. Sowa, 'Using a Lexicon of Canonical Graphs in a Semantic Interpreter,' in Relational Models of the Lexicon : Representing knowledge in Semantic Networks, Edited by M. W. Evens, Cambridge University Press, pp.113-138, 1988
  16. K. H. Moon and J. H. Lee, 'Representation and Recognition Method for Multi-Word Translation Units in Korean-to-Japanese MT System,' In the 18th International Conference on Computational Linguistics (COLING 2000), Germany, pp.544-550, 2000 https://doi.org/10.3115/990820.990899
  17. M. Y. Kim, S. J. Kang and J. H. Lee, 'Resolving Ambiguity in Inter-chunk Dependency Parsing,' NLPRS 2001 (6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, pp.263-270, Nov., 2001
  18. S. B. Park and Y. T. Kim, 'Semantic Role Determination in Korean Relative Clauses using Idiomatic Patterns,' In Proceedings of the 17th International Conference on Computer Processing of Oriental Languages, pp.1-6, 1997
  19. S. Ohno and M. Hamanishi, 'New Synonyms Dictionary,' Kadokawa Shoten, Tokyo, 1981.(Written in Japanese)
  20. Y. J. Chung, S. J. Kang, K. H. Moon and J. H. Lee, 'Word Sense Disambiguation Using Neural Networks with Concept Co-occurrence Information,' NLPRS 2001 (6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, pp.715-722, Nov., 2001

Cited by

  1. Building Thesaurus for Science & Technology Domain Using Facets and Its Application to Inference Services vol.37, pp.3, 2006, https://doi.org/10.1633/JIM.2006.37.3.061