DOI QR코드

DOI QR Code

Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries

기계가독형사전에서 상위어 판별을 위한 규칙 학습

  • 최선화 (전남대학교 전산학과) ;
  • 박혁로 (전남대학교 전자컴퓨터공학부)
  • Published : 2006.04.01

Abstract

Most approaches for extracting hypernyms of a noun from its definitions in an MRD rely on lexical patterns compiled by human experts. Not only these approaches require high cost for compiling lexical patterns but also it is very difficult for human experts to compile a set of lexical patterns with a broad-coverage because in natural languages there are various expressions which represent same concept. To alleviate these problems, this paper proposes a new method for extracting hypernyms of a noun from its definitions in an MRD. In proposed approach, we use only syntactic (part-of-speech) patterns instead of lexical patterns in identifying hypernyms to reduce the number of patterns with keeping their coverage broad. Our experiment has shown that the classification accuracy of the proposed method is 92.37% which is significantly much better than that of previous approaches.

기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

Keywords

References

  1. Berland, M. and Charniak, E., 'Finding Parts in Very Large Corpora,' Proceedings of ACL-99, pp.57-64, 1999 https://doi.org/10.3115/1034678.1034697
  2. Choi, S. H. and Park, H. R., 'A New Method for Inducing Korean Dependency Grammars reflecting the Characteristics of Korean Dependency Relations,' Proceedings of the 3rd Conference on East-Asian Language Processing and Internet Information Technology, pp.17-23, 2003
  3. Choi, S. H. and Park, H. R., 'Extracting Semantic Taxonomies of Nouns from a Korean MRD Using a Small Bootstrapping Thesaurus and a Machine Learning Approach,' Proceedings of the 10th International Conference on Applications of Natural Language to Information Systems, pp.1-9, 2005
  4. Choi, S. H. and Park, H. R., 'Finding Taxonomical Relation from an MRD for Thesaurus Extension,' Proceedings of the Second International Joint Conference on Natural Language Processing, pp.357-365, 2005
  5. Faure, D. and Nedellec, C., 'A Corpus-based Conceptual Clustering Method for Verb Frames and Ontology Acquisition,' LREC workshop on Adapting lexical and corpus resources to sub-languages and applications, Granada, Spain, 1998
  6. Guthrie, L., Brian, M.S., Wilks, Y., and Rebecca, B., 'Is There Content in Empty Heads?,' Proceedings of COLING'90, pp. 138-143, 1990 https://doi.org/10.3115/991146.991171
  7. Harabagiu, S. and Moldovan, D.I. 'Knowledge processing on an extended WordNet,' WordNet: An Electronic Lexical Database, MIT Press, pp.379-405, 1998
  8. Hearst, M. A, Automatic Acquisition of Hyponyms from Large Text Corpora, In Christiane Fellbaum(Ed.) WordNet: An Electronic Lexical Database, MIT Press, pp.132-152, 1998
  9. Lee, L., Similarity-Based Approaches to Natural Language Processing, Ph. D. Thesis, Harvard University Technical Report TR-11-97, 1997
  10. Maria, R. C., Enrique, A, and Pablo, C., 'Automatic Extraction of Semantic Relationships for WordNet by Means of Pattern Learning from Wikipedia,' Proceedings of the 10th International Conference on Applications of Natural Language to Information Systems, pp.67-79, 2005
  11. Martin, S. C., Roy, J. B., and George, E. H., 'Extracting ?Semantic Hierarchies from a Large On-Line Dictionary,' Proceedings of the 23rd Conference of the Association for Computational Linguistics, pp.299-304, 1985 https://doi.org/10.3115/981210.981247
  12. Montemagni, S. and Vanderwende, L., 'Structural Patterns vs. String Patterns for Extracting Semantic Information from Dictionaries,' Proceedings of COLING-92, pp.546-552, 1992 https://doi.org/10.3115/992133.992155
  13. Quillian, J.R., C4.5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufman, 1993
  14. Richardson, S. D., Dolan, W. B., and Vanderwende, L., 'MindNet: Acquiring and Structuring Semantic Information from Text,' Proceedings of COLING-ACL'98, Vol.2, pp. 1098-1102, 1998
  15. Rigau, G., Automatic Acquistion of Lexical Knowledge from MRDs, Ph.D. Thesis, Universitat Politecnica de Catalunya, 1998
  16. Rigau, G., Rodriguez H., and Agirre E., 'Building Accurate Semantic Taxonomies from Mololingual MRDs,' Proceedings of the 36th Conference of the Association for Computational Linguistics, pp.1103-1109, 1998 https://doi.org/10.3115/980432.980750
  17. Wiks, Y., Fass, D. C., Guto, C. M., McDonald, J. E., Plate, T., and Slator, B. M., 'Providing machine tractable dictionary tools,' Journal of Computers and Translation, pp. 99-154, 1990
  18. 김민수, 김태연, 노봉남, '국어사전을 이용한 한국어 명사에 대한 상위어 자동 추출 빛 WordNet의 프로토타입 개발' 한국정보처리학회 논문지, 2(6), pp.184-156, 1995
  19. 김영택 외 공저, 자연언어처리, 생능출판사, pp.52-54, 2001
  20. 동아 새국어사전, 동아출판사, 1989
  21. 문유진, 의미론적 어휘 개념에 기반한 명사 워드넷의 설계와 구축, 서울대학교 대학원 박사 학위논문, 1997
  22. 문유진, 김영택, '한국어 명사의 Hypernym 자동 추출 방법' 한국정보과학회 학술발표대회 논문집, Vol.21, No.2, pp. 613-616, 1994
  23. 엣센스 국어사전, 민중서림, 1993
  24. 전문용어언어공학연구센터(KORTERM),: KAlST language resources http://www.korterm.or.kr/
  25. 조평옥, 안미정, 옥철영, 이순오, '사전 뜻풀이말에서 구축한 한국어 명사 의미계층구조' 한국인지과학회 논문지, 10(3), pp.1-10, 1999
  26. 최선화, 박혁로, '한국어 확률 의존문법 학습' 제 30회 한국정보과학회 춘계 학술발표대회 논문집(B), pp.513-515, 2003
  27. 최유미, 사공철, '상위어 자동추출 알고리즘 개발' 제 15회 한국정보관리학회 학술대회 발표 논문집, pp.227-230, 1998