Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축

  • 양승현 ((주)코난테크놀로지) ;
  • 김영섬 ((주)코난테크놀로지) ;
  • 우요섭 (인천대학교 정보통신공학과) ;
  • 윤덕호 (한남대학교 정보통신공학과)
  • Published : 2000.06.30

Abstract

Subcategorization, defining dependency relation between predicates and their complements, is an important source of knowledge for resolving syntactic and semantic ambiguities arising in analyzing sentences. This paper describes a Korean subcategorization dictionary, particularly annotated with semantic roles of complements coupled with thesaural semantic hierarchy as well as syntactic dependencies. For annotating roles, we defined 25 semantic roles associated with surface case markers that can be used to derive semantic structures directly from syntactic ones. In addition, we used more than 120,000 entries of thesaurus to specify concept markers of noun complements, and also used 47 and 17 predicate patterns for verbs and adjectives, respectively, to express dependency relation between predicates and their complements. Using a full-fledged thesaurus for specifying concept markers makes it possible to build an effective selectional restriction mechanism coupled with the subcategorization dictionary, and using the standard predicate patterns for specifying dependency relations makes it possible to avoid inconsistency in the results and to reduce the costs for constructing the dictionary. On the bases of these, we built a Korean subcategorization dictionary for frequently used 13,000 predicates found in corpora with the aid of a tool specially designed to support this task. An experimental result shows that this dictionary can provide 72.7% of predicates in corpora with appropriate subcategorization information.

하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

Keywords

References

  1. 장석진외, 자연언어처리의 기초연구, 한국과학재단 보고서, 1989
  2. 홍재성, 현대 한국어 동사 구문 사전, 두산 동아, 1997
  3. 김봉모, 한국어 문장 분석을 위한 하위범주화사전, 국어공학센터/시스템공학연구소 보고서, 1996
  4. 서영훈외, 토큰 기반 한국어 분석기 개발- 한국어 의미 분석 사전 및 하위범주화 사전구축, 한국전자통신연구원 보고서, 1998
  5. W. Peters, 'Corpus-based Conceptual Characterisation of Verbal Predicate Structures,' Proc. of the Computational Linguistics in the Netherlands, Antwerpen 1996
  6. Ralph Grishman, Catherine Macleod, Adam Meyers, 'Comlex Syntax: Building a Computational Lexicon,' Proc. of COLING-94, pp. 268-272, 1994 https://doi.org/10.3115/991886.991931
  7. Antonio Sanfilippo, Vector Poznanski, 'The Acquisition of Lexical Knowledge from Combined Machine-Readable Dictionary Sources,' Proc. of ANLP-92, pp. 80-87, 1992 https://doi.org/10.3115/974499.974514
  8. Ted Briscoe, John Carroll, 'Automatic Extraction of Subcategorization from Corpora,' Proc. of ANLP-97, 1997 https://doi.org/10.3115/974557.974609
  9. Hideki Tanaka, 'Verbal Case Frame Acquisition from a Bilingual Corpus: Gradual Knowledge Acquisition,' Proc. of COLING-94, pp, 727-736, 1994 https://doi.org/10.3115/991250.991263
  10. 박재득외, 국어정보처리기술 개발- 한글 언어처리 기반기술, 한국전자통신연구원 부설 시스템공학연구소, 과학기술처 보고서, 1997
  11. 박동인외, 국어정보처리기술 개발- 지능형 처리기 개발, 한국전자통신연구원 부설 시스템공학연구소, 과학기술처 보고서, 1997
  12. 홍재성외, 21세기 세종계획- 전자사전 개발, 문화관광부 보고서, 1998
  13. 이종인, 한광록, 양승현, 김영섬, '한국어 명사의 시소러스 구축을 위한 시스템 설계 및 구현', 한국정보처리학회 논문지, 제6권, 2호, 1999
  14. 조평옥, 옥철영, '의미속성에 기반한 한국어 명사 의미 체계', 한국정보과학회 논문지(B), 제26권, 4호, 1999
  15. 문유진, '한국어 명사를 위한 WordNet의 설계화 구현', 한국정보과학회 논문지(B), 제23권, 4호, pp. 437-444, 1996
  16. A. S. Hornby, Guide to Patterns and Usage in English, 2nd Edition, Oxford University Press, 1975
  17. Rebecca Bruce, Janyce Wiebe, 'Word-Sense Disambiguation Using Decomposable Models,' Proc. of ACL-94, pp. 139-145, Jun 1994 https://doi.org/10.3115/981732.981752