Two-Level Machine Learning Approach to Identify Maximal Noun Phrase in Chinese

두 단계 학습을 통한 중국어 최장명사구 자동식별

  • Yin, Chang-Hao (Dept. of Graduate School for Information Technology, POSTECH, Dept. of Computer Science & Engineering, POSTECH) ;
  • Lee, Yong-Hun (Dept. of Graduate School for Information Technology, POSTECH, Dept. of Computer Science & Engineering, POSTECH) ;
  • Jin, Mei-Xun (Dept. of Graduate School for Information Technology, POSTECH, Dept. of Computer Science & Engineering, POSTECH) ;
  • Kim, Dong-Il (Language Engineering Institute, YUST China, and Advanced Information Technology Research Center(AITrc)) ;
  • Lee, Jong-Hyeok (Dept. of Graduate School for Information Technology, POSTECH, Dept. of Computer Science & Engineering, POSTECH)
  • 윤창호 (포항공대 정보통신대학원 정보처리학과 포항공대 컴퓨터공학과) ;
  • 이용훈 (포항공대 정보통신대학원 정보처리학과 포항공대 컴퓨터공학과) ;
  • 김미훈 (포항공대 정보통신대학원 정보처리학과 포항공대 컴퓨터공학과) ;
  • 김동일 (중국연변과학기술대학 언어공학연구소 첨단정보기술 연구센터) ;
  • 이종혁 (포항공대 정보통신대학원 정보처리학과 포항공대 컴퓨터공학과)
  • Published : 2004.10.08

Abstract

일반적으로 중국어의 명사구는 기본명사구(base noun phrase), 최장명사구(maximal noun phrase) 등으로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 정확한 구문 트리(parse tree)를 찾아내는데 중요한 역할을 한다. 본 논문은 두 단계 학습모델을 이용하여 최장명사구 자동식별을 진행한다. 먼저 기본명사구, 기본동사구, 기본형용사구, 기본부사구, 기본수량사구, 기본단문구, 기본전치사구, 기본방향사구 등 8가지 기본구를 식별한다. 다음 기본구의 중심어(head)를 추출해 내고 이 정보를 이용하여 최장명사구의 식별을 진행한다. 본 논문에서 제안하는 방법은 기존의 단어레벨의 접근방법과는 달리구레벨에서 학습을 진행하기 때문에 주변문맥의 정보를 많이 고려해야 하는 최장명사구 식별에 있어서 아주 효과적인 접근방법이다. 후처리 작업을 하지 않고 기본구의 식별에서 25개 기본구 태그의 평균 F-measure가 96%, 평균길이가 7인 최장명사구의 식별에서 4개 태그의 평균 F-measure가 92.5%로 좋은 성능을 보여주었다.

Keywords