Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2007.10a
- /
- Pages.150-157
- /
- 2007
- /
- 2005-3053(pISSN)
Automatic Acquisition of Ranked IS-A Relation from Unstructured Text
텍스트에서 IS-A 관계의 자동 추출 및 순위화
- Ryu, Pum-Mo (Computer Science Division/SWRC, KAIST) ;
- Choi, Key-Sun (Computer Science Division/SWRC, KAIST)
- Published : 2007.10.12
Abstract
본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.
Keywords