Term Clustering based on Causal Context Information

인과관계 문맥정보를 사용한 용어 군집화 연구

  • Chang, Du-Seong (Spoken Language Research Team KT, Division of Computer Science KAIST) ;
  • Choi, Key-Sun (Division of Computer Science KAIST, KORTERM, BOLA)
  • 장두성 (KT 서비스개발연구소 음성언어 연구팀, 한국과학기술원 전산학과) ;
  • 최기선 (한국과학기술원 전산학과, 전문용어언어공학연구센터, 언어자원은행)
  • Published : 2004.10.08

Abstract

단서구문 및 어휘 쌍 확률 등을 이용하면 일정한 영역의 문서에서 사용된 용어의 원인이 되거나 결과를 나타나는 관련어들을 찾을 수 있다. 본 논문에서는 이러한 각 용어의 선행 원인과 후행 결과를 인과관계 정보라고 정의한다. 인과관계 정보가 유사한 용어들은 서로 유사한 개념에 속한다고 가정한다면, 용어의 직/간접적 인과관계로서 용어 온톨로지에서 그 용어가 속할 집합을 결정하는데 도움을 줄 수 있다. 본 논문에서는 각 용어의 인과관계가 용어 군집화를 위한 유용한 문맥 정보의 하나라는 것을 실험을 통해 증명하였다. 속성으로 사용된 인과관계는 대용량의 코퍼스로부터 비지도식 학습방법을 통해 자동 습득하였으며, 그 정확도는 74.84%를 보였다. 1659개 용어에 대한 군집화 실험 결과 70.02%의 정확도를 보였으며, 어휘 유사도만을 사용한 경우에 비해 32.9%의 적용도 향상을 보였다.

Keywords