Conceptual Clustering of Korean Concordances using Similarities between Morphemes

형태소 사이의 유사도를 이용한 용례의 의미별 분류

  • Baek, Dae-Ho (Natural Language Processing Lab., Department of Computer Science, Korea University) ;
  • Lee, Ho (Natural Language Processing Lab., Department of Computer Science, Korea University) ;
  • Rim, Hae-Chang (Natural Language Processing Lab., Department of Computer Science, Korea University)
  • 백대호 (고려대학교 전산과학과 자연어 처리 연구실) ;
  • 이호 (고려대학교 전산과학과 자연어 처리 연구실) ;
  • 임해창 (고려대학교 전산과학과 자연어 처리 연구실)
  • Published : 1996.10.11

Abstract

본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.

Keywords