DOI QR코드

DOI QR Code

동사 어휘의미망 평가를 위한 단어클러스터링 시스템의 활용 방안

The Method of Using the Automatic Word Clustering System for the Evaluation of Verbal Lexical-Semantic Network

  • 김혜경 (부산대학교 인지과학협동과정) ;
  • 윤애선 (부산대학교 불어불문학과, 인지과학협동과정)
  • 발행 : 2006.09.01

초록

최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만. 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68.455.856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '(-하)동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 석부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론. 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

For the recent several years, there has been much interest in lexical semantic network However it seems to be very difficult to evaluate the effectiveness and correctness of it and invent the methods for applying it into various problem domains. In order to offer the fundamental ideas about how to evaluate and utilize lexical semantic networks, we developed two automatic vol·d clustering systems, which are called system A and system B respectively. 68.455.856 words were used to learn both systems. We compared the clustering results of system A to those of system B which is extended by the lexical-semantic network. The system B is extended by reconstructing the feature vectors which are used the elements of the lexical-semantic network of 3.656 '-ha' verbs. The target data is the 'multilingual Word Net-CoroNet'. When we compared the accuracy of the system A and system B, we found that system B showed the accuracy of 46.6% which is better than that of system A. 45.3%.

키워드

참고문헌

  1. 기민호. 2001. '단어클러스터링 기반 정보처리 도구 개발 기술'. 정보통신부 우수신기술 지정 . 지원 사업 최종 보고서
  2. 김준수. 2004. '의미정보와 시소러스를 이용한 한국어 어휘 중의성 해소 모델'. 울산대학교 컴퓨터정보통신공학과 박사학위논문
  3. 김혜경, 최기선, 윤애선. 2005. ‘[-하]동사류’ 어휘의미망 구축을 위한 사전 정의문 분석. '한국사전학회 제 7회 학술대회 발표논문집', 153-169
  4. 김혜경, 윤애선. 2006. 동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출. '언어와 정보'. 10(1)
  5. 박석문. 2000. '코퍼스 품사 태깅 매뉴얼'. 한국과학기술원
  6. 신중호, 박혁로, 이기호. 1993. 단어의 유사성 척도와 클러스터링 알고리즘. '한국 인지과학회 논문지'. 9(2)
  7. 옥철영. 2005. 한국어 Wordnet 구축: 명사를 중심으로. '한국언어정보학회 2005 정기 학술대회 발표 논문집', 1-15
  8. 이경순. 2001. '정보검색에서 벡터공간 검색과 클러스터 분석을 통한 문서 순위 결정 모델'. 한국과학기술원 전자전산학과 박사학위논문
  9. 조현양, 최성필. 2004. 계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구. '한국문헌정보학회지'. 38(4): 179-192
  10. 최준호. 2004. '의미적 멀티미디어 정보검색을 위한 개념간 유사도 측정 방법'. 조선대학교 전자계산학과 박사학위논문
  11. 최호섭, 옥철영. 2002. 한국어 의미망 구축과 활용. '한국어학'. 17: 301-329
  12. 한국과학기술원 전문용어언어공학연구센터. 2005. '다국어 어휘의미망'. KAIST PRESS
  13. 한글학회. 1991. '우리말큰사전'. 어문각
  14. Baeza-Yates, Ricardo, and Berthier. Ribeiro-Neto. 1999. Modern Information Retrieval, ACM Press.
  15. Dong, Zhendong, and Quiang. Dong. 2006. How-Net and the Computation of Meaning. World Scientific Publishing
  16. Fellbaum, Christiane. 1998. Wordnet: An Electronic Lexical Database. MIT Press.
  17. Ikehara, Satoru. et al. 1997. The Semantic System, volume 1 of Goi-Taikei -- A Japanese Lexicon. Iwanami Shoten
  18. Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski, 2000, DATA MINING Methods for Knowledge Discovery, Kluwer Academic Publishers
  19. Vossen, Piek. 2005. EuroWordNet General Document