DOI QR코드

DOI QR Code

Performance Improvement of Word Clustering Using Ontology

온톨로지를 이용한 단어 군집화 성능 개선

  • 박은진 (한국해양대학교 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부)
  • Published : 2006.06.01

Abstract

In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.

이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다.

Keywords

References

  1. 임영희, '후처리 웹 문서 클러스터링 알고리즘', 한국정보처리학회 논문지 B, Vol.9, No.1, pp.7-16, 2002 https://doi.org/10.3745/KIPSTB.2002.9B.1.007
  2. 윤보현, 김현기, 노대식, 강현규, '검색결과의 브라우징을 위한 계층적 클러스터링', 한국정보과학회 논문집, Vol.17, No.1, pp.342-344, 2002
  3. 최준혁, 전성해, 이정현, '베이지안 SOM과 부트트랩을 이용한 문서 군집화에 의한 문서 순위조정', 한국정보처리학회 논문지, Vol.7, No.7, pp.2108-2115, 2000
  4. 김건오, 고영중, 서정연, '어휘 클러스터링을 이용한 자동 문서요약', 한국정보과학회 논문집 B, Vol.29, No.1, pp.464-465, 2002
  5. Franz, M., McCarley, J. S., Ward, T., and Zhu, W.-J., 'Unsupervised and supervised clustering for topic tracking', Proceedings of SIGIR Forum, Vol.24, pp.310-317, 2001 https://doi.org/10.1145/383952.384013
  6. Shin, S. and Choi, K.-S., 'Automatic word sense clustering using collocation for sense adaptation', Proceedings of Global WordNet Conference, pp.320-325, 2004
  7. 이상훈, 김기태, '클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장', 한국정보과학회 논문집, Vol.30, No.1, pp.479-481, 2003
  8. Brown, P. F., Della Pietra, V. J., de Souza, P. V., Lai, J. C. and Mercer, R. L. 'Class-based n-gram models of natural language', Computational Linguistics, Vol.18, No.4, pp.467-479, 1992
  9. Chen, J. N. and Chang, J. S., 'Topical clustering of MRD senses based on information retrieval techniques', Computational Linguistics, Vol.24, No.1, pp.61-96, 1998
  10. The EAGLES Lexicon Interest Group, Preliminary Recommendations on Lexical Semantic Encoding, Final Report EAGLES LE3-4244, 1999
  11. Federici, S., Montemagni, S., and Pirrelli, V. 'Inferring semantic similarity from distributional evidence : An Analogy-based approach to word sense disambiguation', Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. pp.90-97, 1997
  12. Smadja, F. 'Retrieving collocations from text : Xtract', Computational Linguistics, Vol.19, No.1, pp.143-177, 1993
  13. Lesk, M. 'Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone', Proceedings of SIGDOC '86, pp.24-26, 1986 https://doi.org/10.1145/318723.318728
  14. Banerjee, S. and Pedersen, T. 'An adapted Lesk algorithm for word sense disambiguation using WordNet', Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, Vol.2276, pp.136-145, 2002
  15. 김준수, 옥철영, '정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템', 한국정보과학회 논문지 B, Vol.12, No.7, pp.829-840, 2005 https://doi.org/10.3745/KIPSTB.2005.12B.7.829
  16. 최호섭, 옥철영, '한국어 의미망 구축과 활용 : 명사를 중심으로', 한국어학회, Vol.17, pp.301-329, 2002
  17. 옥철영, '우리말 개념망 명사 데이터 구축', ETRI 최종연구보고서, 1998
  18. 조평옥, 안미정, 옥철영, 이수동, '사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조', 한국인지과학회 논문지, Vol.10, No.3, pp.1-10, 1999
  19. 한국과학기술원 전문용어언어공학센터, CoreNet 다국어 어휘망 : 제2권 한국어 어휘 의미망, KAIST PRESS, 2005
  20. 최석두, 조혜민, '다국어 시소러스의 설계', 한국정보관리학회 학술대회 논문집, Vol.8, pp.5-10, 2001
  21. 황순희, 윤애선, '워드넷 기반 한국어 명사 어휘의미망의 정제', 한국인지과학회 춘계학술대회 발표논문집, pp.267-272, 2005
  22. Fellbaum, C., WordNet : An Electronic Lexical Database, MIT Press, 1998
  23. Halkidi, M. B., and Vazirgiannis, Y. M, 'Cluster validity methods : Part I', ACM SIGMOD Record, Vol.31, No.2, pp.40-25, 2002 https://doi.org/10.1145/565117.565124
  24. 김정하, 이재윤, '문헌 클러스터링 결과의 성능 평가 방법에 관한 비교 연구', 한국정보관리학회 논문집, Vol.7, pp.45-50, 2000
  25. Halkidi, M. B. and Vazirgiannis, Y. M, 'Cluster validity checking methods : Part II', ACM SIGMOD Record, Vol.31, No.3, pp.19-27, 2002 https://doi.org/10.1145/601858.601862
  26. Salton, G. and McGill, M. J., Introduction to Modern Information Retrieval, McGraw Hill, 1983
  27. Patrick, P. Clustering by Committee. Ph.D. Dissertation, Department of Computing Science, University of Alberta, 2003
  28. 최재혁, 서혜성, 노상욱, 최경희, 정기현, '온톨로지 기반의 웹 페이지 분류 시스템', 한국정보처리학회 논문지 B, Vol.11, No.6, pp.723-734, 2004 https://doi.org/10.3745/KIPSTB.2004.11B.6.723
  29. 한승희, 이재윤, '문헌 클러스터링을 위한 유사계수간의 연관성 측정', 한국정보관리학회 논문집, Vol.6, pp.25-28, 1999
  30. Jain, A. K. and Dubes, R. C., Algorithms for Clustering Data, Prentice-Hall, Inc., 1988
  31. Johnson, S.C, 'Hierarchical clustering schemes', Psychometrika, Vol.2, pp.241-254, 1967 https://doi.org/10.1007/BF02289588