Browse > Article
http://dx.doi.org/10.3745/KIPSTB.2006.13B.3.337

Performance Improvement of Word Clustering Using Ontology  

Park Eun-Jin (한국해양대학교 컴퓨터공학과)
Kim Jae-Hoon (한국해양대학교 컴퓨터공학과)
Ock Cheol-Young (울산대학교 컴퓨터정보통신공학부)
Abstract
In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.
Keywords
Ontology; Word Clustering; Feature Extension;
Citations & Related Records
Times Cited By KSCI : 5  (Citation Analysis)
연도 인용수 순위
1 최석두, 조혜민, '다국어 시소러스의 설계', 한국정보관리학회 학술대회 논문집, Vol.8, pp.5-10, 2001   과학기술학회마을
2 황순희, 윤애선, '워드넷 기반 한국어 명사 어휘의미망의 정제', 한국인지과학회 춘계학술대회 발표논문집, pp.267-272, 2005
3 Fellbaum, C., WordNet : An Electronic Lexical Database, MIT Press, 1998
4 Halkidi, M. B., and Vazirgiannis, Y. M, 'Cluster validity methods : Part I', ACM SIGMOD Record, Vol.31, No.2, pp.40-25, 2002   DOI   ScienceOn
5 Federici, S., Montemagni, S., and Pirrelli, V. 'Inferring semantic similarity from distributional evidence : An Analogy-based approach to word sense disambiguation', Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. pp.90-97, 1997
6 Smadja, F. 'Retrieving collocations from text : Xtract', Computational Linguistics, Vol.19, No.1, pp.143-177, 1993
7 Lesk, M. 'Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone', Proceedings of SIGDOC '86, pp.24-26, 1986   DOI
8 Banerjee, S. and Pedersen, T. 'An adapted Lesk algorithm for word sense disambiguation using WordNet', Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, Vol.2276, pp.136-145, 2002
9 김준수, 옥철영, '정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템', 한국정보과학회 논문지 B, Vol.12, No.7, pp.829-840, 2005   과학기술학회마을   DOI
10 Brown, P. F., Della Pietra, V. J., de Souza, P. V., Lai, J. C. and Mercer, R. L. 'Class-based n-gram models of natural language', Computational Linguistics, Vol.18, No.4, pp.467-479, 1992
11 Shin, S. and Choi, K.-S., 'Automatic word sense clustering using collocation for sense adaptation', Proceedings of Global WordNet Conference, pp.320-325, 2004
12 Chen, J. N. and Chang, J. S., 'Topical clustering of MRD senses based on information retrieval techniques', Computational Linguistics, Vol.24, No.1, pp.61-96, 1998
13 The EAGLES Lexicon Interest Group, Preliminary Recommendations on Lexical Semantic Encoding, Final Report EAGLES LE3-4244, 1999
14 Franz, M., McCarley, J. S., Ward, T., and Zhu, W.-J., 'Unsupervised and supervised clustering for topic tracking', Proceedings of SIGIR Forum, Vol.24, pp.310-317, 2001   DOI
15 Johnson, S.C, 'Hierarchical clustering schemes', Psychometrika, Vol.2, pp.241-254, 1967   DOI
16 이상훈, 김기태, '클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장', 한국정보과학회 논문집, Vol.30, No.1, pp.479-481, 2003   과학기술학회마을
17 임영희, '후처리 웹 문서 클러스터링 알고리즘', 한국정보처리학회 논문지 B, Vol.9, No.1, pp.7-16, 2002   과학기술학회마을   DOI
18 윤보현, 김현기, 노대식, 강현규, '검색결과의 브라우징을 위한 계층적 클러스터링', 한국정보과학회 논문집, Vol.17, No.1, pp.342-344, 2002   과학기술학회마을
19 최준혁, 전성해, 이정현, '베이지안 SOM과 부트트랩을 이용한 문서 군집화에 의한 문서 순위조정', 한국정보처리학회 논문지, Vol.7, No.7, pp.2108-2115, 2000
20 김건오, 고영중, 서정연, '어휘 클러스터링을 이용한 자동 문서요약', 한국정보과학회 논문집 B, Vol.29, No.1, pp.464-465, 2002
21 Patrick, P. Clustering by Committee. Ph.D. Dissertation, Department of Computing Science, University of Alberta, 2003
22 김정하, 이재윤, '문헌 클러스터링 결과의 성능 평가 방법에 관한 비교 연구', 한국정보관리학회 논문집, Vol.7, pp.45-50, 2000   과학기술학회마을
23 Halkidi, M. B. and Vazirgiannis, Y. M, 'Cluster validity checking methods : Part II', ACM SIGMOD Record, Vol.31, No.3, pp.19-27, 2002   DOI   ScienceOn
24 Salton, G. and McGill, M. J., Introduction to Modern Information Retrieval, McGraw Hill, 1983
25 최재혁, 서혜성, 노상욱, 최경희, 정기현, '온톨로지 기반의 웹 페이지 분류 시스템', 한국정보처리학회 논문지 B, Vol.11, No.6, pp.723-734, 2004   과학기술학회마을   DOI
26 옥철영, '우리말 개념망 명사 데이터 구축', ETRI 최종연구보고서, 1998
27 한승희, 이재윤, '문헌 클러스터링을 위한 유사계수간의 연관성 측정', 한국정보관리학회 논문집, Vol.6, pp.25-28, 1999   과학기술학회마을
28 Jain, A. K. and Dubes, R. C., Algorithms for Clustering Data, Prentice-Hall, Inc., 1988
29 최호섭, 옥철영, '한국어 의미망 구축과 활용 : 명사를 중심으로', 한국어학회, Vol.17, pp.301-329, 2002
30 조평옥, 안미정, 옥철영, 이수동, '사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조', 한국인지과학회 논문지, Vol.10, No.3, pp.1-10, 1999   과학기술학회마을
31 한국과학기술원 전문용어언어공학센터, CoreNet 다국어 어휘망 : 제2권 한국어 어휘 의미망, KAIST PRESS, 2005