Browse > Article
http://dx.doi.org/10.3745/KIPSTB.2012.19B.1.063

Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network  

Lee, Yong-Hoon (울산대학교 컴퓨터정보통신공학과)
Ock, Cheol-Young (울산대학교 컴퓨터정보통신공학과)
Lee, Eung-Bong (충남대학교 문헌정보학과)
Abstract
We propose a Korean compound noun semantic tagging system using statistical compound noun decomposition and semantic relation information extracted from a lexical semantic network(U-WIN) and dictionary definitions. The system consists of three phases including compound noun decomposition, semantic constraint, and semantic tagging. In compound noun decomposition, best candidates are selected using noun location frequencies extracted from a Sejong corpus, and re-decomposes noun for semantic constraint and restores foreign nouns. The semantic constraints phase finds possible semantic combinations by using origin information in dictionary and Naive Bayes Classifier, in order to decrease the computation time and increase the accuracy of semantic tagging. The semantic tagging phase calculates the semantic similarity between decomposed nouns and decides the semantic tags. We have constructed 40,717 experimental compound nouns data set from Standard Korean Language Dictionary, which consists of more than 3 characters and is semantically tagged. From the experiments, the accuracy of compound noun decomposition is 99.26%, and the accuracy of semantic tagging is 95.38% respectively.
Keywords
Lexical Semantic Network(U-WIN); Compound Noun Decomposition; Semantic Constraints; Naive Bayes Classifier; Semantic Similarity; Semantic Tagging;
Citations & Related Records
연도 인용수 순위
  • Reference
1 Escudero, G., Marquez, L., and Rigau, G. "Naive Bayes and exemplar-based approaches to word sense disambiguation revisited". In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI, Berlin, Germany), pp.421-425, 2000.
2 이용훈, 옥철영, "의미기반 한국어 복합명사 분석", 한국정보과학회 한국컴퓨터종합학술대회 논문집(C) pp.221-224, 2011.
3 UTagger, 2011년 국어정보처리시스템 경진대회 출품, 울산대학교 한국어처리연구실
4 원상연, 김수남, 김광영, 남현숙, 권혁철, "한국어 문법검사기에서 의미정보를 이용한 복합명사의 분석제약", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.288-293, 1999.
5 김도완, 이경순, 김길창, "의미관계와 문형정보를 이용한 복합 명사 해석", 한국정보과학회 언어공학연구회, 제11회 한글 및 한국어 정보처리 학술대회 pp.310-315, 1999.
6 강유환, 정천영, 서영훈, "명사의 의미 정보를 이용한 복합명사 분석의 중의성 해결", 한국정보과학회 언어공학연구회, 제14회 한글 및 한국어 정보처리 학술대회 pp.171-175, 2002.
7 허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템", 한국정보과학회, 정보과학회 논문지, 소프트웨어 및 응용, 제28권 제9호 pp.688-698, 2001.
8 허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해결", 한국정보과학회, 정보과학회논문지, 소프트웨어 및 응용, 제33권 제12호 pp.1073-1089, 2006.
9 M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," In Proceedings of the 5th annual international conference on Systems documentation, pp.24-26, 1986.
10 Cowie, J., L. Guthrie, J. Guthrie, "Lexical disambiguation using simulated annealing," In Proceedings of COLING, 1992.
11 Yarowsky D., "Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora," In Proceedings of Coling-92, 1992.
12 최호섭(2007), "대규모 사용자 어휘지능망 구축과 활용", 울산대학교 대학원 컴퓨터정보통신공학부 박사학위논문.
13 한국어의 한자어, 위키백과 - http://ko.wikipedia.org/wiki/한국어의_한자어
14 이용훈, 옥철영, "Naive Bayes Classifier를 이용한 의미제약이 강화된 한국어 복합명사 의미 분석", 한국정보과학회 언어공학 연구회, 제23회 한글 및 한국어 정보처리 학술대회 pp.102-106, 2011.
15 최재혁, "음절수에 따른 한국어 복합 명사 분리 방안", 한국정보 과학회 언어공학연구회, 제8회 한글 및 한국어 정보처리 학술대회 pp.262-267, 1996.
16 강승식, "한국어 복합명사 분해 알고리즘", 한국정보과학회, 정보과학회논문지(B), 제25권 제1호, pp.172-182, 1998.
17 윤보현, 임희석, 임해창, "통계 정보를 이용한 한국어 복합 명사의 분석 방법", 한국정보과학회 봄 학술발표논문집 제22권 제1 호, pp.925-928, 1995
18 임해창, 임희석, 윤보현, "자연어 처리 연구동향: 통계 기반의 자연어 처리", 한국정보과학회지, 제12권, 제9호, pp.20-30, 1994.
19 J.T. Yoon, K.S. Choi, and M.S. Song, "Corpus-based approach for nominal compound analysis for Korean based on linguistic and statistical information." In Proceedings of the 1999 Joint SIGDAT Conference on EMNLP/VLC. College Park, MD, pp.292-300, 2001.
20 강유환, 서영훈, "미등록어의 의미 범주 분석을 이용한 복합명사 분해", 한국데이타베이스학회, 정보기술과 데이타베이스 저널 제 11권 제4호, pp.95-102, 2004.
21 박재한, 김명선, 노대욱, 나동열, "백오프 통계정보를 이용한 미 등록어 포함 복합명사의 분해", 한국정보과학회 언어공학연구회, 제16회 한글 및 한국어 정보처리 학술대회 발표자료집 제16 권 제1호 pp.65-72, 2004.
22 강민규, 강승식, "한국어 복합명사 분해 오류 교정 기법", 한국정보과학회, 한국 컴퓨터 종합 학술 발표 논문집 제37권 제1호 (C), pp.254-259, 2010.