• Title/Summary/Keyword: 어휘 분석의 중의성 해소

Search Result 32, Processing Time 0.026 seconds

Noun and Verb Polysemy Word Sense Disambiguation Using UWordMap (어휘지도(UWordMap)를 활용한 명사와 용언의 다의어 중의성 해소)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.216-219
    • /
    • 2015
  • 컴퓨터를 이용하여 명사와 용언의 의미를 자동으로 분별하는 것은 기계번역이나 검색 등의 기술에서 아주 중요한 기반 기술이다. 최근에 동형이의어 분별에 대한 연구 결과로 약 96%의 정확률을 보이는 시스템이 개발되었으나, 다의어 분별에 대한 연구는 아직 초기 단계로 일부 어휘만을 한정하여 연구되고 있다. 본 논문에서는 어휘지도를 이용하여 다의어를 분별하는 방법을 연구하였고, 어휘지도에 등록된 모든 일반 명사와 용언을 대상으로 실험하였다. 제안된 알고리즘은 문장에서 나타나는 명사와 용언의 관계를 어휘지도에서 찾고, 그 정보를 기반으로 다의어를 분별하였다. 아직은 그 정확률이 실용적인 수준이라고 볼 수는 없지만, 전체 다의어를 대상으로 실험하였고, 그 실험 결과를 분석함으로써 앞으로의 다의어 분별 연구 방향에 도움될 것으로 판단된다.

  • PDF

Word Sense Disambiguation of Predicate using Sejong Electronic Dictionary and KorLex (세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소)

  • Kang, Sangwook;Kim, Minho;Kwon, Hyuk-chul;Jeon, SungKyu;Oh, Juhyun
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.7
    • /
    • pp.500-505
    • /
    • 2015
  • The Sejong Electronic(machine readable) Dictionary, which was developed by the 21 century Sejong Plan, contains a systematic of immanence information of Korean words. It helps in solving the problem of electronical presentation of a general text dictionary commonly used. Word sense disambiguation problems can also be solved using the specific information available in the Sejong Electronic Dictionary. However, the Sejong Electronic Dictionary has a limitation of suggesting structure of sentences and selection-restricted nouns. In this paper, we discuss limitations of word sense disambiguation by using subcategorization information as suggested by the Sejong Electronic Dictionary and generalize selection-restricted noun of argument using Korean Lexico-semantic network.

Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation (양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석)

  • Ki, Ho-Yeon;Shin, Kyung-shik
    • The Journal of Bigdata
    • /
    • v.5 no.1
    • /
    • pp.197-208
    • /
    • 2020
  • Lexical ambiguity means that a word can be interpreted as two or more meanings, such as homonym and polysemy, and there are many cases of word sense ambiguation in words expressing emotions. In terms of projecting human psychology, these words convey specific and rich contexts, resulting in lexical ambiguity. In this study, we propose an emotional classification model that disambiguate word sense using bidirectional LSTM. It is based on the assumption that if the information of the surrounding context is fully reflected, the problem of lexical ambiguity can be solved and the emotions that the sentence wants to express can be expressed as one. Bidirectional LSTM is an algorithm that is frequently used in the field of natural language processing research requiring contextual information and is also intended to be used in this study to learn context. GloVe embedding is used as the embedding layer of this research model, and the performance of this model was verified compared to the model applied with LSTM and RNN algorithms. Such a framework could contribute to various fields, including marketing, which could connect the emotions of SNS users to their desire for consumption.

Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN) (어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.1
    • /
    • pp.31-42
    • /
    • 2012
  • In order to process the suffix derived nouns of Korean, most of Korean processing systems have been registering the suffix derived nouns in dictionary. However, this approach is limited because the suffix is very high productive. Therefore, it is necessary to analyze semantically the unregistered suffix derived nouns. In this paper, we propose a method to disambiguate homograph suffixes using Korean lexical semantic network(U-WIN) for the purpose of semantic analysis of the suffix derived nouns. 33,104 suffix derived nouns including the homograph suffixes in the morphological and semantic tagged Sejong Corpus were used for experiments. For the experiments first of all we semantically tagged the homograph suffixes and extracted root of the suffix derived nouns and mapped the root to nodes in the U-WIN. And we assigned the distance weight to the nodes in U-WIN that could combine with each homograph suffix and we used the distance weight for disambiguating the homograph suffixes. The experiments for 35 homograph suffixes occurred in the Sejong corpus among 49 homograph suffixes in a Korean dictionary result in 91.01% accuracy.

Query Context Information-Based Translation Models for Korean-Japanese Cross-Language Informal ion Retrieval (한-일 교차언어검색에서의 질의 문맥 정보를 이용한 대역어 변환 확률 모델)

  • Lee, Gyu-Chan;Kang, In-Su;Na, Seung-Hoon;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.97-104
    • /
    • 2005
  • 교차언어 검색 과정에서는 질의나 문서의 언어를 일치시키기 위한 변환 과정이 필수적이며, 이런 변환 과정에서 어휘의 중의성으로 인해 하나의 어휘에 대응하는 다수의 대역어가 생성됨으로써 사용자의 정보 욕구를 왜곡시켜 검색의 성능을 저하시킬 수 있다. 본 논문에서는 어휘 중의성 문제를 해결하기 위해서 질의의 문맥 정보를 이용하여 변환 질의의 확률을 구함으로써 중의성을 해소하는 방식을 제시하고, 질의의 길이, 중의도, 중의성을 가진 어휘의 비율 등에 따라서 성능이 어떻게 변하는지 비교함으로써 이 방법의 장점과 단점을 분석한다. 또한 현재의 단점을 보완하기 위한 차후 연구 방향을 제시한다.

  • PDF

Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary (상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소)

  • Heo, Jeong;Seo, Hee-Cheol;Jang, Myung-Gil
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.12
    • /
    • pp.1073-1089
    • /
    • 2006
  • The goal of Natural Language Processing(NLP) is to make a computer understand a natural language and to deliver the meanings of natural language to humans. Word sense Disambiguation(WSD is a very important technology to achieve the goal of NLP. In this paper, we describe a technology for automatic homonyms disambiguation using both Mutual Information(MI) and a Sense-Tagged Compound Noun Dictionary. Previous research work using word definitions in dictionary suffered from the problem of data sparseness because of the use of exact word matching. Our work overcomes this problem by using MI which is an association measure between words. To reflect language features, the rate of word-pairs with MI values, sense frequency and site of word definitions are used as weights in our system. We constructed a Sense-Tagged Compound Noun Dictionary for high frequency compound nouns and used it to resolve homonym sense disambiguation. Experimental data for testing and evaluating our system is constructed from QA(Question Answering) test data which consisted of about 200 query sentences and answer paragraphs. We performed 4 types of experiments. In case of being used only MI, the result of experiment showed a precision of 65.06%. When we used the weighted values, we achieved a precision of 85.35% and when we used the Sense-Tagged Compound Noun Dictionary, we achieved a precision of 88.82%, respectively.

Derived Nouns of Suffixes Disambiguation using User-Word Intelligent Network (UWIN을 이용한 접미파생명사 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.432-435
    • /
    • 2012
  • 지식정보화 사회로의 진입으로 언어처리의 필요성은 점차 확대되고 있으나, 현재의 언어처리 기술은 의미분석에 기반하지 않음으로써 많은 한계를 가지고 있다. 본 논문에서는 의미분석의 일환으로 접미사의 중의성 해소를 위해 한국어 사용자 어휘지능망(U-WIN)을 이용한 접미파생명사 분석 방법을 제시한다. 세종 말뭉치에서 중의성 접미사를 포함한 32,647개의 문장을 대상으로 접미사 앞의 어근을 추출하여 U-WIN과 매핑되는 노드에 가중치를 부여한 뒤 이를 접미사 중의성 해소에 사용한다. 동형이의 접미사 49종 중 세종말뭉치에 나타난 25개의 동형이의접미사만을 대상으로 실험한 결과 91.83%의 정확률을 보였다.

Lexical Disambiguation for Intonation Synthesis : A CCG Approach (억양 합성을 위한 어휘 중의성 해소 : 결합범주문법을 통한 접근)

  • Lee, Ho-Joon;Park, Jong-Chul
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2005.06a
    • /
    • pp.103-118
    • /
    • 2005
  • IT의 급격한 발전과 함께 새로운 형태의 정보 전달 방법이 지속적으로 나타나면서 우리말의 정확한 발음에 대한 인식이 점점 약화되고 있는 추세이다. 특히 장단음의 발음은 발화에 대한 전문인들도 정확하게 구분하지 못하고 있는 심각한 상황이다. 본 논문에서는 한국어 명사에서 나타나는 장단음화 현상을 주변 어휘와의 관계를 바탕으로 살펴보고 동음이의어 중 다르게 발음되는 명사의 장단음 구분을 명사와 명사의 수식어, 명사의 서술어와의 관계를 중심으로 논의한다. 분석된 결과는 결합범주문법을 이용하여 표현하고 어휘적 중의성이 해소된 음성 합성 과정을 표준화된 SSML(Speech Synthesis Markup Language)으로 기술한다.

  • PDF

The cerebral activation related to Korean word ambiguity: MEG study (한국어 어휘의 중의성 해결과 관련된 대뇌활동: MEG 연구)

  • Yu, Gi-Soon;Kim, Choong-Myung;Kim, June-Sic;Chung, Chun-Kee;Nam, Ki-Chun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.61-65
    • /
    • 2006
  • 본 연구는 한국어 어휘중의성 해결과정에 관련된 대뇌활동을 살펴보기 위하여 MEG(magnetoencephalography)를 이용한 실험을 실시하였다. 일차적으로 기존의 중의성 관련 fMRI 실험 결과들이 MEG를 이용한 신호원 국소화 결과와 유사한 패턴을 보이는지 확인하였고, 본 실험의 주요 목적인 중의성 관련 처리과정에 기저하는 하위 처리과정이 어떠한 기능적 처리 요소들로 분해될 수 있는 지에 대해서도 시간 해상도가 높은 MEG의 특성을 이용하여 관찰하였다. 분석 결과, 한국어 중의어 해소과정의 하위처리 과정은 어휘의미 접속이라는 기본적인 과정 비에, 이들의 의미분지를 유발하는 단서의 유무가 그 활성화 영역의 시간적인 패턴과 중의성 해결을 위한 지속시간에 영향을 미치는 것으로 확인되었다.

  • PDF

Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary (세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소)

  • Kang, Sangwook;Kim, Minho;Kwon, Hyuk-chul;Oh, Jyhyun
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.2
    • /
    • pp.107-112
    • /
    • 2016
  • The Sejong Electronic(machine-readable) Dictionary, developed by the 21st century Sejong Plan, contains systematically organized information on Korean words. It helps to solve problems encountered in the electronic formatting of the still-commonly-used hard-copy dictionary. The Sejong Electronic Dictionary, however has a limitation relate to sentence structure and selection-restricted nouns. This paper discuses the limitations of word-sense disambiguation(WSD) that uses subcategorization information suggested by the Sejong Electronic Dictionary and generalized selection-restricted nouns from the Korean Lexico-semantic network. An alternative method that utilized semi-supervised learning, the chi-square test and some other means to make WSD decisions is presented herein.