• Title/Summary/Keyword: 해소어

Search Result 152, Processing Time 0.028 seconds

An Expansion of Vector Space for Document Classifications (문서 분류에 이용 가능한 벡터 공간의 확장 방법)

  • Lee, Samuel Sangkon;Yoo, Kyungseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.782-784
    • /
    • 2015
  • 본 논문에서는 한국어 문서의 분류 정밀도 향상을 위해 애매어와 해소어 정보를 이용한 확장된 벡터 공간 모델을 제안하였다. 벡터 공간 모델에 사용된 벡터는 같은 정도의 가중치를 갖는 축이 하나 더 존재하지만, 기존의 방법은 그 축에 아무런 처리가 이루어지지 않았기 때문에 벡터끼리의 비교를 할 때 문제가 발생한다. 같은 가중치를 갖는 축이 되는 단어를 애매어라 정의하고, 단어와 분야 사이의 상호정보량을 계산하여 애매어를 결정하였다. 애매어에 의해 애매성을 해소하는 단어를 해소어라 정의하고, 애매어와 동일한 문서에서 출현하는 단어 중에서 상호정보량을 계산하여 해소어의 세기를 결정하였다. 본 논문에서는 애매어와 해소어를 이용하여 벡터의 차원을 확장하여 문서 분류의 정밀도를 향상시키는 방법을 제안하였다.

Korean Document Classification Using Extended Vector Space Model (확장된 벡터 공간 모델을 이용한 한국어 문서 분류 방안)

  • Lee, Samuel Sang-Kon
    • The KIPS Transactions:PartB
    • /
    • v.18B no.2
    • /
    • pp.93-108
    • /
    • 2011
  • We propose a extended vector space model by using ambiguous words and disambiguous words to improve the result of a Korean document classification method. In this paper we study the precision enhancement of vector space model and we propose a new axis that represents a weight value. Conventional classification methods without the weight value had some problems in vector comparison. We define a word which has same axis of the weight value as ambiguous word after calculating a mutual information value between a term and its classification field. We define a word which is disambiguous with ambiguous meaning as disambiguous word. We decide the strengthness of a disambiguous word among several words which is occurring ambiguous word and a same document. Finally, we proposed a new classification method based on extension of vector dimension with ambiguous and disambiguous words.

Implementation of Word Sense Disambiguation System based on Korean WordNet (한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현)

  • Kim, Minho;Hwang, Myeong-Jin;Shin, Jong-Hun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

Chinese Unsupervised Word Sense Disambiguation using WordNet (어휘의미망을 이용한 중국어 비감독 어의 중의성 해소)

  • Lian, Guang-Zhe;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

Word Sense Disambiguation of Polysemy Predicates using UWordMap (어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

A Word Sense Disambiguation for Korean Language Using Deep Learning (딥러닝을 이용한 한국어 어의 중의성 해소)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.380-382
    • /
    • 2019
  • 어의 중의성 문제는 자연어 분석 과정에서 공통적으로 발생하는 문제로 한 가지의 단어 표현이 여러 의미로 해석될 수 있기 때문에 발생한다. 이를 해결하기 위한 어의 중의성 해소는 입력 문장 중 여러 개의 의미로 해석될 수 있는 단어가 현재 문맥에서 어떤 의미로 사용되었는지 분류하는 기술이다. 어의 중의성 해소는 입력 문장의 의미를 명확하게 해주어 정보검색의 성능을 향상시키는데 중요한 역할을 한다. 본 논문에서는 딥러닝을 이용하여 어의 중의성 해소를 수행하며 기존 모델의 단점을 극복하여 입력 문장에서 중의적 단어를 판별하는 작업과 그 단어의 의미를 분류하는 작업을 동시에 수행하는 모델을 제안한다.

  • PDF

Application of a Naive Bayes Classifier for Topic Word Sense Disambiguation (주제어의 중의성 해소를 위한 Naive Bayes 분류기 적용에 관한 연구)

  • 유현숙;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.71-74
    • /
    • 2000
  • 단어의 의미 중의성을 해소하는 것은 자연언어처리의 중요한 문제 중의 하나이다. 특히 문서의 주제어가 중의성을 가질 때, 이 문서는 부적합한 범주에 속하게 되어 정보검색시 잡음을 일으키는 원인이 되기도 한다. 그러므로, 본 논문에서는 문서를 대표하는 주재어의 의미 중의성을 해소하기 위해 주변 문맥자질을 고려하는 방법을 모색한다 이를 위해 자연언어처리의 통계적 방법으로 문서 범주화에 많이 사용되는 Naive Bayes 분류기를 중의성 해소에 적용하고, 그 결과 얻어진 중의성 해소 성능을 평가한다.

  • PDF

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

Unsupervised Korean Word Sense Disambiguation using CoreNet (코어넷을 활용한 비지도 한국어 어의 중의성 해소)

  • Han, Kijong;Nam, Sangha;Kim, Jiseong;Hahm, YoungGyun;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.153-158
    • /
    • 2017
  • 본 논문은 한국어 어휘 의미망인 코어넷(CoreNet)을 활용한 비지도학습 방식의 한국어 어의 중의성 해소(Word Sense Dsiambiguation)에 대한 연구이다. 어의 중의성 해소의 실질적인 응용을 위해서는 합리적인 수준으로 의미 후보를 나눌 필요성이 있다. 이를 위해 동형이의어와 코어넷의 개념체계를 활용하여 의미 후보를 나누어서 진행하였으며 이렇게 나눈 것이 실제 활용에서 의미가 있음을 실험을 통해 보였다. 접근 방식으로는 문맥 속에서 서로 영향을 미치는 어휘의 의미들을 동시에 고려하여 중의성 해소를 할 수 있도록 마코프랜덤필드와 의존구조 분석을 바탕으로 한 지식 기반 모델을 사용하였다. 이 과정에서도 코어넷의 개념체계를 활용하였다. 이 방식을 통해 임의의 모든 어휘에 대해 중의성 해소를 하도록 직접 구축한 데이터 셋에 대하여 80.9%의 정확도를 보였다.

  • PDF

Word Sense Disambiguation Considering Words Relations and Its Application to Sign Language Generation System (어휘 간의 관계를 고려한 중의성 해소 방법 및 수화 생성 시스템에의 응용)

  • Kim, Sangchul;Park, Kwang-Hyun;Bien, Zeungnam
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.124-128
    • /
    • 2008
  • 어휘 중의성 해소는 다양한 분야에서 중요한 위치를 차지하고 있는 자연어처리 관련 문제이다. 본 논문에서는 어휘 중의성 해소의 실제 응용과 관련하여 문헌 내에 여러 개의 중의어가 존재할 때의 중의성 해소 문제를 다룬다. 기존의 연구에서는 다루지 않았던 다수의 중의어가 존재할 때의 중의성 해소 문제에 대하여 고찰한 후, 중의어 간의 연관성을 이용한 중의성 해소 개념을 제시한다. 또한 이를 이용한 구체적인 해소 방안 제안 및 본 연구의 한국어-한국수화 번역 시스템에의 응용 예를 소개한다. 결론 및 향후 과제에서는 본 논문에서 언급된 방법의 향후 개선 방안에 관하여 언급한다.

  • PDF