• Title/Summary/Keyword: 의미중의성 해소

Search Result 8, Processing Time 0.018 seconds

Efficient Part-of-Speech Set for Knowledge-based Word Sense Disambiguation of Korean Nouns (한국어 명사의 지식기반 의미중의성 해소를 위한 효과적인 품사집합)

  • Kwak, Chul-Heon;Seo, Young-Hoon;Lee, Chung-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.4
    • /
    • pp.418-425
    • /
    • 2016
  • This paper presents the part-of-speech set which is highly efficient at knowledge-based word sense disambiguation for Korean nouns. 174,000 sentences extracted for test set from Sejong semantic tagged corpus whose sense is based on Standard korean dictionary. We disambiguate selected nouns in test set using glosses and examples in Standard Korean dictionary. 15 part-of-speeches which give the best performance for all test set and 17 part-of-speeches which give the best performance for accuracy average of selected nouns are selected. We obtain 12% more performance by those part-of-speech sets than by full 45 part-of-speech set.

Informal ion Retrieval using Word Sense Disambiguation based on Statintical Method (통계기만 의미중의성 해소를 이용한 정보검색)

  • Hur, Jeong;Kim, Hyun-Jin;Jang, Myung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.508-510
    • /
    • 2002
  • 인터넷의 발전과 더불어 기하급수적으로 늘어난 디지털 정보를 대상으로 사용자의 요구를 만족시키는 정보검색을 하기 위해 자연어처리 기술이 많이 응용되고 있다. 본 논문에서는 정보검색에 자연어 처리 기술 중, 의미중의성 해소(WSD) 기술을 적용하였다. HANTEC 12만 문서를 대상으로 9개의 중의성 단어를 실험한 결과 67.8%의 정확률을 보였다. 본 실험을 통해 WSD의 오분석이 정보검색의 정확률에 상당히 민감한 결과를 초래함을 알 수 있었다. 그리고, WSD 기술이 정보검색에 적용된 떼 발생할 수 있는 여러 문제점들에 대하여 논의하였고, 이 문제점의 근원적인 해결방안은 WSD기술의 발전에 있다는 것을 알 수 있었다.

  • PDF

A Non-morphological Approach for DBpedia URI Spotting within Korean Text (한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소)

  • Kim, Youngsik;Hahm, Younggyun;Kim, Jiseong;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

Word Sense Disambiguation Using Word Link and Word Cooccurrence (단어링크와 공기 단어를 이용한 의미중의성 해소)

  • 구영석;나동렬
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.21-27
    • /
    • 2002
  • 본 논문은 문장 안에서 의미 중의성을 갖는 단어가 출현했을 때 그 단어가 어떤 의미로 사용되고 있는지 판별해 주는 방법을 제시하고자 한다. 이를 위해서 먼저 중의적 의미를 가지는 단어의 각 의미 (sense) 마다에 대하여 이 의미를 나타내는 주요단어 즉 종자단어와 연관성이 있는 단어들로 벡터를 구성하여 이 의미를 나타내고자 한다. 종자단어와 말뭉치의 문장을 통하여 연결된 경로를 가진 단어는 이 종자단어에 해당하는 의미를 나타내는 데 기여하는 정보로 본 것이다. 경로는 동일 문장에서 나타나는 두 단어 사이는 링크가 있다고 보고 이러한 링크를 통하여 이루어 질 수 있는 연결 관계를 나타낸다. 이 기법의 장점은 데이터 부족으로 야기되는 문제를 경감시킬 수 있다는 점이다. 실험을 위해 Hantec 품사 부착된 말뭉치를 이용하여 의미정보벡터를 구축하였으며 ETRI 품사 부착된 말뭉치에서 중의적 단어가 포함된 문장을 추출하여 실시하였다. 실험 결과 기존의 방법보다 나은 성능을 보임이 밝혀졌다.

  • PDF

An Iterative Approach to Graph-based Word Sense Disambiguation Using Word2Vec (Word2Vec을 이용한 반복적 접근 방식의 그래프 기반 단어 중의성 해소)

  • O, Dongsuk;Kang, Sangwoo;Seo, Jungyun
    • Korean Journal of Cognitive Science
    • /
    • v.27 no.1
    • /
    • pp.43-60
    • /
    • 2016
  • Recently, Unsupervised Word Sense Disambiguation research has focused on Graph based disambiguation. Graph-based disambiguation has built a semantic graph based on words collocated in context or sentence. However, building such a graph over all ambiguous word lead to unnecessary addition of edges and nodes (and hence increasing the error). In contrast, our work uses Word2Vec to consider the most similar words to an ambiguous word in the context or sentences, to rebuild a graph of the matched words. As a result, we show a higher F1-Measure value than the previous methods by using Word2Vec.

  • PDF

Word Sense Disambiguation based on Concept Learning with a focus on the Lowest Frequency Words (저빈도어를 고려한 개념학습 기반 의미 중의성 해소)

  • Kim Dong-Sung;Choe Jae-Woong
    • Language and Information
    • /
    • v.10 no.1
    • /
    • pp.21-46
    • /
    • 2006
  • This study proposes a Word Sense Disambiguation (WSD) algorithm, based on concept learning with special emphasis on statistically meaningful lowest frequency words. Previous works on WSD typically make use of frequency of collocation and its probability. Such probability based WSD approaches tend to ignore the lowest frequency words which could be meaningful in the context. In this paper, we show an algorithm to extract and make use of the meaningful lowest frequency words in WSD. Learning method is adopted from the Find-Specific algorithm of Mitchell (1997), according to which the search proceeds from the specific predefined hypothetical spaces to the general ones. In our model, this algorithm is used to find contexts with the most specific classifiers and then moves to the more general ones. We build up small seed data and apply those data to the relatively large test data. Following the algorithm in Yarowsky (1995), the classified test data are exhaustively included in the seed data, thus expanding the seed data. However, this might result in lots of noise in the seed data. Thus we introduce the 'maximum a posterior hypothesis' based on the Bayes' assumption to validate the noise status of the new seed data. We use the Naive Bayes Classifier and prove that the application of Find-Specific algorithm enhances the correctness of WSD.

  • PDF

A Personalized Retrieval System Based on Classification and User Query (분류와 사용자 질의어 정보에 기반한 개인화 검색 시스템)

  • Kim, Kwang-Young;Shim, Kang-Seop;Kwak, Seung-Jin
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.43 no.3
    • /
    • pp.163-180
    • /
    • 2009
  • In this paper, we describe a developmental system for establishing personal information tendency based on user queries. For each query, the system classified it based on the category information using a kNN classifier. As category information, we used DDC field which is already assigned to each record in the database. The system accumulates category information for all user queries and the user's personalized feature for the target database. We then developed a personalized retrieval system reflecting the personalized feature to produce search result. Our system re-ranks the result documents by adding more weights to the documents for which categories match with the user's personalized feature. By using user's tendency information, the ambiguity problem of the word could be solved. In this paper, we conducted experiments for personalized search and word sense disambiguation (WSD) on a collection of Korean journal articles of science and technology arena. Our experimental result and user's evaluation show that the performance of the personalized search system and WSD is proved to be useful for actual field services.

The cerebral activation related to Korean word ambiguity: MEG study (한국어 어휘의 중의성 해결과 관련된 대뇌활동: MEG 연구)

  • Yu, Gi-Soon;Kim, Choong-Myung;Kim, June-Sic;Chung, Chun-Kee;Nam, Ki-Chun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.61-65
    • /
    • 2006
  • 본 연구는 한국어 어휘중의성 해결과정에 관련된 대뇌활동을 살펴보기 위하여 MEG(magnetoencephalography)를 이용한 실험을 실시하였다. 일차적으로 기존의 중의성 관련 fMRI 실험 결과들이 MEG를 이용한 신호원 국소화 결과와 유사한 패턴을 보이는지 확인하였고, 본 실험의 주요 목적인 중의성 관련 처리과정에 기저하는 하위 처리과정이 어떠한 기능적 처리 요소들로 분해될 수 있는 지에 대해서도 시간 해상도가 높은 MEG의 특성을 이용하여 관찰하였다. 분석 결과, 한국어 중의어 해소과정의 하위처리 과정은 어휘의미 접속이라는 기본적인 과정 비에, 이들의 의미분지를 유발하는 단서의 유무가 그 활성화 영역의 시간적인 패턴과 중의성 해결을 위한 지속시간에 영향을 미치는 것으로 확인되었다.

  • PDF