• Title/Summary/Keyword: 품사 모호성 해소

Search Result 11, Processing Time 0.028 seconds

A Stochastic Model for Leical Disambiguation in Korean (한국어 품사 모호성 해서를 위한 통계적 모델)

  • 이상호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.71-74
    • /
    • 1994
  • 종래의 자연언어 처리 시스템에서는 품사 모호성이 그대로 구문 분석기의 입력으로 사용되었으나, 최근에와서 품사 모호성 해소에 관한 논의가 활발히 진행되고 있다. 본 논문에서는 품사 모호성 해소를 위한 두 개의 통계적 모델이 경로 기반 태깅 모델과 상태 기반 태깅 모델을 설명한다. 그리고하나의 최적 품사열만을 구할 경우 단어당 94% 내외의 정확률을 가지므로 N개의 최적 품사열을 구하는 다중 출력 태거에 대해 각각 설명한다.끝으로 한국어에 이러한 통계적 모델들을 적용한 결과와 발생되는 문제점들을 논한다.

  • PDF

Resolving Part-of-Speech Tagging Ambiguities by a Maximum Entropy Boosting Model (최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.522-524
    • /
    • 2003
  • 품사 결정 문제는 자연언어처리의 가장 기본적인 문제들 중 하나이며, 기계학습의 관점에서 보면 분류 문제(classification problem)로 쉽게 표현된다. 본 논문에서는 품사 결정의 모호성을 해소하기 위해서 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 이 문제에 적응하였다. 그리고, 품사 결정에서 중요한 요소 중의 하나인 미지어 처리를 위해서 특별히 설계된 일차 자질을 고려하였다. 최대 엔트로피 부스팅 모델의 장점은 쉬운 모델링인데, 실제로 품사 결정을 위한 일차 자질만 작성하는 노려만 들이고도 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 거의 비슷한 결과를 보였다.

  • PDF

A Model of English Part-Of-Speech Determination for English-Korean Machine Translation (영한 기계번역에서의 영어 품사결정 모델)

  • Kim, Sung-Dong;Park, Sung-Hoon
    • Journal of Intelligence and Information Systems
    • /
    • v.15 no.3
    • /
    • pp.53-65
    • /
    • 2009
  • The part-of-speech determination is necessary for resolving the part-of-speech ambiguity in English-Korean machine translation. The part-of-speech ambiguity causes high parsing complexity and makes the accurate translation difficult. In order to solve the problem, the resolution of the part-of-speech ambiguity must be performed after the lexical analysis and before the parsing. This paper proposes the CatAmRes model, which resolves the part-of-speech ambiguity, and compares the performance with that of other part-of-speech tagging methods. CatAmRes model determines the part-of-speech using the probability distribution from Bayesian network training and the statistical information, which are based on the Penn Treebank corpus. The proposed CatAmRes model consists of Calculator and POSDeterminer. Calculator calculates the degree of appropriateness of the partof-speech, and POSDeterminer determines the part-of-speech of the word based on the calculated values. In the experiment, we measure the performance using sentences from WSJ, Brown, IBM corpus.

  • PDF

Probabilistic Part-Of-Speech Determination for Efficient English-Korean Machine Translation (효율적 영한기계번역을 위한 확률적 품사결정)

  • Kim, Sung-Dong;Kim, Il-Min
    • The KIPS Transactions:PartB
    • /
    • v.17B no.6
    • /
    • pp.459-466
    • /
    • 2010
  • Natural language processing has several ambiguity problems, and English-Korean machine translation especially includes those problems to be solved in each translation step. This paper focuses on resolving part-of-speech ambiguity of English words in order to improve the efficiency of English analysis, which is in part of efforts for developing practical English-Korean machine translation system. In order to improve the efficiency of the English analysis, the part-of-speech determination must be fast and accurate for being integrated with machine translation system. This paper proposes the probabilistic models for part-of-speech determination. We use Penn Treebank corpus in building the probabilistic models. In experiment, we present the performance of the part-of-speech determination models and the efficiency improvement of the machine translation system by the proposed part-of-speech determination method.

A Non-morphological Approach for DBpedia URI Spotting within Korean Text (한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소)

  • Kim, Youngsik;Hahm, Younggyun;Kim, Jiseong;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

(Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model) (최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소)

  • 박성배
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.5_6
    • /
    • pp.570-578
    • /
    • 2003
  • Maximum entropy models are promising candidates for natural language modeling. However, there are two major hurdles in applying maximum entropy models to real-life language problems, such as prepositional phrase attachment: feature selection and high computational complexity. In this paper, we propose a maximum entropy boosting model to overcome these limitations and the problem of imbalanced data in natural language resources, and apply it to prepositional phrase (PP) attachment and part-of-speech (POS) tagging. According to the experimental results on Wall Street Journal corpus, the model shows 84.3% of accuracy for PP attachment and 96.78% of accuracy for POS tagging that are close to the state-of-the-art performance of these tasks only with small efforts of modeling.

Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information (언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge (다양한 지식을 사용한 영한 기계번역에서의 대역어 선택)

  • Lee, Ki-Young;Kim, Han-Woo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.5 s.43
    • /
    • pp.75-86
    • /
    • 2006
  • Target word selection is one of the most important and difficult tasks in English-Korean Machine Translation. It effects on the translation accuracy of machine translation systems. In this paper, we present a new approach to select Korean target word for an English noun with translation ambiguities using multiple knowledge such as verb frame patterns, sense vectors based on collocations, statistical Korean local context information and co-occurring POS information. Verb frame patterns constructed with dictionary and corpus play an important role in resolving the sparseness problem of collocation data. Sense vectors are a set of collocation data when an English word having target selection ambiguities is to be translated to specific Korean target word. Statistical Korean local context Information is an N-gram information generated using Korean corpus. The co-occurring POS information is a statistically significant POS clue which appears with ambiguous word. The experiment showed promising results for diverse sentences from web documents.

  • PDF

Viterbi Morpheme Restoration in Korean (한국어에서 Viterbi 형태소 복원)

  • Lee, Je-seung;Kim, Jae-hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.536-539
    • /
    • 2021
  • 본 논문은 한국어에서 형태소 복원을 위한 새로운 방법을 제안한다. 일반적으로 기계학습 기반 형태소 분석에서 형태소 복원은 기분석 사전과 약간의 경험규칙을 이용한다. 이와 같은 방법은 모호성을 해결하기 위해 사전에 모든 정보를 저장하는 것이 불가능할 뿐 아니라 단음절 이형태의 모호성을 해결할 수 없을 것이다. 이러한 문제를 완화하기 위해 본 논문에서는 생성된 모호성을 Viterbi 알고리즘을 이용해서 해소한다. 본 논문의 형태소 복원 과정은 기본적으로 기분석 사전과 약간의 경험규칙을 이용하여 형태소 복원 후보를 찾고 여러 후보가 있을 경우(모호성의 생성), 그 결과를 Viterbi 알고리즘으로 이형태를 결정한다. 실험을 위해 모두의 말뭉치(형태 분석)를 사용하고, 평가는 NER 방식으로 평가한다. 그 결과 품사 부착에 대해 96.28%정도의 성능을 보여주었다.

  • PDF

Inducing Subsumption Conditions for Morphological Ambiguity Reduction (형태소의 모호성 축소를 위한 포섭조건의 자동 추론)

  • Kim, Jae-Hoon;Jang, Byung-Gyu;Kim, Gil-Chang;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.175-180
    • /
    • 1995
  • 한국어는 교착어이기 때문에 형태소 해석은 자연언어 처리에서 매우 중요한 역할을 담당한다. 한국어 형태소 해석에서 주로 사용되는 정보는 두 형태소의 결합 가능 유무를 나타내는 접속정보이다. 이 접속정보는 단순한 품사정보에 의해서 표현되기 때문에 형태소 해석기의 과잉 해석의 원인이 된다. 이를 줄이기 위해 언어 지식의 일종인 포섭관계가 제안되었다[5]. 그러나, 포섭관계를 검사하기 위한 포섭조건들은 수작업에 의해서 작성되었다. 수작업으로 작성된 이들 조건들은 일관성 유지하기 어려울 뿐 아니라 완전한 조건들을 구하기도 어렵다. 따라서, 본 논문에서는 이와 같은 문제를 해소하기 위해서 품사 태깅된 말뭉치를 이용해서 포섭조건의 자동 추출방법을 제안한다.

  • PDF