• Title/Summary/Keyword: 오류 어휘

Search Result 107, Processing Time 0.023 seconds

Tagging Error Correction Using Lexical Morpheme Context (형태소 어휘 문맥에 기반한 태깅 오류 정정)

  • Kim, Young-Kil;Yang, Sung-Il;Hong, Mun-Pyo;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.63-68
    • /
    • 2003
  • 본 논문에서는 형태소 분석 대상 어절의 좌우 어절내의 대표 형태소 어휘 문맥 정보에 기반한 형태소 오류 정정 방안을 제안한다. 현재까지 주변의 품사열 문맥 정보에만 의존하는 기존의 품사 태깅 모델과 달리 주변 어휘를 반영할 수 있는 좌우 어절 문맥을 이용해 형태소 태거의 성능을 향상시킬 수 있는 방법들이 제시되었다. 그러나 이러한 어절 문맥에 의한 지속적인 성능 향상을 위해서는 대량의 품사 태킹 문맥 정보를 필요로 한다. 따라서 본 논문에서는 이러한 자료 부족 문제를 해결하기 위하여 기존의 분석 대상 어절 좌우의 어절 단위의 어휘 문맥 정보가 아닌 좌우 어절내의 대표 형태소 단위의 형태소 어휘 문맥을 이용한 품사 태깅 오류 정정 방안을 제안한다. 실험을 통해, 형태소 어휘 단위의 문맥 정보의 적용성(Coverage)의 높고 기존의 품사 문맥 정보 기반의 형태소 분석기의 태깅 오류를 정정하여 그 정확성을 크게 향상시킬 수 있음을 보인다.

  • PDF

Error Analysis of Chinese Learners of the Korean Language: Focus on Analysis of Vocabulary (중국어 모어 화자의 한국어 학습자의 쓰기에 나타난 오류 분석 -어휘 오류를 중심으로-)

  • Noh, Byung-ho
    • Journal of the Korea Convergence Society
    • /
    • v.6 no.5
    • /
    • pp.131-142
    • /
    • 2015
  • The aim of study is to present a better teaching strategy to reduce writing errors of Chinese learners of Korean language after finding out what reasons of errors were after analyzing of their writing errors in Korean language. Analyzed contents were writhing in Korean language of 'how I think Korean', 'about Chinese and Korean culture', 'friends' and analyzed what errors were occurred. The vocabulary errors frequencies were counted by the criteria which was set by a researcher. The results were as follows. The frequency of substitute error was the most and were followed by spelling error, wrong type error, omission error and adding error. It is suggested when we teach Korean Language to Chinese learners and develop text for them, the vocabularies should be presented with examples of how to be used in context instead of presenting only vocabulary on the text. It would be a better way to reduce writing errors of Chinese learners of Korean language.

Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier (어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상)

  • Choi, Won-Jong;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF

Context-sensitive Spelling Error Correction using Eojeol N-gram (어절 N-gram을 이용한 문맥의존 철자오류 교정)

  • Kim, Minho;Kwon, Hyuk-Chul;Choi, Sungki
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1081-1089
    • /
    • 2014
  • Context-sensitive spelling-error correction methods are largely classified into rule-based methods and statistical data-based methods, the latter of which is often preferred in research. Statistical error correction methods consider context-sensitive spelling error problems as word-sense disambiguation problems. The method divides a vocabulary pair, for correction, which consists of a correction target vocabulary and a replacement candidate vocabulary, according to the context. The present paper proposes a method that integrates a word-phrase n-gram model into a conventional model in order to improve the performance of the probability model by using a correction vocabulary pair, which was a result of a previous study performed by this research team. The integrated model suggested in this paper includes a method used to interpolate the probability of a sentence calculated through each model and a method used to apply the models, when both methods are sequentially applied. Both aforementioned types of integrated models exhibit relatively high accuracy and reproducibility when compared to conventional models or to a model that uses only an n-gram.

A Study on Lexical Ambiguity Resolution of Korean Morphological Analyzer (형태소 분석기의 어휘적 중의성 해결에 관한 연구)

  • Park, Yong-Uk
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.7 no.4
    • /
    • pp.783-787
    • /
    • 2012
  • It is not easy to find out syntactic error in a spelling checker systems of Korean, because the spelling checker is generally to correct each phrase and it cannot check the errors of contextual ill-matched words. Spelling checker system tests errors based on a words. Disambiguation of lexical ambiguities is important in natural language processing. Its outputs is used in syntactic analysis. For accurate analysis of a sentence, syntactic analysis system must find out the ambiguity of morphemes in a word. In this paper, we suggest several rules to resolve the ambiguities of morphemes in a word. Using these methods, we can reduce many lexical ambiguities in Korean.

A Study on Generalization of Semantic Error Detection Rules in a Grammar Checker for Korean Using Korean WordNet 『KorLex』 (한국어 어휘의미망을 활용한 의미 오류 검사 규칙 일반화 연구)

  • So, Gil-Ja;Kwon, Hyuk-chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.640-643
    • /
    • 2010
  • 영어권에서는 통계적 기반 의미 오류 검사기에 대한 연구가 활발하게 진행되었으나 한국어에서는 자주 나타나는 오류를 중심으로 오류 단어를 검사할 문맥이나 공기정보를 갖는 규칙 기반의 연구가 이루어져왔다. 본 논문에서는 표제어나 사전 기반 범주화 정보로 표현되고 있는 기존 문법 검사기의 성능을 개선하는 방안으로 한국어 명사 어휘 의미망인 KorLex를 활용하는 방법을 연구한다. 특히, 용언은 목적어나 주어에 사용되는 명사의 표제어가 의미 제약 조건으로 사용되는 예가 많다. 본 논문에서는 용언의 의미 제약 조건을 명사 표제어 단위에서 명사 의미 그룹(class) 단위로 확대하여 문법 검사기의 의미 오류 검사 규칙의 의미 오류 제약 조건을 일반화 하는 방안을 연구한다.

Performance Improvement of Variable Vocabulary Speech Recognizer (가변어휘 음성인식기의 성능개선)

  • Kim Seunghi;Kim Hoi-Rin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.21-24
    • /
    • 1999
  • 본 논문에서는 가변어휘 음성인식기의 성능개선 작업에 관한 내용을 기술하고 있다. 묵음을 포함한 총 40개의 문맥독립 음소모델을 사용한다. LDA 기법을 이용하여 동일차수의 특징벡터내에 보다 유용한 정보를 포함시키고, likelihood 계산시 가우시안 분포와 mixture weight에 대한 가중치를 달리 함으로써 성능향상을 볼 수 있었다. ETRI POW 3848 DB만을 사용하여 실험한 경우, $21.7\%$의 오류율 감소를 확인할 수 있었다. 잡음환경 및 어휘독립환경을 고려하여 POW 3848 DB와 PC 168 DB 및 PBW445 DB를 사용한 실험도 행하였으며, PBW 445 DB를 사용한 어휘독립 인식실험의 경우 $56.8\%$의 오류율 감소를 얻을 수 있었다.

  • PDF

Error detection and correction in speech recognition by using lexico-semantic patterns (어휘의미패턴을 이용한 음성인식 오류 검출 및 수정)

  • Yoon, Yong-Wook;Jung, Han-Min;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.62-68
    • /
    • 2002
  • 음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.

  • PDF

Improvement of Transformation Rule-Based Korean Part-Of-Speech Tagger (변형 규칙 기반 한국어 품사 태거의 개선)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.216-221
    • /
    • 1996
  • 변형 규칙 기반 품사 태거는 태깅 규칙을 코퍼스로부터 자동 학습할 수 있고, 견고하며 태깅 결과를 이해하고 분석하기가 쉽다는 장점을 갖는다. 이에 최근 한국어 특성을 고려한 변형 규칙 기반 한국어 품사 태거가 개발되었다. 하지만 이 시스템은 오류 어절의 어휘 정보를 사용하지 않으므로 수정 가능 오류에 대한 변형 규칙이 제대로 학습되지 못하며, 변형 규칙 적용 과정에 새로운 오류를 발생시킨다는 문제점이 있다. 이에 본 논문은 오류 어절의 어휘 정보를 참조할 수 있는 세부변형 규칙 추출을 이용한 변형 규칙 기반 한국어 품사 태거의 개선 방안을 제안한다. 어휘 정보를 참조할 수 있는 세부 변형 규칙의 형태는 특정 문맥 C에서 어절 W의 어절 태그 ${\alpha}$를 어절 태그 ${\beta}$로 변형한다와 같다. 제안된 방법은 약 10만 어절 크기의 학습 코퍼스에서 57개의 세부 규칙을 학습하였고, 2만 어절 크기의 실험코퍼스에 적용한 결과 95.6%의 정확도를 보임으로써 기존의 변형 규칙 기반 품사 태거의 정확도를 약 15.4% 향상시켰다.

  • PDF

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.6
    • /
    • pp.386-391
    • /
    • 2008
  • Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.