• Title/Summary/Keyword: 철자교정기

Search Result 27, Processing Time 0.032 seconds

The analysis of Korean Spelling Corrector using Hill-Climbing Method (등산법을 이용한 한국어 맞춤법 교정기의 분석)

  • Yun, Keun-Soo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.7 no.4
    • /
    • pp.789-796
    • /
    • 2012
  • To find the module sequence that makes correction rate optimal is the goal of this paper. The Hill-climbing algorithm was used in the experiment to analyze the performance of Korean Spelling Corrector. Given the wrong eojul set, We found the module sequence that shows correction rate of 96.41%. Because of the quite high correction rate, Hill-climbing is a practical method for our Spelling Corrector.

Detecting Spelling Errors by Comparison of Words within a Document (문서내 단어간 비교를 통한 철자오류 검출)

  • Kim, Dong-Joo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.12
    • /
    • pp.83-92
    • /
    • 2011
  • Typographical errors by the author's mistyping occur frequently in a document being prepared with word processors contrary to usual publications. Preparing this online document, the most common orthographical errors are spelling errors resulting from incorrectly typing intent keys to near keys on keyboard. Typical spelling checkers detect and correct these errors by using morphological analyzer. In other words, the morphological analysis module of a speller tries to check well-formedness of input words, and then all words rejected by the analyzer are regarded as misspelled words. However, if morphological analyzer accepts even mistyped words, it treats them as correctly spelled words. In this paper, I propose a simple method capable of detecting and correcting errors that the previous methods can not detect. Proposed method is based on the characteristics that typographical errors are generally not repeated and so tend to have very low frequency. If words generated by operations of deletion, exchange, and transposition for each phoneme of a low frequency word are in the list of high frequency words, some of them are considered as correctly spelled words. Some heuristic rules are also presented to reduce the number of candidates. Proposed method is able to detect not syntactic errors but some semantic errors, and useful to scoring candidates.

Alleviation of Overcorrection Problem in Neural Korean Spelling Correction (뉴럴 한국어 맞춤법 교정기에서 과교정(Overcorrection) 문제 완화)

  • Park, Chanjun;Lee, Yeonsu;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.582-587
    • /
    • 2020
  • 현재까지 한국어 맞춤법 교정 Task는 대부분 규칙기반 및 통계기반 방식의 연구가 진행되었으며 최근 딥러닝 기반의 한국어 맞춤법 교정에 대한 연구가 진행되고 있다. 맞춤법 교정에서 문법적 또는 철자적으로 틀린 부분을 교정하는 것도 중요하지만 올바른 문장이 입력으로 들어왔을 때 교정을 진행하지 않고 올바른 문장을 출력으로 내보내는 것 또한 중요하다. 규칙기반 맞춤법 교정기 같은 경우 문장의 구조를 흐트러트리지 않고 규칙에 부합하는 오류 부분만 고쳐낸다는 장점이 있으나 신경망 기반의 한국어 맞춤법 교정 같은 경우 Neural Machine Translation(NMT)의 고질적인 문제점인 반복 번역, 생략, UNK(Unknown) 때문에 문장의 구조를 흐트러트리거나 overcorrection(과교정) 하는 경우가 존재한다. 본 논문은 이러한 한계점을 극복하기 위하여 Correct to Correct Mechanism을 제안하며 이를 통해 올바른 문장이 입력으로 들어왔을 시 올바른 문장을 출력하는 성능을 높인다.

  • PDF

Analysis of Predicate/Arguments Syntactico-Semantic Relation for the Extension of a Korean Grammar Checker (한국어 문법 검사기의 기능 확장을 위한 서술어와 논항의 통사.의미적 관계 분석)

  • Nam, Hyeon-Suk;Son, Hun-Seok;Choi, Seong-Pil;Park, Yong-Uk;So, Gil-Ja;Gwon, Hyeok-Cheol
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.403-408
    • /
    • 1997
  • 언어의 내적 특성을 반영하는 의미 문체의 검사 및 교정은 언어의 형태적인 면과 관련있는 단순한 철자 검사 및 교정에 비해 더 난해하고 복잡한 양상을 띤다. 본 논문이 제안하는 의미 정보를 이용한 명사 분류 방법은 의미와 문체 오류의 포착과 수정 기능을 향상시키기 위한 방법의 하나이다. 이 논문은 문맥상 용법이 어긋나는 서술어를 교정하기 위해 명사 의미 분류방법을 서술어/논항의 통사 의미적 관계 분석에 이용하여 의미 규칙을 세우는 과정을 서술한다. 여기서 논항인 명사의 의미 정보를 체계적으로 분류하기 위해 시소러스 기법과 의미망을 응용한다. 서술어와 논항 사이의 통사 의미적 관계에 따라 의미 문체 오류를 검사하고 교정함으로써 규칙들을 일반화하여 구축하게 하고 이미 존재하고 있는 규칙을 단순화함으로써 한국어 문법 검사기의 기능을 보완한다.

  • PDF

A Division Method of Korean Compound Noun by number of syllable (음절수에 따른 한국어 복합 명사 분리 방안)

  • Choi, Jae-Hyuk
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.262-267
    • /
    • 1996
  • 한국어 맞춤법 검사기는 문서내에서 발생되는 비표준어 오류, 띄어쓰기/붙여쓰기 오류, 조사/어미 오류, 외래어 오류, 철자 오류 등에 대해서 이에 적합한 대치어를 제시해 준다. 일반적으로 한국어의 맞춤법 오류 중 가장 빈번하게 발생되는 것이 띄어쓰기 오류이며, 이 중에서도 복합 명사에 대한 띄어쓰기 오류가 가장 많이 발생한다. 본 논문에서는 복합 명사에 대한 띄어쓰기 교정 방안으로 복합명사의 음절수에 따라 1개의 결과만을 출력하도록 하는 복합 명사 분리 방안을 제시하며, 또한 복합 명사 분리 시의 사전 참조 횟수를 줄이는 방법을 제안한다.

  • PDF

A Recognition of Word Spacing Errors Using By Syllable Bigram (음절 bigram 특성을 이용한 띄어쓰기 오류의 인식)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.85-88
    • /
    • 2000
  • 대용량 말뭉치에서 이웃 음절간 공기빈도 정보를 추출하여 한글의 bigram 음절 특성을 조사하였다. Bigram 음절 특성은 띄어쓰기가 무시된 문서에 대한 자동 띄어쓰기, 어떤 어절이 띄어쓰기 오류어인지 판단, 맞춤법 검사기에서 철자 오류어의 교정 등 다양한 응용분야에서 유용하게 사용될 것으로 예상되고 있다. 본 논문에서는 한글의 bigram 음절 특성을 자동 띄어쓰기 및 입력어절이 띄어쓰기 오류어인지를 판단하는데 적용하는 실험을 하였다. 실험 결과에 의하면 bigram 음절 특성이 매우 유용하게 사용될 수 있음을 확인하였다.

  • PDF

COGNITIVE SPELLING THERAPIST: A combined method for correcting four types of spelling errors: insertion, deletion, transposition, substitution (인지적 철자 교정 후보 제시기: 삽입, 생략, 전위, 대치 오류 수정을 위한 복합 방안)

  • Lee, Jong-Ho;Lee, Jong-Hyeok;Lee, Gun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.132-139
    • /
    • 1994
  • Cognitive Spelling Therapist generates the candidates for correction of one-letter misspelling words, which correspond to over 80 % of the misspelling words. One-letter misspelling can be divided into four categories, and for each categories Cognitive Spelling Therapist copes them with seperate cognitive therapies. Each therapy is based on cognitive causes of misspelling: figural confusion, pronunciation confusion, and keyboard confusion. Cognitive Spelling Therapist generates three candidates for correction in average. After we tested the correctness of candidates with 185 misspelled words randomly sampled from two typist for two months, Cognitive Spell Therapist showed 97.5 % correction for substitution errors, while insertion, deletion, and transposition errors were perfectly corrected.

  • PDF