• Title/Summary/Keyword: Spelling corrector

Search Result 6, Processing Time 0.02 seconds

A Research on Module Arrangement of Korean Spelling Corrector to Optimize Correction Rate (교정률 최적화를 위한 한국어 철자교정기의 모듈 배열)

  • Yun Keun-Soo;Kwon Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.5
    • /
    • pp.366-377
    • /
    • 2005
  • We find a module may that takes optimal correction rate of Korean spelling corrector. If there are a lot of module numbers of spelling corrector, it is difficult to calculate optimal correction rate of spelling corrector because permutation of N-modules is N!. This Korean spelling corrector consists of 19 modules. It is impossible to arrange 19 modules actually and the correction rate is various according to input data. We found the range of correction rate using parallel processing between modules and the optimal correction rate using sequential processing of modules. Input data that are used in an experiment is 753,191 eojeol's sets that happen in newspaper publishing company during several years. About this error set, theoretical maximum correction rate of spelling corrector is $97.28\%$ (732,764/753,191). But we got the optimal correction rate $96.62\%$ (727,750/733,191). This optimal correction rate is almost near to $99.31\%$ (727,750/732,764) of the maximum correction rate.

The analysis of Korean Spelling Corrector using Hill-Climbing Method (등산법을 이용한 한국어 맞춤법 교정기의 분석)

  • Yun, Keun-Soo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.7 no.4
    • /
    • pp.789-796
    • /
    • 2012
  • To find the module sequence that makes correction rate optimal is the goal of this paper. The Hill-climbing algorithm was used in the experiment to analyze the performance of Korean Spelling Corrector. Given the wrong eojul set, We found the module sequence that shows correction rate of 96.41%. Because of the quite high correction rate, Hill-climbing is a practical method for our Spelling Corrector.

Implementation of morphologica analyzer and spelling corrector for charcter recognition post-processing (문자 인식 후처리를 위한 형태소 분석기와 문자 교정기의 구현)

  • 이영화;김규성;김영훈;이상조
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.34C no.5
    • /
    • pp.82-92
    • /
    • 1997
  • In this paper, we propose post-rpocessing method that corrects a misrecognized character by generated a characater recognizer using morphological analyzer and spelling corrector. The proposed post-processing consists of sthree phases : First, our method pass through morhological analyzer which only outputted necessary information for spelling correcting, doesn't analyze a bundle of phrases, and detects the location of misrecognized character. Second, tagging the generated candidate character using the information of character substitution table and grapheme substitution/separating table. Then we retry analysis after the misrecognition character has been substituted. Finally we select table, we investigate misrecognized charcters in CORPUS. Reliability analysis used to frequency of randomly selected about 100,000 words in CORPUS. A korean character recognizer demonstrates 93% correction rate without a post-processing. The entire recognition rate of our system with a post-processing exceeds 97% correction rate.

  • PDF

An Implementation of Neuro-Fuzzy Korean Spelling Corrector Using Keyboard Arrangement Characteristics (자판 배열 특성을 이용한 Neuro-Fuzzy 한국어 철자 교정기의 구현)

  • Jung, Han-Min;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.317-328
    • /
    • 1993
  • 본 논문은 신경망과 퍼지 이론을 결합한 한국어 철자 교정기 KSCNN(Korean Spelling Corrector using Neural Network)에 대하여 기술한다. KSCNN은 퍼셉트론(perceptron) 학습을 이용한 연상 메모리(associative memory)로 구성되며 자판 배열 특성을 고려한 퍼지 멤버쉽 함수에 의해 신경망의 입력값을 정한다. 본 철자 교정기의 장점은 인지적인 방법으로 철자를 교정하기 때문에 기존의 VA나 BNA와는 달리 오류의 종류에 영향을 받지 않으며 교정된 철자나 후보자들에 대한 견인값(attraction value)을 측정하여 시스템의 신뢰도를 높일 수 있다는 데 있다. 또한, 본 논문은 실험을 통해서 퍼지 멤버쉽 함수에 의한 입력 노드의 활성화가 자판 배열특성을 고려할 수 있기 때문에 시스템의 성능을 향상시킨다는 사실을 보여준다.

  • PDF

A Joint Statistical Model for Word Spacing and Spelling Error Correction Simultaneously (띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델)

  • Noh, Hyung-Jong;Cha, Jeong-Won;Lee, GaryGeun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.131-139
    • /
    • 2007
  • In this paper, we present a preprocessor which corrects word spacing errors and spelling correction errors simultaneously. The proposed expands noisy-channel model so that it corrects both errors in colloquial style sentences effectively, while preprocessing algorithms have limitations because they correct each error separately. Using Eojeol transition pattern dictionary and statistical data such as n-gram and Jaso transition probabilities, it minimizes the usage of dictionaries and produces the corrected candidates effectively. In experiments we did not get satisfactory results at current stage, we noticed that the proposed methodology has the utility by analyzing the errors. So we expect that the preprocessor will function as an effective error corrector for general colloquial style sentence by doing more improvements.

Korean Spelling Corrector Based on Corpus Analysis (말뭉치를 기반으로 한 한국어 철자 교정기의 구현)

  • Lee, Byeong-Hun;Yun, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.285-293
    • /
    • 1993
  • 대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

  • PDF