• Title/Summary/Keyword: 철자교정기

Search Result 27, Processing Time 0.026 seconds

A Research on Module Arrangement of Korean Spelling Corrector to Optimize Correction Rate (교정률 최적화를 위한 한국어 철자교정기의 모듈 배열)

  • Yun Keun-Soo;Kwon Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.5
    • /
    • pp.366-377
    • /
    • 2005
  • We find a module may that takes optimal correction rate of Korean spelling corrector. If there are a lot of module numbers of spelling corrector, it is difficult to calculate optimal correction rate of spelling corrector because permutation of N-modules is N!. This Korean spelling corrector consists of 19 modules. It is impossible to arrange 19 modules actually and the correction rate is various according to input data. We found the range of correction rate using parallel processing between modules and the optimal correction rate using sequential processing of modules. Input data that are used in an experiment is 753,191 eojeol's sets that happen in newspaper publishing company during several years. About this error set, theoretical maximum correction rate of spelling corrector is $97.28\%$ (732,764/753,191). But we got the optimal correction rate $96.62\%$ (727,750/733,191). This optimal correction rate is almost near to $99.31\%$ (727,750/732,764) of the maximum correction rate.

Korean Spell Correction Using Collocation of Morphemes (형태소간의 의존 관계에 따른 오류 유형 추정 함수를 이용한 한국어 철자 오류 교정)

  • Sim, Chul-Min;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.493-498
    • /
    • 1994
  • 기존 철자 검사/교정기들은 한 어절을 구성하는 형태소들의 품사 정도만을 이용하고 있다. 때문에 철자 검사나 교정의 정확도 면에서 한계를 가진다. 본 논문에서는 한국어의 구문적 연관 관계 및 구문 내에 존재하는 단어들 간의 의미적 연관관계 등을 바탕으로 오류 유형을 추정하는 오류 유형 추정 함수를 제안하고, 이를 이용한 철자 교정기를 구현하였다. 본 논문에서 구현한 오류 유형 추정 함수를 이용한 철자 검사/교정기는 한 어절에 국한되었던 철자 검사/교정의 범위를 여러 어절로 확장하고자 하는 시도의 시발이라 할 수 있다. 따라서 구문 검사 및 의미 검사를 수행하는 문체 검사기의 원형으로서 그 의의를 가진다.

  • PDF

Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments (언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법)

  • Kim, Minho;Jin, Jingzhi;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Korean Spelling Corrector Based on Corpus Analysis (말뭉치를 기반으로 한 한국어 철자 교정기의 구현)

  • Lee, Byeong-Hun;Yun, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.285-293
    • /
    • 1993
  • 대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

  • PDF

An Implementation of Neuro-Fuzzy Korean Spelling Corrector Using Keyboard Arrangement Characteristics (자판 배열 특성을 이용한 Neuro-Fuzzy 한국어 철자 교정기의 구현)

  • Jung, Han-Min;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.317-328
    • /
    • 1993
  • 본 논문은 신경망과 퍼지 이론을 결합한 한국어 철자 교정기 KSCNN(Korean Spelling Corrector using Neural Network)에 대하여 기술한다. KSCNN은 퍼셉트론(perceptron) 학습을 이용한 연상 메모리(associative memory)로 구성되며 자판 배열 특성을 고려한 퍼지 멤버쉽 함수에 의해 신경망의 입력값을 정한다. 본 철자 교정기의 장점은 인지적인 방법으로 철자를 교정하기 때문에 기존의 VA나 BNA와는 달리 오류의 종류에 영향을 받지 않으며 교정된 철자나 후보자들에 대한 견인값(attraction value)을 측정하여 시스템의 신뢰도를 높일 수 있다는 데 있다. 또한, 본 논문은 실험을 통해서 퍼지 멤버쉽 함수에 의한 입력 노드의 활성화가 자판 배열특성을 고려할 수 있기 때문에 시스템의 성능을 향상시킨다는 사실을 보여준다.

  • PDF

Improving of the Correction Methods for a Korean Spell/Grammar Checker (한국어 철자 검사기의 교정기법 개선)

  • 김광영;남현숙;박수호;박진희;권혁철
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.89-94
    • /
    • 2000
  • 본 논문은 부산대 철자 검사/교정기의 기존 성능을 보완하고 기능을 추가하는데 중점을 두었다. 웹 문서, 신문 등을 통해서 사용자들이 자주 틀리는 오류 단어에 대해서 오류 유형을 분류했다. 이 결과를 철자 검사 및 교정 시스템에 적용하여 교정기법 개선을 통하여 띄어쓰기 교정 기능을 향상 시켰다. 이렇게 새로 구현한 시스템과 이전 시스템의 성능을 실험을 통해 비교 분석하였다. 본 연구를 진행하면서 발견한 문제점과 한계를 이후 더 발전 해야할 과제로 고찰하고 결론을 맺는다.

  • PDF

Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method (규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상)

  • Choi, Hyun-Soo;Kwon, Hyuk-Chul;Yoon, Aesun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

Adaptive Context-Sensitive Spelling Error Correction System Based on Self-Attention for Social Network Service Chatting Data (SNS 채팅 데이터에 적응적인 Self-Attention 기반 문맥의존 철자오류 교정 시스템)

  • Choi, Hyewon;Jang, Daesik;Son, Dongcheol;Lee, Seungwook;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.362-367
    • /
    • 2019
  • 본 논문에서는 Self-Attention을 활용한 딥러닝 기반 문맥의존 철자오류 교정 모델을 제안한다. 문맥의존 철자오류 교정은 최근 철자오류 교정 분야에서 활발히 연구되고 있는 문제 중 하나이다. 기존에는 규칙 기반, 확률 기반, 임베딩을 활용한 철자오류 교정이 연구되었으나, 아직 양질의 교정을 수행해내기에는 많은 문제점이 있다. 따라서 본 논문에서는 기존 교정 모델들의 단점을 보완하기 위해 Self-Attention을 활용한 문맥의존 철자오류 교정 모델을 제안한다. 제안 모델은 Self-Attention을 활용하여 기존의 임베딩 정보에 문맥 의존적 정보가 반영된 더 나은 임베딩을 생성하는 역할을 한다. 전체 문장의 정보가 반영된 새로운 임베딩을 활용하여 동적으로 타겟 단어와의 관련 단어들을 찾아 문맥의존 철자 오류교정을 시행한다. 본 논문에서는 성능평가를 위해 세종 말뭉치를 평가 데이터로 이용하여 제안 모델을 실험하였고, 비정형화된 구어체(Kakao Talk) 말뭉치로도 평가 데이터를 구축해 실험한 결과 비교 모델보다 높은 정확율과 재현율의 성능향상을 보였다.

  • PDF