• 제목/요약/키워드: 철자오류

검색결과 86건 처리시간 0.027초

문서내 단어간 비교를 통한 철자오류 검출 (Detecting Spelling Errors by Comparison of Words within a Document)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.83-92
    • /
    • 2011
  • 일반 출판물과는 달리 문서 편집기를 사용하여 작성중에 있는 문서에는 사용자의 실수에 의한 오타 오류가 자주 발생한다. 이와 같은 온라인 문서에서 맞춤법 오류의 다수를 차지하는 사용자의 오타 오류는 대부분 자판을 입력할 때 주위 문자를 잘못 입력하는 경우이다. 통상적인 철자 검사기는 이러한 오류들을 형태소 분석기를 이용하여 검출하고 교정하게 된다. 즉, 입력된 어절에 대해 형태소 분석을 시도하고 분석되지 않은 어절을 철자 오류로 간주하게 된다. 그러나 오타 입력된 어절임에도 불구하고 형태소 분석에 성공한 경우에는 이와 같은 방법으로는 검출이 불가능하다. 본 논문에서는 기존 방법들이 검출하지 못했던 철자 오류들을 검출해 낼 수 있는 방법을 제시한다. 이 방법은 문서 작성자의 오타 입력은 반복하여 입력되지 않는 경향이 있으므로 저빈도로 발생한다는 특성에 기반하여 제안되었다. 저빈도의 어절의 자소 대치를 통해 문서의 특정 구간 내의 다른 단어와 비교하여 오타일 확률이 적은 단어인 자주 나오는 단어와 매칭이 된다면 일단 오류 후보로 가정하는 것이다. 여기에는 몇 가지 경험적인 제약이 추가되어야 한다. 이러한 단어간 비교에 의한 추정은 기존에 발견하지 못했던 구문오류뿐만 아니라 일부 의미오류까지 검출할 수 있으며, 교정 후보 선정시 가중치 적용에도 사용될 수 있다.

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

국어 철자검색 프로그램 키재기 (A Benchmark Test for Korean Spelling-Checking Programs)

  • 노용균;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.505-517
    • /
    • 1994
  • 국어 철자 검색 프로그램 세 개의 검색 능력을 비교하였다. 오류가 없는 파일, 타자시의 전형적인 오류를 포함하는 파일(자소별 오류율 1%), 그리고 광학적 문자인식 프로그램의 전형적인 오류를 포함하는 파일(자소별 오류율 $2.7{\sim}2.9%$) 등에 대하여 한글과 컴퓨터, 한국 마이크로소프트, 핸디 소프트의 워드프로세서에 도구로 포함된 철자검색 프로그램을 수행하였다. 이 세 프로그램 중에서 한글과 컴퓨터의 제품은 정방향 오판율과 오류율 낮은 파일에 대한 역방향 오판율이 낮았고 핸디 소프트의 제품은 오류율이 높은 파일에 대한 역방향 오판율이 낮았다. 세 프로그램 모두 역방향 오판율이 자소별 오류율의 10배 이상이라는 점에 있어서 심각한 문제를 안고 있는 것으로 판단된다.

  • PDF

연어 정보를 이용한 한국어 철자 검사기의 기능 개선 (Improvement of a Korean Speller with Collocation of Parts of Speech)

  • 심철민;김현진;김영진;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-90
    • /
    • 1995
  • 본 논문에서는 한 어절 단위에서 다수 어절 단위로 그 고려 영역을 확장한 개선된 철자 검사기를 제시한다. 개선된 철자 검사기는 1) 한 어절 철자 검사 교정부, 2) 언어 규칙 처리부, 3) 문장 부호 규칙 처리부로 구성된다. 한 어절 철자 검사 교정부는 기존의 철자 검사기와 같은 기능을 수행한다. 연어 규칙처리부는 형태소간의 연어 관계를 이용하여 7가지로 유형 분류된 어절 간 오류를 처리한다. 문장 부호 처리부는 문장 부호 자체의 오류와 문장 부호를 참조하여 좌우 어절들의 오류를 검사한다. 현재 256가지의 연이 규칙과 51가지의 문장 부호 규칙이 구축되어 있다. 본 논문에서 제시한 개선된 철자 검사기는 한국어 문체 검사기(Korean Style Checker) 로서 의의를 가지며, 형태소의 연어 정보는 향후 파싱 등의 문장 분석이나 의미 분석에 중요한 자료로 이용될 수 있을 것으로 기대된다.

  • PDF

띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델 (A Joint Statistical Model for Word Spacing and Spelling Error Correction Simultaneously)

  • 노형종;차정원;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.131-139
    • /
    • 2007
  • 본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자 오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대된다.

영어 모음사이 자음의 인지와 발화에서 철자의 영향: 파일럿 연구 (Orthographic Influence in the Perception and Production of English Intervocalic Consonants: A Pilot Study)

  • 초미희;정주연
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.459-466
    • /
    • 2009
  • 한국어에서는 모음사이에서 겹자음이 나타날 수 있으나 영어에서는 이것이 불가능하므로 영어를 배우는 한국 학생들이 $su\underline{mm}er$와 같이 겹자음 철자를 포함하는 단어들을 발음할 때 철자의 겹자음을 모두 발음하는 오류를 흔히 범한다. 따라서 본 파일럿 연구에서는 한국 학생들이 영어 겹자음 철자를 어떻게 발음하고 인지하는지 살펴보기 위해서 영어 겹자음과 단자음의 (유사) 최소변별쌍으로 구성된 36개의 실제어를 20명의 대학생이 듣고 발음하는 인지와 발화 실험을 실행하였다. 실험 결과 한국 학생들은 철자의 영향으로 영어 단자음 철자 단어를 발음할 때보다 겹자음 철자 단어를 발음할 때 이중으로 길게 발음하는 오류를 더 흔히 범해서 겹자음 철자 단어의 정확율보다 단자음의 정확율이 크게 높았으며, 인지의 경우에도 마찬가지로 단자음 철자 단어의 인지 정확율이 겹자음 철자보다 확연하게 높았다. 덧붙여, 한국 학생들의 영어 유성 파열음의 발화 오류율이 낮은 이유를 한국어 음운 체계의 전이로 설명하였다. 끝으로, 한국학생들의 발화를 스펙트로그램을 통해서 분석함으로써 영어 단자음 철자보다는 겹자음 철자에서 더 많은 발화오류를 일으키는 것도 보여주었고 또한 교육적인 함축점도 제안하였다.

5~6세 아동의 철자표상이 말소리분절 과제 수행에 미치는 영향 (Effects of the Orthographic Representation on Speech Sound Segmentation in Children Aged 5-6 Years)

  • 맹현수;하지완
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.499-511
    • /
    • 2016
  • 음운인식은 구어의 기본 단위인 말소리를 지각하고 조작하는 능력으로, 이것은 이후 문자습득에 영향을 주는 것으로 알려져 있다. 그러나 몇몇 연구에서는 문자의 기본 단위인 철자에 대한 지식이 반대로 음운인식에 영향을 준다고 주장한다. 본 연구에서는 5, 6세 아동을 대상으로 철자표상 과제와 말소리분절 과제를 실시한 후, 두 과제 수행력 간 상관관계, 철자표상 상위집단과 하위집단 간 말소리분절 과제의 정반응 점수, 그리고 오류유형을 비교 분석하였다. 그 결과 철자표상 과제와 말소리분절 과제 수행력은 자소-음소 일치 단어에서는 양의 상관, 불일치 단어에서는 음의 상관을 보였다. 자소-음소 일치 단어의 경우 두 집단 간 말소리분절 수행력에 차이가 없었지만, 자소-음소 불일치 단어의 경우 하위집단이 상위집단보다 말소리분절 수행력이 유의하게 좋았다. 두 집단 모두에서 가장 많이 나타난 오류는 철자화 오류였고, 이러한 경향은 상위집단에서 두드러졌다. 본 연구는 철자를 배우기 시작한 직후부터는 아동들이 말소리분절 과제 수행에 철자지식을 활용하고 있음을 시사한다.

한국 학생들의 영어 겹자음 철자 인지와 발화 (Perception and Production of English Geminate Graphemes by Korean Students)

  • 초미희
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.1092-1096
    • /
    • 2009
  • 영어와 한국어의 차이점 중의 하나는 한국어에서는 똑같은 자음이 앞 음절의 종성과 뒤 음절의 초성으로 나와서 겹자음이 될 수 있으나 영어에서는 이것이 불가능하다는 것이다. 그러므로 영어를 배우는 한국 학생들은 영어에서 summer와 같이 겹자음 철자를 포함하는 단어들을 발음할 때 철자의 겹자음을 모두 발음하는 오류를 흔히 보인다. 따라서 본 예비 연구에서는 한국 학생들이 영어 겹자음 철자를 어떻게 발음할 뿐 만 아니라 인지하는지 살펴보기 위해서 영어 겹자음과 단자음의 유사 최소변별쌍으로 구성된 36개의 실제어를 20명의 대학생이 듣고 발음하는 인지와 발화 실험을 실행하였다. 실험 결과 한국 학생들은 단자음 철자를 인지하거나 발화할 때는 각각 78.6%와 76.1%의 비교적 높은 정확율을 보이는 반면에 겹자음 철자을 인지하거나 발화할 때는 각각 55.3%와 61.7%의 낮은 정확율을 보임으로써, 영어 겹자음 철자를 더 길게 인지하고 또한 더 길게 발음하는 오류를 보였다. 또한 한국학생들의 발화를 스펙트로그램을 통해서 분석함으로써 영어 단자음 철자보다는 겹자음 철자에서 더 많은 발화오류를 일으키는 것도 보여주었다.

  • PDF

답 러닝을 이용한 문맥 의존 철자 오류 교정 (Context-sensitive Spelling Error Correction using Deep Learning)

  • 황현선;최경호;이창기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.819-821
    • /
    • 2015
  • 문맥 철자 오류란 단어만 봤을 때에는 오류가 아니지만 문맥상으로는 오류인 문제를 말한다. 이 문제를 해결하기 위해서는 문맥 정보를 보아야 하는데 기존의 방법들은 언어학의 전문가가 설계한 규칙을 사용하거나, 통계적인 분석 방법을 사용하였다. 하지만 이 방법들은 많은 시간과 노력을 필요로 하지만 높은 성능을 얻지 못한다. 본 논문에서는 최근 자연언어처리에서 연구되고 있는 딥러닝을 사용하여 문맥 철자 오류 교정을 시도하였다. 실험 결과 자질 설계 등의 복잡한 작업 없이 워드 임베딩 만을 사용하여 해당 단어들에 대해 F1-measure 91.43 ~ 97.27%의 성능을 보였다.