DOI QR코드

DOI QR Code

단어 간 연관성 측정을 통한 문맥 철자오류 교정

Context-sensitive Spelling Correction using Measuring Relationship between Words

  • 최성기 (부산대학교 컴퓨터공학과) ;
  • 김민호 (부산대학교 컴퓨터공학과) ;
  • 권혁철 (부산대학교 컴퓨터공학과)
  • Choi, Sung-Ki (Dept of Computer Science & Engineering, Pusan National University) ;
  • Kim, Minho (Dept of Computer Science & Engineering, Pusan National University) ;
  • Kwon, Hyuk-Chul (Dept of Computer Science & Engineering, Pusan National University)
  • 발행 : 2013.11.08

초록

한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

키워드