DOI QR코드

DOI QR Code

Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화

  • 소길자 (영산대학교 게임.콘텐츠학과) ;
  • 이승희 ((주)나라인포테크 지능시스템 연구소) ;
  • 권혁철 (부산대학교 정보컴퓨터공학부, 인지과학협동과정)
  • Received : 2011.03.03
  • Accepted : 2011.09.05
  • Published : 2011.12.31

Abstract

Korean grammar checkers typically detect context-dependent errors by employing heuristic rules that are manually formulated by a language expert. These rules are appended each time a new error pattern is detected. However, such grammar checkers are not consistent. In order to resolve this shortcoming, we propose new method for generalizing error decision rules to detect the above errors. For this purpose, we use an existing thesaurus KorLex, which is the Korean version of Princeton WordNet. KorLex has hierarchical word senses for nouns, but does not contain any information about the relationships between cases in a sentence. Through the Tree Cut Model and the MDL(minimum description length) model based on information theory, we extract noun classes from KorLex and generalize error decision rules from these noun classes. In order to verify the accuracy of the new method in an experiment, we extracted nouns used as an object of the four predicates usually confused from a large corpus, and subsequently extracted noun classes from these nouns. We found that the number of error decision rules generalized from these noun classes has decreased to about 64.8%. In conclusion, the precision of our grammar checker exceeds that of conventional ones by 6.2%.

국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.

Keywords

References

  1. M. Roger, "Spelling checkers, spelling correctors, and the misspellings of poor spellers," Information Processing and Management, Vol.23, No.5, pp.495-505, 1987. https://doi.org/10.1016/0306-4573(87)90116-6
  2. K. Kukich, "Techniques for automatically correcting words in text," ACM Computing Surveys, Vol.24, No.4, pp.377-439, Dec., 1992. https://doi.org/10.1145/146370.146380
  3. A. R. Golding and D. Roth. "A winnow-based approach to context-sensitive spelling correction," Machine learning, Vol.34, No.1-3, pp.107-130, 1999. https://doi.org/10.1023/A:1007545901558
  4. A. R. Golding, "A Bayesian hybrid method for context-sensitive spelling correction," Proc. the 3rd workshop on very large corpora, pp.39-53, 1995.
  5. E. S. Atwell, "How to detect grammatical errors in a text without parsing it," Proc. EACL '87, pp.38-45, 1987.
  6. C. Chelba and F. Jelinek, "Recognition performance of a structured language model," Eurospeech, 1999.
  7. 김현진, "어절 간 의존관계와 부분 문장 분석을 이용한 한국어문법 검사기 구현," 부산대학교 전자계산학과 석사학위 논문, 1997
  8. M. Y. Kang, A. S. Yoon, H. C. Kwon, "Improving partial parsing based on error-pattern analysis for Korean grammar-checker," ACM Transactions on Asian Language Information Processing, Vol.2, No.4, pp.301-323, 2003. https://doi.org/10.1145/1007551.1007552
  9. 이공주, 황선영 외, "전체 문장 분석에 기반한 한국어 문법 검사기," 정보과학회논문지:소프트웨어 및 응용, Vol.30, No.10, pp.992-999, 2003.
  10. H. Li and N. Abe, "Generalizing case frames using a thesaurus and the MDL principle," Computational Linguistics, Vol.24 No.2, pp.217-244, 1998.
  11. P. Resnik. "Selectional preferences and sense disambiguation," Proc. ACL SIGLEX Workshop, pp.52-57, 1997.
  12. S. Clark and D. Weir, "Class-based probability estimation using a semantic hierarchy," Computational Linguistics, Vol.28 No.2, pp.187-206, 2002. https://doi.org/10.1162/089120102760173643
  13. J. Rissanen. "Modeling by shortest data description," Automatic, Vol.14, No.5, pp.37-38, 1978.
  14. 윤애선, 황순희 외, "한국어 어휘의미망 Korlex 1.5의 구축," 정보과학회논문지:소프트웨어 및 응용, Vol.36, No.1, pp.92-108, 2009.