DOI QR코드

DOI QR Code

Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment

영작문 자동평가를 위한 비속어 검출과 미등록어 분류

  • Received : 2014.05.14
  • Accepted : 2014.07.17
  • Published : 2014.09.30

Abstract

In this paper, we deal with implementation issues of an unknown word classifier for middle-school level English writing test. We define the type of unknown words occurred in English text and discuss the detection process for unknown words. Also, we define the type of swear words occurred in students's English writings, and suggest how to handle this type of words. We implement an unknown word classifier with a swear detection module for developing an automatic English writing scoring system. By experiments with actual test data, we evaluate the accuracy of the unknown word classifier as well as the swear detection module.

본 논문에서는 중 고등 수준 단문형 영어 작문시험의 자동채점 시스템을 위한 사전 미등록어 분류기 구현에 대해 다룬다. 영어 자동채점 과정에서 발생하는 사전 미등록어의 유형을 정의하고 각 유형에 대한 검출 방법에 대해 논의하였다. 또한 영작문 답안에서 나타날 수 있는 비속어의 유형을 정의하고 검출 방법에 대해 연구하였다. 영작문 자동평가 시스템의 모듈로서 비속어 검출 기능이 포함된 미등록어 분류기를 구현하였다. 미등록어 분류와 비속어 검출 방법에 대한 성능을 실제 시험 데이터에 적용하여 그 성능을 평가하였다.

Keywords

References

  1. Tetsuji Nakagawa, Taku Kudoh, and Yuji Matsumoto, "Unknown Word Guessing and Part-of-Speech Tagging Using Support Vector Machines", in Proc. of the 6th NLPRS, pp.325-331, 2010.
  2. Park So-Young, "Phase-based Model Web Documents for Korean Unknown Word Recognition", in Journal of the Korea Institute of Information and Communication Engineering, pp.1898-1904, 2009.
  3. Atkinson, Kevin, "Gnu aspell 0.60. 4", 2006.
  4. Philips, Lawrence, "Hanging on the metaphone," Computer Language 7.12, Dec., 1990.
  5. Kukich, Karen, "Techniques for automatically correcting words in text," ACM Computing Surveys (CSUR) Vol.24, No.4, pp.377-439, 1992. https://doi.org/10.1145/146370.146380
  6. Bahl, L., Baker, J., Jelinek, E., and Mercer, R., "Perplexity-a measure of the difficulty of speech recognition tasks," In Program, 94th Meeting of the Acoustical Society of America 62:$63, Suppl. No.1, 1997.
  7. Jia, Zhongye, Peilu Wang, and Hai Zhao, "Grammatical Error Correction as Multiclass Classification with Single Model," CoNLL-2013 p.74, 2013.