DOI QR코드

DOI QR Code

영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출

Automatic Detection of Off-topic Documents using ConceptNet and Essay Prompt in Automated English Essay Scoring

  • 이공주 (충남대학교 전파정보통신공학과) ;
  • 이경호 (충남대학교 정보통신공학과)
  • 투고 : 2015.06.15
  • 심사 : 2015.10.02
  • 발행 : 2015.12.15

초록

본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.

This work presents a new method that can predict, without the use of training data, whether an input essay is written on a given topic. ConceptNet is a common-sense knowledge base that is generated automatically from sentences that are extracted from a variety of document types. An essay prompt is the topic that an essay should be written about. The method that is proposed in this paper uses ConceptNet and an essay prompt to decide whether or not an input essay is off-topic. We introduce a way to find the shortest path between two nodes on ConceptNet, as well as a way to calculate the semantic similarity between two nodes. Not only an essay prompt but also a student's essay can be represented by concept nodes in ConceptNet. The semantic similarity between the concepts that represent an essay prompt and the other concepts that represent a student's essay can be used for a calculation to rank "on-topicness" ; if a low ranking is derived, an essay is regarded as off-topic. We used eight different essay prompts and a student-essay collection for the performance evaluation, whereby our proposed method shows a performance that is better than those of the previous studies. As ConceptNet enables the conduction of a simple text inference, our new method looks very promising with respect to the design of an essay prompt for which a simple inference is required.

키워드

과제정보

연구 과제 주관 기관 : 충남대학교

참고문헌

  1. Jill Burstein and Derrick Higgins, "Advanced Capabilities for Evaluating Student Writing: Detecting Off-Topic Essays Without Topic-Specific Training," Proc. of the International Conference on Artificial Intelligence in Education, Jul. 2005.
  2. Robert Speer and Catherine Havasi, "Representing General Relational Knowledge in ConceptNet 5," LREC, pp. 3679-3686, 2012.
  3. Higgins, D., Burstein, J., Attali, Y., "Identifying offtopic student essays without topic-specific training data," Natural Language Engineering, Vol. 12, No. 2, pp. 145-159, 2006. https://doi.org/10.1017/S1351324906004189
  4. Annie Louis and Derrick Higgins, "Off-topic essay detection using short prompt texts," Proc. of the NAACL HLT 2010 Fifth Workshop on Innovative Use of NLP for Building Educational Applications, pp. 92-95, 2010.
  5. Spagnola, S., and Lagoze, C., "Edge dependent pathway scoring for calculating semantic similarity in ConceptNet," Proc. of the Ninth International Conference on Computational Semantics, pp. 385-389, 2011.
  6. Peter Norvig, "Inference In Text Understanding," AAAI-87 Proceedings, 1987.
  7. Sanda M. Harabagiu and Dan I. Moldovan, "A Parallel System for Text Inference Using Marker Propagations," IEEE Transactions on Parallel and Distributed Systems, Vol. 9, No. 8, Aug. 1998.
  8. Gyoung Ho Lee, Kong Joo Lee, "Developing an Automated English Sentence Scoring System for Middle-school Level Writing Test by Using Machine Learning Techniques," Journal of KIISE, Vol. 41, No. 11, pp. 911-920, 2014. https://doi.org/10.5626/JOK.2014.41.11.911