• 제목/요약/키워드: Text readability

검색결과 61건 처리시간 0.017초

데이터마이닝 기법을 활용한 대학수학능력시험 영어영역 정답률 예측 및 주요 요인 분석 (Prediction of Correct Answer Rate and Identification of Significant Factors for CSAT English Test Based on Data Mining Techniques)

  • 박희진;장경애;이윤호;김우제;강필성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.509-520
    • /
    • 2015
  • 대학수학능력시험(수능)은 고등학교 3년간의 학업 성취도를 측정하는 대표적인 평가 도구로서 대한민국 대학 입시에 있어 매우 중요한 역할을 하는 시험이다. 응시생들의 학업 성취도를 효과적으로 평가하기 위해서는 수능의 난이도가 적절하게 조절되어야 하나 지금까지는 수능 난이도의 편차가 매우 크게 나타나 매 입시연도마다 여러 가지 문제점을 야기해왔다. 본 연구에서는 전문가의 판단에 의존한 기존 방식에서 벗어나 지금까지 시행된 모의고사 및 실제 시험을 통해 축적된 자료를 바탕으로 데이터마이닝 기법을 적용하여 영어영역 문제의 난이도를 예측하는 모델을 구축하고 난이도 예측에 영향을 미치는 요소를 판별하고자 한다. 이를 위해 각 문항의 특성을 판별할 수 있는 여러 지표와 함께 지문, 문제, 답안 등에 나타난 단어들의 특징을 토픽 모델링(topic modeling) 기법을 이용하여 정량화하고 이를 바탕으로 선형회귀분석 및 의사결정나무 기법을 이용하여 각 문항의 난이도를 예측하는 모델을 구축하였다. 구축된 예측 모델을 실제 문제에 적용한 결과 난이도의 상/하 구분에 대한 예측 정확도는 90% 수준으로 나타났으며, 실제 정답률 대비 오차 비율은 약 16% 이내인 것으로 나타났다. 또한 배점 및 문제 유형이 문제의 난이도에 큰 영향을 미치며 지문이 특정 주제에 관련된 경우에도 난이도에 영향을 미치는 것을 확인하였다. 본 연구에서 제시된 방법론을 이용하여 영어영역 각 문제들에 대한 기대 정답률의 범위를 추정할 수 있으며 이를 종합하여 영어영역 전체 문제에 대한 정답률 예측을 통해 적절한 난이도의 문제를 출제하는 데 기여할 수 있을 것으로 기대한다.