An Enhanced DBSCAN Algorithm to Consider Various Density Distributions for Educational Data

교육데이터 정제를 위한 다양한 밀도분포를 고려한 개선된 DBSCAN 알고리즘

  • Kim, Jeong-Hun (Dept. of Computer Science, Chungbuk National University) ;
  • Nasridinov, Aziz (Dept. of Computer Science, Chungbuk National University)
  • Published : 2018.01.18

Abstract

교육데이터마이닝은 다양한 교육 환경에서 생성되는 막대한 양의 데이터를 활용하여 학습자들의 학습 유형, 학습 진도를 분석, 예측하고 교육 성취를 효과적으로 향상시키는 것을 목적으로 한다. 효과적인 교육데이터마이닝 결과를 얻기 위해서는 교육데이터에 대한 정제 과정이 필요하며 DBSCAN 클러스터링을 통해 교육데이터에 포함된 노이즈 데이터를 제거하고 생성된 각 클러스터에서 동일한 비율로 데이터를 추출함으로써 편향되지 않은 표본 데이터를 생성할 수 있다. 하지만 DBSCAN은 두 개의 전역 매개변수에 의해 다양한 밀도분포를 가지는 클러스터를 생성할 수 없다는 문제점이 있으며 이는 교육 데이터를 정제함에 있어 치명적인 문제점이 될 수 있다. 본 논문에서는 DBSCAN의 문제점을 개선하고 클러스터링 정확도를 향상시키기 위해 고정된 매개변수를 사용하지 않고 각 밀도분포에 대해 최적의 입력 매개변수를 결정함으로써 다양한 밀도분포를 가지는 클러스터들을 효과적으로 생성하는 C-DBSCAN을 제안한다.

Keywords