Outlier Data Clustering using Factor Score

인자 점수를 이용한 이상치 데이터의 군집화

  • 전성해 (서강대학교 컴퓨터과학과) ;
  • 임민택 (서강대학교 컴퓨터과학과) ;
  • 오경환 (서강대학교 컴퓨터과학과)
  • Published : 2002.05.01

Abstract

이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

Keywords