Performance Comparison of Clustering using Discritization Algorithm

이산화 알고리즘을 이용한 계층적 클러스터링의 실험적 성능 평가

  • 원재강 (경기대학교, 컴퓨터과학과) ;
  • 이정찬 (한국정보화진흥원 창의인재부) ;
  • 정용규 (을지대학교 의료IT마케팅학과) ;
  • 이영호 (수원대학교 컴퓨터학과)
  • Received : 2013.07.20
  • Accepted : 2013.08.20
  • Published : 2013.09.30

Abstract

Datamining from the large data in the form of various techniques for obtaining information have been developed. In recent years one of the most sought areas of pattern recognition and machine learning method is created with most of existing learning algorithms based on categorical attributes to a rule or decision model. However, the real-world data, it may consist of numeric attributes in many cases. In addition it contains attributes with numerical values to the normal categorical attribute. In this case, therefore, it is required processes in order to use the data to learn an appropriate value for the type attribute. In this paper, the domain of the numeric attributes are divided into several segments using learning algorithm techniques of discritization. It is described Clustering with other data mining techniques. Large amount of first cluster with characteristics is similar records from the database into smaller groups that split multiple given finite patterns in the pattern space. It is close to each other of a set of patterns that together make up a bunch. Among the set without specifying a particular category in a given data by extracting a pattern. It will be described similar grouping of data clustering technique to classify the data.

데이터로부터 의미있는 형태의 정보를 얻기 위한 여러 가지 기법들이 개발되어 왔지만, 최근 들어 가장 각광받는 분야 중 하나는 패턴인식과 기계학습 방법이다. 기존의 학습 알고리즘은 대부분 범주 형 속성에 기반 한 규칙 또는 의사 결정 모델을 생성한다. 그런데, 실세계의 데이터는 보통 범주 형 속성 외에도 수치 값을 갖는 속성을 포함하고, 또 많은 경우에 있어 수치 형 속성으로만 구성되기도 한다. 따라서 이러한 경우, 데이터를 학습에 사용하기 위해서는 수치형 속성에 대한 적절한 처리 과정이 필요하다. 본 논문에서는, 수치형 속성의 도메인을 여러 개의 분절된 부분으로 나누어 학습 알고리즘에 사용하는 방법인 이산화 기법을 설명하고 또한 데이터마이닝의 기법으로 사용되는 클러스터링(Clustering)을 사용한다. 클러스터란 대량의 데이터베이스로부터 유사한 레코드 특성을 지닌 작은 그룹으로 여러 개를 분할하는 것으로 패턴 공간에 주어진 유한 개의 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 패턴 집합이다. 그 집합들 중에서 특정한 카테고리를 지정하지 않고 주어진 데이터들에서 어떤 패턴을 추출하여, 비슷한 데이터들을 묶어서 데이터를 분류하는 기법인 클러스터링에 대해 실험한다.

Keywords