• Title/Summary/Keyword: 데이터 클러스터링

Search Result 1,055, Processing Time 0.041 seconds

Hierarchical Clustering of Symbolic Objects based on Asymmetric Proximity (비대칭적 유사도 기반의 심볼릭 객체의 계층적 클러스터링)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.6
    • /
    • pp.729-734
    • /
    • 2012
  • Clustering analysis has been widely used in numerous applications like pattern recognition, data analysis, intrusion detection, image processing, bioinformatics and so on. Much of previous work has been based on the numeric data only. However, symbolic data analysis has emerged to deal with variables that can have intervals, histograms, and even functions as values. In this paper, we propose a non symmetric proximity based clustering approach for symbolic objects. A method for clustering symbolic patterns based on the average similarity value(ASV) is explored. The results of the proposed clustering method differ from those of the existing methods and the results are very encouraging.

An Efficient Grid Cell Based Spatial Clustering Algorithm for Spatial Data Mining (공간데이타 마이닝을 위한 효율적인 그리드 셀 기반 공간 클러스터링 알고리즘)

  • Moon, Sang-Ho;Lee, Dong-Gyu;Seo, Young-Duck
    • The KIPS Transactions:PartD
    • /
    • v.10D no.4
    • /
    • pp.567-576
    • /
    • 2003
  • Spatial data mining, i.e., discovery of interesting characteristics and patterns that may implicitly exists in spatial databases, is a challenging task due to the huge amounts of spatial data. Clustering algorithms are attractive for the task of class identification in spatial databases. Several methods for spatial clustering have been presented in recent years, but have the following several drawbacks increase costs due to computing distance among objects and process only memory-resident data. In this paper, we propose an efficient grid cell based spatial clustering method for spatial data mining. It focuses on resolving disadvantages of existing clustering algorithms. In details, it aims to reduce cost further for good efficiency on large databases. To do this, we devise a spatial clustering algorithm based on grid ceil structures including cell relationships.

Mathematical Programming Application for Clustering Problems in Conjunction with Confusing Matrix (혼동 행렬을 이용한 클러스터링 문제의 수리 계획적 접근)

  • 김영민;최경현
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.605-608
    • /
    • 2000
  • 혼동 행렬 (confusion matrix)은 자극 또는 인식대상(데이터)에 대한 반응을 데이터화함으로써 인식대상(데이터)의 특성분석을 통하여 복잡한 시스템을 효율적으로 통제, 관리하기 위한 분석기법에 사용된다. 클러스터링은 인식 시스템을 위한 기법으로서 다양한 분야에서 널리 활용되고 있다. 본 연구에서는 혼동 행렬을 이용한 최적화 모델을 통하여 클러스터링(Clustering) 문제의 새로운 접근법을 제시한다. 최근 수리 계획 분야에서 클러스터링 분야에 대한 연구가 계속되고 있는데 그러한 수리 모델과 혼동 행렬을 접목하여 새로운 모델을 제시한다.

  • PDF

Neuro-Fuzzy model ins using the Hierarchical Clustering (계층적 클러스터링을 이용한 뉴로-퍼지 모델링)

  • 김승석;곽근창;유정웅;전명근
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.279-282
    • /
    • 2002
  • 본 논문에서는 뉴로-퍼지 모델에서 입력 공간의 효율적인 분할을 위하여 계층적 클러스터링방법을 이용하고 있다. 기존의 HCM, FCM 등에서 초기치를 임의로 선택함으로써 데이터의 클러스터를 생성하였으나 제안된 방법은 계층적인 클러스터링을 이용하여 각 데이터간의 정보를 이용하여 클러스터링을 좀더 일반화하였다. 임의로 주어진 초기치에 의하여 클러스터의 형태가 바뀔 수 있는 문제점을 각각의 데이터 정보를 이용함으로써 이러한 문제를 해결하고자 하였다. 이를 자동차 연료 예측 문제에 적용하여 제안된 방법의 유용성을 보이고자 한다.

A Clustering using Two-Dimensional Projection in High-Dimensional Data (고차원 데이터에서 2차원 프로젝션을 이용한 클러스터링)

  • 장미희;이혜명;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.16-18
    • /
    • 2001
  • 데이터마이닝 기법 중의 하나인 플러스터링은 대용량 데이터베이스에서 유사한 특징을 가진 객체들을 집단화하는데 사용되는 매우 유용한 분석방법이다. 그러나 대부분의 클러스터링 알고리즘들은 고차원 데이터에서는 성능이 급격히 저하된다. 이것은 고차원 데이터 집합이 상당한 양의 잡음을 포함하고 있기 때문이며 고차원 데이터 고유의 희소성에 기인한다. 이에 따라 고차원 데이터의 구조와 특성을 지원하는데 적합한 클러스터링 기법이 개발되고 있다. 본 논문에서는 고차원 클러스터링에서 잡음 데이터를 효과적으로 제거하기 위한 새로운 알고리즘을 제안하는데, 이 일고리즘은 고차원 데이터의 저차원으로의 변환에 기초한다. 저 차원으로 변환을 위해 2차원 프로젝션을 이용하며, 반복적으로 2차원 프로젝션을 적용하여 잡음을 단계적으로 최소화한다. 이와 같은 2차원 프로젝션은 잡음을 점차적으로 줄여줄 뿐 아니라, 데이터 분포에 대한 시각화 작업에도 용이하다.

  • PDF

A Hybrid Clustering Technique for Processing Large Data (대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.33-40
    • /
    • 2003
  • Data mining plays an important role in a knowledge discovery process and various algorithms of data mining can be selected for the specific purpose. Most of traditional hierachical clustering methode are suitable for processing small data sets, so they difficulties in handling large data sets because of limited resources and insufficient efficiency. In this study we propose a hybrid neural networks clustering technique, called PPC for Pre-Post Clustering that can be applied to large data sets and find unknown patterns. PPC combinds an artificial intelligence method, SOM and a statistical method, hierarchical clustering technique, and clusters data through two processes. In pre-clustering process, PPC digests large data sets using SOM. Then in post-clustering, PPC measures Similarity values according to cohesive distances which show inner features, and adjacent distances which show external distances between clusters. At last PPC clusters large data sets using the simularity values. Experiment with UCI repository data showed that PPC had better cohensive values than the other clustering techniques.

A Parameter-Free Approach for Clustering and Outlier Detection in Image Databases (이미지 데이터베이스에서 매개변수를 필요로 하지 않는 클러스터링 및 아웃라이어 검출 방법)

  • Oh, Hyun-Kyo;Yoon, Seok-Ho;Kim, Sang-Wook
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.47 no.1
    • /
    • pp.80-91
    • /
    • 2010
  • As the volume of image data increases dramatically, its good organization of image data is crucial for efficient image retrieval. Clustering is a typical way of organizing image data. However, traditional clustering methods have a difficulty of requiring a user to provide the number of clusters as a parameter before clustering. In this paper, we discuss an approach for clustering image data that does not require the parameter. Basically, the proposed approach is based on Cross-Association that finds a structure or patterns hidden in data using the relationship between individual objects. In order to apply Cross-Association to clustering of image data, we convert the image data into a graph first. Then, we perform Cross-Association on the graph thus obtained and interpret the results in the clustering perspective. We also propose the method of hierarchical clustering and the method of outlier detection based on Cross-Association. By performing a series of experiments, we verify the effectiveness of the proposed approach. Finally, we discuss the finding of a good value of k used in k-nearest neighbor search and also compare the clustering results with symmetric and asymmetric ways used in building a graph.

Local Clustering for Multidimensional Data (다차원 데이터의 일부 차원을 반영한 지역 클러스터링)

  • Lee, Sun-A;Hwang, Kyung-Soon;Lee, Keon-Myung;Lee, Chan-Hee
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.17-18
    • /
    • 2008
  • 다차원 데이터들에 대한 거리기반 클러스터링에서는 데이터의 전체 차원을 고려한 거리 정보를 이용하여 근접한 것들을 인접하게 만든다. 마이크로어레이 데이터의 경우에는 일부 차원 관점에서 유사한 지역 클러스터를 찾는 것이 분석에서 유용한 경우가 있다. 이 논문에서는 마이크로어레이 데이터에 대한 지역 클러스터를 찾는 방법을 제안한다.

  • PDF

Feature vector extraction for NCEP weather data clustering (NCEP 일기도 데이터 클러스터링을 위한 특징 벡터 추출)

  • 이기범;이성환;정창성;황치정
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.583-585
    • /
    • 2001
  • 방대한 양의 격자점 데이터 및 일기도 관련 데이터를 효율적으로 저장 및 검색 하기위해서는 데이터들의 유형을 찾아 서로 유형이 비슷한 데이터를 하나의 클러스터로 연관지어 놓으면 효율적인 저장과 검색을 할 수 있다. 클러스터링에서 데이터들의 어떤 특징 벡터를 추출하는가가 클러스터링의 결과에 가장 중요한 영향을 끼친다. 본 논문에서는 격자점, 기압값 데이터로부터 일기도의 특징을 표현할 수 있는 벡터로 변환 한반도도 중심의 8방향에 대한 고/저기압의 분포와 동아시아 지역을 24영역으로 나누어 각 영역별로 고/저기압의 분포 정보를 특징벡터로 추출하여 클러스터링하였다. 클러스터팅 알고리즘으로는 unsupervised mode인 SOM(Self Organizing Map) 기법을 사용하였다.

  • PDF

SVM based Clustering Technique for Processing High Dimensional Data (고차원 데이터 처리를 위한 SVM기반의 클러스터링 기법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.7
    • /
    • pp.816-820
    • /
    • 2004
  • Clustering is a process of dividing similar data objects in data set into clusters and acquiring meaningful information in the data. The main issues related to clustering are the effective clustering of high dimensional data and optimization. This study proposed a method of measuring similarity based on SVM and a new method of calculating the number of clusters in an efficient way. The high dimensional data are mapped to Feature Space ones using kernel functions and then similarity between neighboring clusters is measured. As for created clusters, the desired number of clusters can be got using the value of similarity measured and the value of Δd. In order to verify the proposed methods, the author used data of six UCI Machine Learning Repositories and obtained the presented number of clusters as well as improved cohesiveness compared to the results of previous researches.