• Title/Summary/Keyword: 데이터 클러스터링

Search Result 1,060, Processing Time 0.029 seconds

Fuzzy Clustering for Fuzzy Data1 (퍼지값을 갖는 데이터에 대한 퍼지 클러스터링)

  • 이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.27-29
    • /
    • 1998
  • 클러스터링은 데이터의 특성 추출, 데이터의 압축 등을 목적으로 동일 클러스터에 속하는 데이터간에는 유사성이 크도록 하면서 다른 클러스터에 속하는 데이터간에는 유사성이 작도록 데이터를 군집화하는 것이다. 일상에서 발생하는 많은 데이터에는 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 데이터의 속성값이 정확한 값으로 주어지지 않은 경우가 있다. 본 논문에서는 분명한 값뿐만 아니라 퍼지값도 포함한 데이터들에 대해서 퍼지 클러스터링하는 방법을 제안한다.

  • PDF

Similarity Pattern Analysis of Web Log Data using Multidimensional FCM (다차원 FCM을 이용한 웹 로그 데이터의 유사 패턴 분석)

  • 김미라;조동섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.190-192
    • /
    • 2002
  • 데이터 마이닝(Data Mining)이란 저장된 많은 양의 자료로부터 통계적 수학적 분석방법을 이용하여 다양한 가치 있는 정보를 찾아내는 일련의 과정이다. 데이터 클러스터링은 이러한 데이터 마이닝을 위한 하나의 중요한 기법이다. 본 논문에서는 Fuzzy C-Means 알고리즘을 이용하여 웹 사용자들의 행위가 기록되어 있는 웹 로그 데이터를 데이터 클러스터링 하는 방법에 관하여 연구하고자 한다. Fuzzv C-Means 클러스터링 알고리즘은 각 데이터와 각 클러스터 중심과의 거리를 고려한 유사도 측정에 기초한 목적 함수의 최적화 방식을 사용한다. 웹 로그 데이터의 여러 필드 중에서 사용자 IP, 시간, 웹 페이지 필드를 WLDF(Web Log Data for FCM)으로 가공한 후, 다차원 Fuzzy C-Means 클러스터링을 한다. 그리고 이를 이용하여 샘플 데이터와 임의의 데이터간의 유사 패턴 분석을 하고자 한다.

  • PDF

A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure (확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘)

  • Oh, Seung-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.5 s.43
    • /
    • pp.321-327
    • /
    • 2006
  • Recently there has been enormous growth in the amount of commercial and scientific data. Such datasets consist of sequence data that have an inherent sequential nature. However, only a few of the existing clustering algorithms consider sequentiality. This study presents a similarity measure and a method for clustering such sequence datasets. Especially, we present an extended concept of the measure of similarity, which considers various conditions. Using a splice dataset, we show that the quality of clusters generated by our proposed clustering algorithm is better than that of clusters produced by traditional clustering algorithms.

  • PDF

A Bayesian Validation Method based on Decision Tree for Evaluating Fuzzy Clusters of Gene Expression Data (유전자 발현 데이터의 퍼지 클러스터 평가를 위한 결정트리 기반의 베이지안 검증방법)

  • 유지호;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.262-264
    • /
    • 2004
  • 퍼지 클러스터링 방법은 일반적인 클러스터링 방법과는 달리 하나의 샘플이 다수의 집단에 속할 수 있으며 그 속하는 정도를 표현하여 보다 유연한 클러스터 분할의 분석을 가능하게 한다. 유전자 발현 데이터는 노이즈가 많고 공통된 기능을 가진 유전자들의 집단이 존재하기 때문에 퍼지 클러스터링을 사용하면 더욱 효율적으로 분석할 수 있다. 이러한 퍼지 클러스터링 방법에 있어서 중요한 것은 얼마나 분할이 정확하게 이루어졌으며 실제 데이터가 가지고 있는 분할과 결과가 얼마나 유사한가이다. 본 논문에서는 효과적인 유전자 클러스터의 평가를 위하여 베이지안 검증 방법을 제시하고, 결정트리로 생성된 규칙에 의하여 각 데이터의 특성에 따라 유연하게 검증하는 방법을 제안한다. 다양한 유전자 발현 데이터를 퍼지 c-means 알고리즘을 이용하여 클러스터링하고 제안하는 방법으로 검증한 결과, 그 유용성을 확인할 수 있었다.

  • PDF

An Introduction of Two-Step K-means Clustering Applied to Microarray Data (마이크로 어레이 데이터에 적용된 2단계 K-means 클러스터링의 소개)

  • Park, Dae-Hun;Kim, Yeon-Tae;Kim, Seong-Sin;Lee, Chun-Hwan
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.83-86
    • /
    • 2006
  • 많은 유전자 정보와 그 부산물은 많은 방법을 통해 연구되어 왔다. DNA 마이크로어레이 기술의 사용은 많은 데이터를 가져왔으며, 이렇게 얻은 데이터는 기존의 연구 방법으로는 분석하기 힘들다. 본 눈문에서는 많은 양의 데이터를 처리할 수 있게 하기 위하여 K-means 클러스터링 알고리즘을 이용한 분할 클러스터링을 제안하였다. 제안한 방법을 쌀 유전자로부터 나온 마이크로어레이 데이터에 적용함으로써 제안된 클러스터링 방법의 유용성을 검증하였으며, 기존의 K-means 클러스터링 알고리즘을 적용한 결과와 비교함으로써 제안된 알고리즘의 우수성을 확인 할 수 있었다.

  • PDF

An Implementation of Clustering Method using K-Means Algorithm on Multi-Dimensional Data (K-Means 알고리즘을 이용한 다차원 데이터 클러스터링 기법 구현)

  • Ihm, Sun-Young;Shin, HyunSoon;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1132-1134
    • /
    • 2013
  • K-Means 클러스터링 기법은 데이터마이닝 분야 중 클러스터링 분야에서 가장 널리 쓰이는 방법 중 하나로 주어진 데이터 셋에서 k개의 클러스터를 중심으로 데이터를 분할하는 기법이다. 최근의 데이터는 여러개의 속성을 고려해야 한다. 따라서 본 논문에서는 K-Means 클러스터링 기법을 소개하고, 또 K-Means 클러스터링 기법을 여러 개의 속성을 고려하기 위하여 다차원 데이터에 적용한 실험을 소개한다.

Clustering Performance Analysis of Autoencoder with Skip Connection (스킵연결이 적용된 오토인코더 모델의 클러스터링 성능 분석)

  • Jo, In-su;Kang, Yunhee;Choi, Dong-bin;Park, Young B.
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.12
    • /
    • pp.403-410
    • /
    • 2020
  • In addition to the research on noise removal and super-resolution using the data restoration (Output result) function of Autoencoder, research on the performance improvement of clustering using the dimension reduction function of autoencoder are actively being conducted. The clustering function and data restoration function using Autoencoder have common points that both improve performance through the same learning. Based on these characteristics, this study conducted an experiment to see if the autoencoder model designed to have excellent data recovery performance is superior in clustering performance. Skip connection technique was used to design autoencoder with excellent data recovery performance. The output result performance and clustering performance of both autoencoder model with Skip connection and model without Skip connection were shown as graph and visual extract. The output result performance was increased, but the clustering performance was decreased. This result indicates that the neural network models such as autoencoders are not sure that each layer has learned the characteristics of the data well if the output result is good. Lastly, the performance degradation of clustering was compensated by using both latent code and skip connection. This study is a prior study to solve the Hanja Unicode problem by clustering.

An Application Model for Clustering in Water Sensor Data Mining (수질센서 데이터 마이닝을 위한 클러스터링 적용 모델)

  • Kweon, Daehyeon;Cho, Soosun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.29-30
    • /
    • 2009
  • 센서 데이터의 마이닝 기술은 의사결정을 위한 통합정보 및 예측정보를 제공하는 USN 지능형 미들웨어의 주요 구성 요소이다. 본 논문에서는 수질 센서 데이터 마이닝 시스템을 개발하기위해 대표적인 데이터 마이닝 기법인 클러스터링의 적용 모델을 소개한다. 적용 모델의 클러스터링을 통해 중간노드에서의 데이터 이상치 검출과 호스트에서의 시간대별 데이터 변화 검출이 가능하다.

An Efficient Large Graph Clustering Technique based on Min-Hash (Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법)

  • Lee, Seok-Joo;Min, Jun-Ki
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.380-388
    • /
    • 2016
  • Graph clustering is widely used to analyze a graph and identify the properties of a graph by generating clusters consisting of similar vertices. Recently, large graph data is generated in diverse applications such as Social Network Services (SNS), the World Wide Web (WWW), and telephone networks. Therefore, the importance of graph clustering algorithms that process large graph data efficiently becomes increased. In this paper, we propose an effective clustering algorithm which generates clusters for large graph data efficiently. Our proposed algorithm effectively estimates similarities between clusters in graph data using Min-Hash and constructs clusters according to the computed similarities. In our experiment with real-world data sets, we demonstrate the efficiency of our proposed algorithm by comparing with existing algorithms.

Hierarchical Clustering of Symbolic Objects based on Asymmetric Proximity (비대칭적 유사도 기반의 심볼릭 객체의 계층적 클러스터링)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.6
    • /
    • pp.729-734
    • /
    • 2012
  • Clustering analysis has been widely used in numerous applications like pattern recognition, data analysis, intrusion detection, image processing, bioinformatics and so on. Much of previous work has been based on the numeric data only. However, symbolic data analysis has emerged to deal with variables that can have intervals, histograms, and even functions as values. In this paper, we propose a non symmetric proximity based clustering approach for symbolic objects. A method for clustering symbolic patterns based on the average similarity value(ASV) is explored. The results of the proposed clustering method differ from those of the existing methods and the results are very encouraging.