• Title/Summary/Keyword: 데이터 군집화

Search Result 560, Processing Time 0.03 seconds

Fuzzy Clustering Model using Principal Components Analysis and Naive Bayesian Classifier (주성분 분석과 나이브 베이지안 분류기를 이용한 퍼지 군집화 모형)

  • Jun, Sung-Hae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.485-490
    • /
    • 2004
  • In data representation, the clustering performs a grouping process which combines given data into some similar clusters. The various similarity measures have been used in many researches. But, the validity of clustering results is subjective and ambiguous, because of difficulty and shortage about objective criterion of clustering. The fuzzy clustering provides a good method for subjective clustering problems. It performs clustering through the similarity matrix which has fuzzy membership value for assigning each object. In this paper, for objective fuzzy clustering, the clustering algorithm which joins principal components analysis as a dimension reduction model with bayesian learning as a statistical learning theory. For performance evaluation of proposed algorithm, Iris and Glass identification data from UCI Machine Learning repository are used. The experimental results shows a happy outcome of proposed model.

Diabetes Predictive Analytics using FCM Clustering based Supervised Learning Algorithm (FCM 클러스터링 기반 지도 학습 알고리즘을 이용한 당뇨병 예측 분석)

  • Park, Tae-eun;Kim, Kwang-baek
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.580-582
    • /
    • 2022
  • 본 논문에서는 데이터를 정량화하여 특징을 분류하기 위한 방법으로 퍼지 클러스터링 기반 지도 학습 방법을 제안한다. 제안된 방법은 FCM 클러스터링을 기법을 적용하여 군집화를 수행한다. 그리고 군집화 된 데이터들 중에서는 정확히 분류되지 않은 데이터가 존재하므로 분류되지 않은 데이터에 대해 지도 학습 방법을 적용한다. 본 논문에서는 당뇨병의 유무를 타겟 데이터로 설정하고 나머지 8개의 속성의 데이터를 FCM 기반 지도 학습 방법을 적용하여 당뇨병의 유무를 예측한다. 당뇨병 예측에 대한 성능을 30회의 K-겹 교차검증 (K-Fold Corss Validation)을 이용하여 평가하였으며, 다층 퍼셉트론의 경우에는 훈련 데이터가 77.88%, 테스트 데이터가 62.78%로 나타났고 제안된 방법의 경우에는 훈련 데이터가 79.96%, 테스트 데이터 74.16%로 나타났다.

  • PDF

A Fuzzy Clustering Algorithm for Clustering Categorical Data (범주형 데이터의 분류를 위한 퍼지 군집화 기법)

  • 김대원;이광형
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.63-66
    • /
    • 2003
  • 본 논문에서는 범주형(categorical) 데이터의 분류를 위한 새로운 기법을 제시한다. 기존의 대표적인 퍼지 군집화 방법인 fuzzy k-modes 알고리즘은 군집 (cluster)의 중심을 단일값으로 표현한 반면, 제안하는 기법에서는 이를 퍼지값으로 정의한다. 이와 같은 퍼지 중심 표현기법을 도입함으로써 범주형 데이터의 분류시에 발생하는 불확실성을 최소화할 수 있다. 기존의 대표적인 방법들과의 비교실험으로 통해 제안한 방법의 성능을 검증하였다.

  • PDF

A Fuzzy Clustering Algorithm for Clustering Categorical Data (범주형 데이터의 분류를 위한 퍼지 군집화 기법)

  • Kim, Dae-Won;Lee, Kwang-H.
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.6
    • /
    • pp.661-666
    • /
    • 2003
  • In this paper, the conventional k-modes and fuzzy k-modes algorithms for clustering categorical data is extended by representing the clusters of categorical data with fuzzy centroids instead of the hard-type centroids used in the original algorithm. The hard-type centroids of the traditional algorithms had difficulties in dealing with ambiguous boundary data, which might be misclassified and lead to thelocal optima. Use of fuzzy centroids makes it possible to fully exploit the power of fuzzy sets in representing the uncertainty in the classification of categorical data. The distance measure between data and fuzzy centroids is more precise and effective than those of the k-modes and fuzzy k-modes. To test the proposed approach, the proposed algorithm and two conventional algorithms were used to cluster three categorical data sets. The proposed method was found to give markedly better clustering results.

Tree-structured Clustering for Mixed Data (혼합형 데이터에 대한 나무형 군집화)

  • Yang Kyung-Sook;Huh Myung-Hoe
    • The Korean Journal of Applied Statistics
    • /
    • v.19 no.2
    • /
    • pp.271-282
    • /
    • 2006
  • The aim of this study is to propose a tree-structured clustering for mixed data. We suggest a scaling method to reduce the variable selection bias among categorical variables. In numerical examples such as credit data, German credit data, we note several differences between tree-structured clustering and K-means clustering.

Fast K-Means Clustering Algorithm using Prediction Data (예측 데이터를 이용한 빠른 K-Means 알고리즘)

  • Jee, Tae-Chang;Lee, Hyun-Jin;Lee, Yill-Byung
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.1
    • /
    • pp.106-114
    • /
    • 2009
  • In this paper we proposed a fast method for a K-Means Clustering algorithm. The main characteristic of this method is that it uses precalculated data which possibility of change is high in order to speed up the algorithm. When calculating distance to cluster centre at each stage to assign nearest prototype in the clustering algorithm, it could reduce overall computation time by selecting only those data with possibility of change in cluster is high. Calculation time is reduced by using the distance information produced by K-Means algorithm when computing expected input data whose cluster may change, and by using such distance information the algorithm could be less affected by the number of dimensions. The proposed method was compared with original K-Means method - Lloyd's and the improved method KMHybrid. We show that our proposed method significantly outperforms in computation speed than Lloyd's and KMHybrid when using large size data which has large amount of data, great many dimensions and large number of clusters.

Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm (개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병)

  • Han, Jin-Woo;Jun, Sung-Hae;Oh, Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.5
    • /
    • pp.517-524
    • /
    • 2004
  • The fuzzy set theory has been wide used in clustering of machine learning with data mining since fuzzy theory has been introduced in 1960s. In particular, fuzzy C-means algorithm is a popular fuzzy clustering algorithm up to date. An element is assigned to any cluster with each membership value using fuzzy C-means algorithm. This algorithm is affected from the location of initial cluster center and the proper cluster size like a general clustering algorithm as K-means algorithm. This setting up for initial clustering is subjective. So, we get improper results according to circumstances. In this paper, we propose a cluster merging using enhanced density based fuzzy C-means clustering algorithm for solving this problem. Our algorithm determines initial cluster size and center using the properties of training data. Proposed algorithm uses grid for deciding initial cluster center and size. For experiments, objective machine learning data are used for performance comparison between our algorithm and others.

Daily Behavior Pattern Extraction using Time-Series Behavioral Data of Dairy Cows and k-Means Clustering (행동 시계열 데이터와 k-평균 군집화를 통한 젖소의 일일 행동패턴 검출)

  • Lee, Seonghun;Park, Gicheol;Park, Jaehwa
    • Journal of Software Assessment and Valuation
    • /
    • v.17 no.1
    • /
    • pp.83-92
    • /
    • 2021
  • There are continuous and tremendous attempts to apply various sensor systems and ICTs into the dairy science for data accumulation and improvement of dairy productivity. However, these only concerns the fields which directly affect to the dairy productivity such as the number of individuals and the milk production amount, while researches on the physiology aspects of dairy cows are not enough which are fundamentally involved in the dairy productivity. This paper proposes the basic approach for extraction of daily behavior pattern from hourly behavioral data of dairy cows to identify the health status and stress. Total four clusters were grouped by k-means clustering and the reasonability was proved by visualization of the data in each groups and the representatives of each groups. We hope that provided results should lead to the further researches on catching abnormalities and disease signs of dairy cows.

An Optimal Clustering Using Statistical Learning Theory (통계적 학습이론을 이용한 최적 군집화)

  • 최준혁;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.229-233
    • /
    • 2005
  • 모집단의 최적군집 수를 자동으로 결정하고 군집내의 분산은 최소로 하고 군집 간의 분산은 최대로 하는 최적 군집화에 대한 연구는 대부분의 지능형 시스템에서 필요로 하는 모형전략이다. 하지만 아직도 대부분의 군집화 과정에서 분석가의 주관적인 경험에 의존하여 군집수가 결정되어 군집화가 이루어지고 있다. 예를 들어 K-평균 군집화 알고리즘에서도 초기에 K 값을 결정해 주어야 한다. 모집단을 제대로 대표하지 못한 K 값에 의한 군집화 결과는 심각한 오류를 범하게 된다. 본 논문에서는 통계적 학습이론을 이용하여 이러한 문제점을 해결하려고 하였다. VC-차원에 의한 Support Vector를 이용하여 최적의 군집화 기법을 제안하였다. 제안 방법의 성능 평가를 위하여 UCI 기계학습 데이터를 이용하여 객관적인 실험을 수행하였다.

  • PDF

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF