• Title/Summary/Keyword: 데이터 군집화 알고리즘

Search Result 206, Processing Time 0.03 seconds

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • 박민재;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

Clustering Analysis of Effective Health Spending Cost based on Kernel Filtering Techniques (커널필터링 기법을 이용한 건강비용의 효과적인 지출에 관한 군집화 분석)

  • Jung, Yong Gyu;Choi, Young Jin;Cha, Byeong Heon
    • Journal of Service Research and Studies
    • /
    • v.5 no.2
    • /
    • pp.25-33
    • /
    • 2015
  • As Data mining is a method of extracting the information based on the large data, the technique has been used in many application areas to deal with data in particular. However, the status of the algorithm that can deal with the healthcare data are not fully developed. In this paper, One of clustering algorithm, the EM and DBSCAN are used for performance comparison. It could be analyzed using by the same data. To do this, EM and DBSACN algorithm are changing performance according to the variables in Health expenditure database. Based on the results of the experimental data, We analyze more precise and accurate results using by Kernel Filtering. In this study, we tried comparison of the performance for the algorithm as well as attempt to improve the performance. Through this work, we were analyzed the comparison result of the application of the experimental data and of performance change according to expansion algorithm. Especially, Collects data from the various cluster using the medical record, it could be recommended the effective spending on medical services.

Clustering of Incomplete Data Using Autoencoder and fuzzy c-Means Algorithm (AutoEncoder와 FCM을 이용한 불완전한 데이터의 군집화)

  • 박동철;장병근
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.700-705
    • /
    • 2004
  • Clustering of incomplete data using the Autoencoder and the Fuzzy c-Means(PCM) is proposed in this paper. The Proposed algorithm, called Optimal Completion Autoencoder Fuzzy c-Means(OCAEFCM), utilizes the Autoencoder Neural Network (AENN) and the Gradiant-based FCM (GBFCM) for optimal completion of missing data and clustering of the reconstructed data. The proposed OCAEFCM is applied to the IRIS data and a data set from a financial institution to evaluate the performance. When compared with the existing Optimal Completion Strategy FCM (OCSFCM), the OCAEFCM shows 18%-20% improvement of performance over OCSFCM.

A product recommendation system based on sequence pattern mining for smartphone customers (스마트폰 고객들을 위한 데이터 마이닝 기반의 제품 추천 시스템)

  • Jin, Se-Hun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.204-206
    • /
    • 2012
  • 스마트폰 시장의 확대로 인한 스마트폰 고객의 증가와 스마트폰을 이용한 제품 구매 활동이 급격하게 증가하고 있다. 이러한 추세에 따라 스마트폰 고객 추천 시스템에 관한 연구가 활발히 진행되고 있다. 하지만 기존의 스마트폰 고객 추천 시스템의 경우 고객들의 고차원 데이터를 효율적으로 처리하는데 어려움이 있다. 따라서 이 논문에서는 스마트폰 고객들의 고차원 데이터를 효율적으로 처리할 수 있는 부분 공간 군집화 기법과 순차 패턴 알고리즘을 이용한 제품 추천 시스템을 제안한다. 이 시스템은 스마트폰 고객들의 고차원 데이터를 기반으로 세분화된 고객들의 부분 군집화를 한다. 이들 군집화를 기반으로 순차적 패턴 알고리즘을 이용한 고객들의 제품 구매 패턴을 추출한다. 이 연구를 통해 스마트폰 고객들의 다양한 고차원 데이터를 이용한 제품 추천 시스템은 기업의 제품 판매 및 고객 마케팅에 긍정적인 도움을 줄 수 있을 것으로 기대된다.

Improving Clustered Sense Labels for Word Sense Disambiguation (단어 의미 모호성 해소를 위한 군집화된 의미 어휘의 품질 향상)

  • Jeongyeon Park;Hyeong Jin Shin;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.268-271
    • /
    • 2022
  • 단어 의미 모호성 해소는 동형이의어의 의미를 문맥에 맞게 결정하는 일이다. 최근 연구에서는 희소 데이터 처리를 위해 시소러스를 사용해 의미 어휘를 압축하고 사용하는 방법이 좋은 성능을 보였다[1]. 본 연구에서는 시소러스 없이 군집화 알고리즘으로 의미 어휘를 압축하는 방법의 성능 향상을 위해 두 가지 방법을 제안한다. 첫째, 의미적으로 유사한 의미 어휘 집합인 범주(category) 정보를 군집화를 위한 초기 군집 생성에 사용한다. 둘째, 다양하고 많은 문맥 정보를 학습해 만들어진 품질 좋은 벡터를 군집화에 사용한다. 영어데이터인 SemCor 데이터를 학습하고 Senseval, Semeval 5개 데이터로 평가한 결과, 제안한 방법의 평균 성능이 기존 연구보다 1.5%p 높은 F1 70.6%를 달성했다.

  • PDF

Multi-hierarchical Density-based Clustering Method (다계층 밀도기반 군집화 기법)

  • Shin, Dong Mun;Jung, Suk Ho;Yi, Gyeong Min;Lee, Dong Gyu;Sohn, GyoYong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

Tree-structured Clustering for Mixed Data (혼합형 데이터에 대한 나무형 군집화)

  • Yang Kyung-Sook;Huh Myung-Hoe
    • The Korean Journal of Applied Statistics
    • /
    • v.19 no.2
    • /
    • pp.271-282
    • /
    • 2006
  • The aim of this study is to propose a tree-structured clustering for mixed data. We suggest a scaling method to reduce the variable selection bias among categorical variables. In numerical examples such as credit data, German credit data, we note several differences between tree-structured clustering and K-means clustering.

A Fuzzy Clustering Algorithm for Clustering Categorical Data (범주형 데이터의 분류를 위한 퍼지 군집화 기법)

  • Kim, Dae-Won;Lee, Kwang-H.
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.6
    • /
    • pp.661-666
    • /
    • 2003
  • In this paper, the conventional k-modes and fuzzy k-modes algorithms for clustering categorical data is extended by representing the clusters of categorical data with fuzzy centroids instead of the hard-type centroids used in the original algorithm. The hard-type centroids of the traditional algorithms had difficulties in dealing with ambiguous boundary data, which might be misclassified and lead to thelocal optima. Use of fuzzy centroids makes it possible to fully exploit the power of fuzzy sets in representing the uncertainty in the classification of categorical data. The distance measure between data and fuzzy centroids is more precise and effective than those of the k-modes and fuzzy k-modes. To test the proposed approach, the proposed algorithm and two conventional algorithms were used to cluster three categorical data sets. The proposed method was found to give markedly better clustering results.

Design of an Arm Gesture Recognition System using Kinect Sensor (키넥트 센서를 이용한 팔 제스처 인식 시스템의 설계)

  • Heo, Se-Kyeong;Shin, Ye-Seul;Kim, Hye-Suk;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.250-253
    • /
    • 2013
  • 최근 카메라 영상을 이용한 제스처 인식 관련 연구가 활발히 진행되고 있다. 카메라 영상을 이용한 제스처 인식에서 많이 사용되는 학습 알고리즘에는 확률 그래프 모델인 HMM과 CRF 등이 있다. 이 학습 알고리즘들은 다차원의 연속된 실수 데이터를 가지고 모델을 학습하면 계산량이 많아진다. 본 논문에서는 팔 관절 위치 데이터를 k-평균 군집화 과정을 거쳐 1차원의 시계열 데이터로 변환 후, 제스처별로 HMM 모델을 학습하는 방법을 제안한다. 키넥트 센서를 통해 얻은 팔 관절 위치 데이터에 k-평균 군집화를 적용하여 1차원 시계열 데이터를 생성하고, 이를 HMM의 학습 및 인식에 사용한다. 본 논문에서 제안하는 방법의 성능을 분석하기 위하여, 다른 시계열 학습 알고리즘인 AP+DTW를 이용한 방법과의 비교 실험을 포함해 다양한 실험들을 수행하였다.