• Title/Summary/Keyword: k-평균군집방법

Search Result 192, Processing Time 0.032 seconds

Proposal of Cluster Head Election Method in K-means Clustering based WSN (K-평균 군집화 기반 WSN에서 클러스터 헤드 선택 방법 제안)

  • Yun, Dai Yeol;Park, SeaYoung;Hwang, Chi-Gon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.447-449
    • /
    • 2021
  • Various wireless sensor network protocols have been proposed to maintain the network for a long time by minimizing energy consumption. Using the K-means clustering algorithm takes longer to cluster than traditional hierarchical algorithms because the center point must be moved repeatedly until the final cluster is established. For K-means clustering-based protocols, only the residual energy of nodes or nodes near the center point of the cluster is considered when the cluster head is elected. In this paper, we propose a new wireless sensor network protocol based on K-means clustering to improve the energy efficiency while improving the aforementioned problems.

  • PDF

A hybrid method to compose an optimal gene set for multi-class classification using mRMR and modified particle swarm optimization (mRMR과 수정된 입자군집화 방법을 이용한 다범주 분류를 위한 최적유전자집단 구성)

  • Lee, Sunho
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.6
    • /
    • pp.683-696
    • /
    • 2020
  • The aim of this research is to find an optimal gene set that provides highly accurate multi-class classification with a minimum number of genes. A two-stage procedure is proposed: Based on minimum redundancy and maximum relevance (mRMR) framework, several statistics to rank differential expression genes and K-means clustering to reduce redundancy between genes are used for data filtering procedure. And a particle swarm optimization is modified to select a small subset of informative genes. Two well known multi-class microarray data sets, ALL and SRBCT, are analyzed to indicate the effectiveness of this hybrid method.

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

인위적 데이터를 이용한 군집분석 프로그램간의 비교에 대한 연구

  • 김성호;백승익
    • Journal of Intelligence and Information Systems
    • /
    • v.7 no.2
    • /
    • pp.35-49
    • /
    • 2001
  • Over the years, cluster analysis has become a popular tool for marketing and segmentation researchers. There are various methods for cluster analysis. Among them, K-means partitioning cluster analysis is the most popular segmentation method. However, because the cluster analysis is very sensitive to the initial configurations of the data set at hand, it becomes an important issue to select an appropriate starting configuration that is comparable with the clustering of the whole data so as to improve the reliability of the clustering results. Many programs for K-mean cluster analysis employ various methods to choose the initial seeds and compute the centroids of clusters. In this paper, we suggest a methodology to evaluate various clustering programs. Furthermore, to explore the usability of the methodology, we evaluate four clustering programs by using the methodology.

  • PDF

An Optimal Clustering Using Statistical Learning Theory (통계적 학습이론을 이용한 최적 군집화)

  • 최준혁;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.229-233
    • /
    • 2005
  • 모집단의 최적군집 수를 자동으로 결정하고 군집내의 분산은 최소로 하고 군집 간의 분산은 최대로 하는 최적 군집화에 대한 연구는 대부분의 지능형 시스템에서 필요로 하는 모형전략이다. 하지만 아직도 대부분의 군집화 과정에서 분석가의 주관적인 경험에 의존하여 군집수가 결정되어 군집화가 이루어지고 있다. 예를 들어 K-평균 군집화 알고리즘에서도 초기에 K 값을 결정해 주어야 한다. 모집단을 제대로 대표하지 못한 K 값에 의한 군집화 결과는 심각한 오류를 범하게 된다. 본 논문에서는 통계적 학습이론을 이용하여 이러한 문제점을 해결하려고 하였다. VC-차원에 의한 Support Vector를 이용하여 최적의 군집화 기법을 제안하였다. 제안 방법의 성능 평가를 위하여 UCI 기계학습 데이터를 이용하여 객관적인 실험을 수행하였다.

  • PDF

Hierarchical Clustering Analysis of Water Main Leak Location Data (상수관로 누수위치 자료를 이용한 계층적 군집분석)

  • Park, Su-Wan;Im, Gwang-Chae;Choi, Chang-Lok;Kim, Kyu-Lee
    • Journal of Korea Water Resources Association
    • /
    • v.42 no.3
    • /
    • pp.177-190
    • /
    • 2009
  • Rehabilitation projects for old water mains typically require considerable capital investments. One of the economical ways of pursuing the rehabilitation projects is to focus on a specific area within the entire region under management. In this paper the hierarchical clustering methods that analyze spatial inter-relationship of location data are applied to about 8,000 water leak location data recorded in a case study area from 1992 to 1997. Among the hierarchical clustering methods Single, Complete, and Average Linkage Methods are used to identify clusters of the water leak locations and to divide the area according to the defined clusters. By comparing the clusters identified by the clustering methods, the best clustering method for the case study area is suggested. Prioritization of the area for maintenance is obtained based on the water leak incident intensity for the clustered area using the suggested best clustering method.

Design of an Arm Gesture Recognition System using Kinect Sensor (키넥트 센서를 이용한 팔 제스처 인식 시스템의 설계)

  • Heo, Se-Kyeong;Shin, Ye-Seul;Kim, Hye-Suk;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.250-253
    • /
    • 2013
  • 최근 카메라 영상을 이용한 제스처 인식 관련 연구가 활발히 진행되고 있다. 카메라 영상을 이용한 제스처 인식에서 많이 사용되는 학습 알고리즘에는 확률 그래프 모델인 HMM과 CRF 등이 있다. 이 학습 알고리즘들은 다차원의 연속된 실수 데이터를 가지고 모델을 학습하면 계산량이 많아진다. 본 논문에서는 팔 관절 위치 데이터를 k-평균 군집화 과정을 거쳐 1차원의 시계열 데이터로 변환 후, 제스처별로 HMM 모델을 학습하는 방법을 제안한다. 키넥트 센서를 통해 얻은 팔 관절 위치 데이터에 k-평균 군집화를 적용하여 1차원 시계열 데이터를 생성하고, 이를 HMM의 학습 및 인식에 사용한다. 본 논문에서 제안하는 방법의 성능을 분석하기 위하여, 다른 시계열 학습 알고리즘인 AP+DTW를 이용한 방법과의 비교 실험을 포함해 다양한 실험들을 수행하였다.

Statistical methods for testing tumor heterogeneity (종양 이질성을 검정을 위한 통계적 방법론 연구)

  • Lee, Dong Neuck;Lim, Changwon
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.3
    • /
    • pp.331-348
    • /
    • 2019
  • Understanding the tumor heterogeneity due to differences in the growth pattern of metastatic tumors and rate of change is important for understanding the sensitivity of tumor cells to drugs and finding appropriate therapies. It is often possible to test for differences in population means using t-test or ANOVA when the group of N samples is distinct. However, these statistical methods can not be used unless the groups are distinguished as the data covered in this paper. Statistical methods have been studied to test heterogeneity between samples. The minimum combination t-test method is one of them. In this paper, we propose a maximum combinatorial t-test method that takes into account combinations that bisect data at different ratios. Also we propose a method based on the idea that examining the heterogeneity of a sample is equivalent to testing whether the number of optimal clusters is one in the cluster analysis. We verified that the proposed methods, maximum combination t-test method and gap statistic, have better type-I error and power than the previously proposed method based on simulation study and obtained the results through real data analysis.

Evaluation Of Improved Usage Profiles Using Frequency Support Threshold In Clusters (클러스터 내부 빈발 지지도를 이용한 개선된 사용 프로파일 평가)

  • 안계순;이필규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.277-279
    • /
    • 2002
  • 웹 로그 기반의 웹 사용 마이닝은 명시적 평가 의존, 확장성 결여, 그리고 다차원 및 희박한 데이터에 성능이 떨어지는 협력적 여과의 문제를 다소 해결할 수 있다. 그러나 k-Means 군집화 방법으로 생성된 군집속 유사 사용자 이동 패턴으로는 클러스터속 사용자 전체의 선호도를 표현할 수 없으므로 사용자 이동 패턴인 트랜잭션들로부터 사용 프로파일을 유도해야 한다. 본 논문에서는 유사 군집 사용자들의 관심과 기호를 표현할 수 있도록 클러스터 내부 데이타로부터 평균 가중치 및 빈발 지지도 임계값을 사용하여 개선된 사용 프로파일을 생성하고 실험 데이터를 통한 예측력과 추천에 대한 성능을 평가한다.

  • PDF

An Improved AdaBoost Algorithm by Clustering Samples (샘플 군집화를 이용한 개선된 아다부스트 알고리즘)

  • Baek, Yeul-Min;Kim, Joong-Geun;Kim, Whoi-Yul
    • Journal of Broadcast Engineering
    • /
    • v.18 no.4
    • /
    • pp.643-646
    • /
    • 2013
  • We present an improved AdaBoost algorithm to avoid overfitting phenomenon. AdaBoost is widely known as one of the best solutions for object detection. However, AdaBoost tends to be overfitting when a training dataset has noisy samples. To avoid the overfitting phenomenon of AdaBoost, the proposed method divides positive samples into K clusters using k-means algorithm, and then uses only one cluster to minimize the training error at each iteration of weak learning. Through this, excessive partitions of samples are prevented. Also, noisy samples are excluded for the training of weak learners so that the overfitting phenomenon is effectively reduced. In our experiment, the proposed method shows better classification and generalization ability than conventional boosting algorithms with various real world datasets.