• 제목/요약/키워드: K-mean Clustering

검색결과 280건 처리시간 0.028초

Land Cover Clustering of NDVI-drived Phenological Features

  • Kim, Dong-Keun;Suh, Myoung-Seok;Park, Kyoung-Yoon
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 1998년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.201-206
    • /
    • 1998
  • In this paper, we have considered the method for clustering land cover types over the East Asia from AVHRR data. The feature vectors such that maximum NDVI, amplitude of NDVI, mean NDVI, and NDVI threshold are extracted from the 10-day composite by maximum value composite(MVC) for reducing the effect of cloud contaninations. To find the land cover clusters given by the feature vectors, we are adapted the self-organizing feature map(SOFM) clustering which is the mapping of an input vector space of n-dimensions into a one - or two-dimensional grid of output layer. The approach is to find first the clusters by the first layer SOFM and then merge several clusters of the first layer to a large cluster by the second layer SOFM. In experiments, we were used the 8-km AVHRR data for two years(1992-1993) over the East Asia.

  • PDF

그룹특징기반 슬라이딩 윈도우 클러스터링에서의 k-means와 k-medoids 비교 평가 (Comparison between k-means and k-medoids Algorithms for a Group-Feature based Sliding Window Clustering)

  • 양주연;심준호
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.225-237
    • /
    • 2018
  • 대용량 데이터의 발생과 처리가 대중화되면서 대용량 데이터 스트림 처리에 대한 수요가 급격하게 증가하고 있다. 이 수요에 따라 다양한 대용량 데이터 처리 기술이 개발되고 있다. 한 분야로 주목받고 있는 방식은 슬라이딩 윈도우를 사용한 데이터 스트림 클러스터링이다. 슬라이딩 윈도우를 사용한 데이터 스트림 클러스터링은 윈도우가 이동할 때마다 새로운 클러스터를 생성한다. 기존의 슬라이딩 윈도우 상의 클러스터링 기법은 코어셋(Coreset)을 기반으로 데이터 스트림 클러스터링을 구현하고 있다. 이 연구에서는 코어셋을 활용한 그룹특징을 이용한 알고리즘 내에서 이용하는 클러스터링 알고리즘을 변경하였다. 그리고 이를 통해 제안 알고리즘과 기존 알고리즘의 파라미터 값 변화에 따른 성능 비교 실험을 진행하였다. 개선된 사항에 대해 논하여 두 알고리즘을 비교하고 실험자에게 파라미터에 따른 이용 방향을 제시한다.

클러스터 밀도에 무관한 향상된 클러스터링 기법 (An Improved Clustering Method with Cluster Density Independence)

  • 유병현;김완우;허경용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.248-249
    • /
    • 2015
  • 클러스터링은 대표적인 비교사 학습 방법의 하나로 균일한 특성을 가지는 데이터를 클러스터로 묶기 위해 사용된다. 하지만 클러스터링은 기본적으로 클러스터의 중심에서 데이터까지의 거리에 기반하고 있으므로 클러스터의 중심이 밀도가 높은 클러스터 쪽으로 쏠리는 현상이 발생한다. 이 논문에서는 클러스터의 중심을 가능한 멀리 떨어져 있도록 하는 항을 Fuzzy C-Means의 목적함수에 추가함으로써 클러스터 사이의 밀도 차이가 심한 데이터의 클러스터링 문제에서 정확한 결과를 얻을 수 있는 클러스터링 방법을 제안한다. 제안한 방법은 FCM에 비해 실제 클러스터 중심으로 수렴하는 경우가 더 많으며 수렴 속도 역시 FCM 보다 빠른 것을 실험 결과를 통해 확인할 수 있다.

  • PDF

A SOFT-SENSING MODEL FOR FEEDWATER FLOW RATE USING FUZZY SUPPORT VECTOR REGRESSION

  • Na, Man-Gyun;Yang, Heon-Young;Lim, Dong-Hyuk
    • Nuclear Engineering and Technology
    • /
    • 제40권1호
    • /
    • pp.69-76
    • /
    • 2008
  • Most pressurized water reactors use Venturi flow meters to measure the feedwater flow rate. However, fouling phenomena, which allow corrosion products to accumulate and increase the differential pressure across the Venturi flow meter, can result in an overestimation of the flow rate. In this study, a soft-sensing model based on fuzzy support vector regression was developed to enable accurate on-line prediction of the feedwater flow rate. The available data was divided into two groups by fuzzy c means clustering in order to reduce the training time. The data for training the soft-sensing model was selected from each data group with the aid of a subtractive clustering scheme because informative data increases the learning effect. The proposed soft-sensing model was confirmed with the real plant data of Yonggwang Nuclear Power Plant Unit 3. The root mean square error and relative maximum error of the model were quite small. Hence, this model can be used to validate and monitor existing hardware feedwater flow meters.

시공간 데이터를 위한 클러스터링 기법 성능 비교 (Performance Comparison of Clustering Techniques for Spatio-Temporal Data)

  • 강나영;강주영;용환승
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.15-37
    • /
    • 2004
  • 최근 데이터 양이 급증하면서 데이터 마이닝에 대한 연구가 활발하게 진행되고 있으며 특히 GPS 시스템, 감시시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 데이터를 분석하고자 하는 시공간 데이터 마이닝 연구에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝 연구들에서는 비시공간 데이터 기반의 일반적인 클러스터링 기법들을 그대로 적용하고 있으나 데이터의 속성이 다른 시공간 데이터 마이닝에서 기존의 알고리즘들이 어느 정도의 성능을 보장하는지, 데이터의 시공간 속성에 따라 적절한 마이닝 알고리즘을 선택하기 위한 기준이 무엇인지 등에 대한 연구는 미흡한 실정이다. 본 논문에서는 기존의 시공간 데이터 마이닝 연구에서 일반적으로 많이 사용되어 온 알고리즘인 SOM(Self-Organizing Map)을 기반으로 시공간 데이터 마이닝 모듈을 개발하고, 개발된 클러스터링 모듈의 성능을 K-means과 두 가지 응집 계층(Hierarchical Agglomerative) 알고리즘들과 균질도, 분리도, 반면영상 너비, 정확도의 네 가지 평가 기준을 기반으로 비교하였다. 또한 입력 데이터의 특성 가시화 및 클러스터링 결과의 정확한 분석을 위해 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

  • PDF

스펙트럼 군집화에서 블록 대각 형태의 유사도 행렬 구성 (Magnifying Block Diagonal Structure for Spectral Clustering)

  • 허경용;김광백;우영운
    • 한국멀티미디어학회논문지
    • /
    • 제11권9호
    • /
    • pp.1302-1309
    • /
    • 2008
  • K-means나 퍼지 군집화와 같은 전통적인 군집화 기법들이 원형(prototype)을 기반으로 하고 볼록한 형태의 집단들에 적합한 반면, 스펙트럼 군집화(spectral clustering)는 국부적인 유사성을 기반으로 전역적인 집단을 찾아내는 기법으로 오목한 형태의 집단들에도 적용할 수 있어 커널을 기반으로 하는 SVM과 더불어 각광을 받고 있다. 하지만 SVM이 그러하듯이 스펙트럼 군집화에서도 커널의 폭은 성능에 지대한 영향을 끼치는 요인으로, 이를 결정하기 위한 다양한 방법이 시도되었지만 여전히 휴리스틱에 의존하는 실정이다. 이 논문에서는 유사도 행렬이 보다 명백한 블록 대각 형태를 가지도록 하기 위해 국부적인 커널의 폭을 거리 히스토그램을 바탕으로 적응적으로 결정하는 방법을 제시한다. 제안한 방법은 스펙트럼 군집화에 사용되는 유사도 행렬(affinity matrix)이 블록 형태의 대각 행렬을 이룰 때 이상적인 결과를 낸다는 사실에 기반하고 있으며, 이를 위해서 전통적인 유클리디안 거리와 무작위 행보 거리(random walk distance)를 함께 사용한다. 제안한 방법은 기존의 방법들에서 사용하는 유사도 행렬에 비해 명확한 블록 대각 행렬을 나타내고 있음을 실험 결과를 통해 확인할 수 있다.

  • PDF

Use of Factor Analyzer Normal Mixture Model with Mean Pattern Modeling on Clustering Genes

  • Kim Seung-Gu
    • Communications for Statistical Applications and Methods
    • /
    • 제13권1호
    • /
    • pp.113-123
    • /
    • 2006
  • Normal mixture model(NMM) frequently used to cluster genes on microarray gene expression data. In this paper some of component means of NMM are modelled by a linear regression model so that its design matrix presents the pattern between sample classes in microarray matrix. This modelling for the component means by given design matrices certainly has an advantage that we can lead the clusters that are previously designed. However, it suffers from 'overfitting' problem because in practice genes often are highly dimensional. This problem also arises when the NMM restricted by the linear model for component-means is fitted. To cope with this problem, in this paper, the use of the factor analyzer NMM restricted by linear model is proposed to cluster genes. Also several design matrices which are useful for clustering genes are provided.

Improved Classification Algorithm using Extended Fuzzy Clustering and Maximum Likelihood Method

  • Jeon Young-Joon;Kim Jin-Il
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.447-450
    • /
    • 2004
  • This paper proposes remotely sensed image classification method by fuzzy c-means clustering algorithm using average intra-cluster distance. The average intra-cluster distance acquires an average of the vector set belong to each cluster and proportionates to its size and density. We perform classification according to pixel's membership grade by cluster center of fuzzy c-means clustering using the mean-values of training data about each class. Fuzzy c-means algorithm considered membership degree for inter-cluster of each class. And then, we validate degree of overlap between clusters. A pixel which has a high degree of overlap applies to the maximum likelihood classification method. Finally, we decide category by comparing with fuzzy membership degree and likelihood rate. The proposed method is applied to IKONOS remote sensing satellite image for the verifying test.

  • PDF

노인 운전자의 공격적인 운전 상태 검출 기법 (A Method of Detecting the Aggressive Driving of Elderly Driver)

  • 고동우;강행봉
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.537-542
    • /
    • 2017
  • 공격적인 성향의 운전은 자동차 사고의 주요한 원인이 된다. 기존 연구에서는 공격적 성향의 운전을 검출하기 위해, 주로 청년을 대상으로 연구가 이뤄졌으며 기계학습의 순수한 Clustering 또는 Classification 기법을 통해 이뤄졌다. 그러나 노인들은 취약한 신체적 조건에 의해 젊은 운전자와는 다른 운전 강도를 가지고 있어 기존의 방식으로는 검출이 불가능 하며, 데이터를 보정하는 등의 새로운 방법이 필요하다. 그리하여, 본 연구에서는 기존의 클러스터링 기법(K-means, Expectation - maximization algorithm)에, 새롭게 제안하는 ECA(Enhanced Clustering method for Acceleration data)기법을 추가하여, 주행 차량에 위치한 스마트폰으로부터 수집된 가속도 데이터를 분석하고 공격적인 운전 형태를 검출해 낸다. ECA는 모든 피험자의 데이터에서 K-means와 EM을 통해 검출된 군집군의 데이터 중 높은 강도의 데이터를 선별하여, 특징을 스케일링한 값을 통해 모델링한다. 본 방식을 통해 기존의 연구의 순수한 클러스터링 방식과는 달리, 모든 청장년 및 노인 실험 참가자 개인들의 공격적인 운전 데이터가 검출되었으며, 클러스터링 기법간의 비교를 통해 K-means 기법이 보다 높은 검출 효율을 갖고 있음을 확인했다. 또한, K-means 방식을 검출한 공격적인 운전 데이터에서는 젊은 운전자가 노인운전자에 비해 1.29배의 높은 운전 강도를 가지고 있음을 발견했다. 이와 같이 본 연구에서 제안된 방식은 낮은 운전 강도를 갖고 있는 노인의 데이터에서 공격적인 운전을 검출 가능하게 되었으며, 특히. 제안된 방법은 노인 운전자를 위한 맞춤형 안전운전 시스템을 구축이 가능하며, 추후 다양한 연구을 통해 이상 운전 상태를 검출하고 조기 경보하는데 활용이 가능할 것이다.

K-means 클러스터링을 이용한 자율학습을 통한 잠재적간 질환 환자의 분류를 위한 계층 정의 (Identifying Classes for Classification of Potential Liver Disorder Patients by Unsupervised Learning with K-means Clustering)

  • 김준범;오교중;오근휘;최호진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.195-197
    • /
    • 2011
  • This research deals with an issue of preventive medicine in bioinformatics. We can diagnose liver conditions reasonably well to prevent Liver Cirrhosis by classifying liver disorder patients into fatty liver and high risk groups. The classification proceeds in two steps. Classification rules are first built by clustering five attributes (MCV, ALP, ALT, ASP, and GGT) of blood test dataset provided by the UCI Repository. The clusters can be formed by the K-mean method that analyzes multi dimensional attributes. We analyze the properties of each cluster divided into fatty liver, high risk and normal classes. The classification rules are generated by the analysis. In this paper, we suggest a method to diagnosis and predict liver condition to alcoholic patient according to risk levels using the classification rule from the new results of blood test. The K-mean classifier has been found to be more accurate for the result of blood test and provides the risk of fatty liver to normal liver conditions.