• 제목/요약/키워드: agglomerative clustering

검색결과 59건 처리시간 0.022초

A Simple Tandem Method for Clustering of Multimodal Dataset

  • Cho C.;Lee J.W.;Lee J.W.
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2003년도 춘계공동학술대회
    • /
    • pp.729-733
    • /
    • 2003
  • The presence of local features within clusters incurred by multi-modal nature of data prohibits many conventional clustering techniques from working properly. Especially, the clustering of datasets with non-Gaussian distributions within a cluster can be problematic when the technique with implicit assumption of Gaussian distribution is used. Current study proposes a simple tandem clustering method composed of k-means type algorithm and hierarchical method to solve such problems. The multi-modal dataset is first divided into many small pre-clusters by k-means or fuzzy k-means algorithm. The pre-clusters found from the first step are to be clustered again using agglomerative hierarchical clustering method with Kullback- Leibler divergence as the measure of dissimilarity. This method is not only effective at extracting the multi-modal clusters but also fast and easy in terms of computation complexity and relatively robust at the presence of outliers. The performance of the proposed method was evaluated on three generated datasets and six sets of publicly known real world data.

  • PDF

기계학습 군집 알고리즘을 이용한 미세먼지 비선형성 완화방안 (Non-linearity Mitigation Method of Particulate Matter using Machine Learning Clustering Algorithms)

  • 이상권;조경우;오창헌
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.341-343
    • /
    • 2019
  • 고농도 미세먼지 발생이 증가함에 따라 미세먼지 예측에 많은 관심이 집중되고 있다. 미세먼지는 대기 중에 있는 직경 $10{\mu}m$ 이하의 밀입자 물질을 말하며, 온도, 상대습도, 풍속 등의 기상 변화에 영향을 받는다. 따라서 미세먼지 예측을 위해 기상 정보와의 상관관계를 분석하는 다양한 연구가 진행되었다. 하지만 미세먼지의 비선형적 시계열 분포는 예측 모델의 복잡도를 증가시키고, 부정확한 예측값을 초래할 수 있다. 본 연구에서는 기계학습의 군집 알고리즘 및 분류알고리즘을 이용하여 미세먼지의 비선형적 특성을 완화하고자 한다. 사용된 기계학습 알고리즘은 병합군집, 밀도기반군집이며, 각 알고리즘을 통한 군집결과를 비교, 분석하였다.

  • PDF

Cluster Analysis with Balancing Weight on Mixed-type Data

  • Chae, Seong-San;Kim, Jong-Min;Yang, Wan-Youn
    • Communications for Statistical Applications and Methods
    • /
    • 제13권3호
    • /
    • pp.719-732
    • /
    • 2006
  • A set of clustering algorithms with proper weight on the formulation of distance which extend to mixed numeric and multiple binary values is presented. A simple matching and Jaccard coefficients are used to measure similarity between objects for multiple binary attributes. Similarities are converted to dissimilarities between i th and j th objects. The performance of clustering algorithms with balancing weight on different similarity measures is demonstrated. Our experiments show that clustering algorithms with application of proper weight give competitive recovery level when a set of data with mixed numeric and multiple binary attributes is clustered.

우리나라 기상자료에 대한 군집분석 (Clustering analysis of Korea's meteorological data)

  • 여인권
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.941-949
    • /
    • 2011
  • 이 논문에서는 1999년 1월 1일부터 2010년 6월 30일까지 전국 72개 관측소에서 측정된 우리나라 기상자료를 평균연결법에 의한 계층적 병합방법을 통해 군집분석을 실시하고 각 기상자료에서 유도된 군집의 특성을 파악해 본다. 이 분석에서 유도된 군집과 2010년 기후변화에 따른 식중독 발생연구에서 사용되었던 산맥을 경계로 구분한 군집을 비교해 본다.

지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구 (A novel clustering method for examining and analyzing the intellectual structure of a scholarly field)

  • 이재윤
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.215-231
    • /
    • 2006
  • 패스파인더 네트워크를 사용하여 지적 구조의 분석과 규명을 시도한 여러 연구가 발표되었다. 패스파인더 네트워크는 다차원척도법에 비해서 여러 장점을 가지고 있지만 구축 알고리즘의 복잡도가 매우 높아서 실행 시간이 오래 걸리며, 전통적인 지적 구조 분석에 유용하게 사용되어온 군집분석을 함께 적용하기가 어려운 것이 단점이다. 이 연구에서는 이와 같은 패스파인더 네트워크의 약점을 보완할 수 있는 새로운 기법으로 병렬최근접이웃클러스터링(PNNC) 기법을 제안하였다. PNNC 기법의 클러스터링 성능을 전통적인 계층적 병합식 클러스터링 기법들과 비교해본 결과 효과성과 효율성 양면에서 기존 기법보다 우세한 것으로 확인되었다.

Morphometric Characterisation of Root-Knot Nematode Populations from Three Regions in Ghana

  • Nyaku, Seloame Tatu;Lutuf, Hanif;Cornelius, Eric
    • The Plant Pathology Journal
    • /
    • 제34권6호
    • /
    • pp.544-554
    • /
    • 2018
  • Tomato (Solanum lycopersicum) production in Ghana is limited by the root-knot nematode (Meloidogyne incognita, and yield losses over 70% have been experienced in farmer fields. Major management strategies of the root-knot nematode (RKN), such as rotation and nematicide application, and crop rotation are either little efficient and harmful to environments, with high control cost, respectively. Therefore, this study aims to examine morphometric variations of RKN populations in Ghana, using principal component analysis (PCA), of which the information can be utilized for the development of tomato cultivars resistant to RKN. Ninety (90) second-stage juveniles (J2) and 16 adult males of M. incognita were morphometrically characterized. Six and five morphometric variables were measured for adult males and second-stage juveniles (J2) respectively. Morphological measurements showed differences among the adult males and second-stage juveniles (J2). A plot of PC1 and PC2 for M. incognita male populations showed clustering into three main groups. Populations from Asuosu and Afrancho (Group I) were more closely related compared to populations from Tuobodom and Vea (Group II). There was however a single nematode from Afrancho (AF4) that fell into Group III. Biplots for male populations indicate, body length, DEGO, greatest body width, and gubernaculum length serving as variables distinguishing Group 1 and Group 2 populations. These same groupings from the PCA were reflected in the dendogram generated using Agglomerative Hierarchical Clustering (AHC). This study provides the first report on morphometric characterisation of M. incognita male and juvenile populations in Ghana showing significant morphological variation.

차량분리를 위한 스테레오매칭 데이터의 클러스터링 (Clustering of Stereo Matching Data for Vehicle Segmentation)

  • 이기용;이준웅
    • 제어로봇시스템학회논문지
    • /
    • 제16권8호
    • /
    • pp.744-750
    • /
    • 2010
  • To segment instances of vehicle classes in a sparse stereo-matching data set, this paper presents an algorithm for clustering based on DP (Dynamic Programming). The algorithm is agglomerative: it begins with each element in the set as a separate cluster and merges them into successively larger clusters according to similarity of two clusters. Here, similarity is formulated as a cost function of DP. The proposed algorithm is proven to be effective by experiments performed on various images acquired by a moving vehicle.

Unsupervised Image Classification using Region-growing Segmentation based on CN-chain

  • Lee, Sang-Hoon
    • 대한원격탐사학회지
    • /
    • 제20권3호
    • /
    • pp.215-225
    • /
    • 2004
  • A multistage hierarchical clustering technique, which is an unsupervised technique, was suggested in this paper for classifying large remotely-sensed imagery. The multistage algorithm consists of two stages. The 'local' segmentor of the first stage performs region-growing segmentation by employing the hierarchical clustering procedure of CN-chain with the restriction that pixels in a cluster must be spatially contiguous. The 'global' segmentor of the second stage, which has not spatial constraints for merging, clusters the segments resulting from the previous stage, using the conventional agglomerative approach. Using simulation data, the proposed method was compared with another hierarchical clustering technique based on 'mutual closest neighbor.' The experimental results show that the new approach proposed in this study considerably increases in computational efficiency for larger images with a low number of bands. The technique was then applied to classify the land-cover types using the remotely-sensed data acquired from the Korean peninsula.

계층 발생 프레임워크를 이용한 군집 계층 시각화 (Visualizing Cluster Hierarchy Using Hierarchy Generation Framework)

  • 신동화;이세희;서진욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권6호
    • /
    • pp.436-441
    • /
    • 2015
  • 군집화 알고리즘은 그 종류에 따라 만들어낼 수 있는 군집의 종류와 보여줄 수 있는 정보의 수준이 차이가 난다. 밀도기반 군집화 알고리즘은 데이터 분포 상의 임의의 모양을 가진 군집을 잘 잡아내지만 보여줄 수 있는 계층정보가 매우 적거나 없는 수준이고, 반면 계층적 군집화 알고리즘은 자세한 계층 정보를 보여주지만 구 모양의 군집 외에는 잘 잡아내지 못한다. 이 논문에서는 이러한 두 군집화 방식의 대표적 알고리즘인 OPTICS와 응집 계층 군집화 알고리즘의 장점만을 취하는 계층 발생 프레임워크를 제시하고 이와 더불어 효과적 데이터 분석을 위한 여러 시각화, 상호작용 기법을 지원하는 시각적 분석 애플리케이션을 제공한다.

데이터마이닝에 의한 고객세분화 개발 (A Development of Customer Segmentation by Using Data Mining Technique)

  • 진서훈
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.555-565
    • /
    • 2005
  • 고객세분화는 기업이 관계하고 있는 고객을 이해하고 그 이해를 바탕으로 효과적인 고객관리를 수행하기 위해 필수적인 요소인데 데이터마이닝이 기업의 정보관리영역에 적극적으로 활용되면서 보다 과학적이고 최적화된 형태로 개발되고 있다. 본 연구에서는 신용카드고객 의 카드사용행태에 근거하여 각 고객을 서로 유사한 사용행태를 보이는 고객군으로 세분화하는 과정을 소개하였다. 고객이 실제로 신용카드를 사용하면서 발생시킨 거래정보에만 의존하여 고객세분화를 개발하였으며 이는 마케팅의 관점에서 상당히 의미있는 내용이 될 수 있다. 고객세분화의 개발을 위하여 데이터마이닝기법인 k-평균 군집방법과 최장연결법에 의한 계보적 군집방법을 단계적으로 활용하는 이단계 군집방법을 이용하였다.