• 제목/요약/키워드: Hierarchical clustering method

검색결과 270건 처리시간 0.022초

범주형 시퀀스들에 대한 확장성 있는 클러스터링 방법 (A Scalable Clustering Method for Categorical Sequences)

  • 오승준;김재련
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.136-141
    • /
    • 2004
  • 소매점 거래 데이터와 단백질 시퀀스, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나, 순서적인 면을 고려한 클러스터링 알고리듬은 소수이다. 따라서, 본 연구에서는 시퀀스 데이터들을 클러스터링 하는 방법을 연구한다. 시퀀스들 간의 유사도를 계산하기 위한 새로운 유사도를 제안한다. 또한, 유사도를 효율적으로 계산하기 위한 방법과 클러스터링 방법도 제안한다. 계층적 클러스터링 알고리듬은 높은 계산량을 가지고 있기에, 새로운 클러스터링 방법이 요구된다. 그러므로, 본 연구에서는 샘플링과 k-nn 방법을 이용한 확장성 있는 클러스터링 방법을 제안한다. 실제 데이터 셋과 합성 데이터 셋을 이용하여, 본 연구에서 제안하는 방법이 기존 방법보다 성능이 우수함을 보여준다.

데이터 전송방향을 고려한 센서네트워크 클러스터링 방법 (Data Direction Aware Clustering Method in Sensor Networks)

  • 조오형;권태욱
    • 한국통신학회논문지
    • /
    • 제34권7B호
    • /
    • pp.721-727
    • /
    • 2009
  • 무선 센서 네트워크(WSN)에서는 저가 및 저 전력 센서를 활용하기 때문에 센서의 업무를 성공적으로 수행하면서 적은 에너지를 소모하는 것이 중요한 문제로 부각 된다. 기존의 계층척 WSN 알고리즘들에서 나타나는 제한점은 데이터 진행방향에 대한 역방향 전송이 이루어 질수 있다는 것이다. 본 논문은 데이터 방향성을 고려한 DDACM(Data Direction Aware Clustering Method) 방법을 제안한다. 데이터 역방향 전송 방지를 위해 클러스터헤더는 데이터 전송 방향에서 싱크노드와 가장 가까운 노드가 먼저 임명되고, 에너지 레벨이 일정량 이하 시 클러스터 헤더를 교체하는 방법융 제안한다. 실험을 통하여 LEACH(Low Energy Adaptive Clustering Hierarchy)방식과 비교하여 데이터 역방향 전송올 최소화하여 에너지 소모를 줄일 수 있음을 확인하였다.

시공간 데이터를 위한 클러스터링 기법 성능 비교 (Performance Comparison of Clustering Techniques for Spatio-Temporal Data)

  • 강나영;강주영;용환승
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.15-37
    • /
    • 2004
  • 최근 데이터 양이 급증하면서 데이터 마이닝에 대한 연구가 활발하게 진행되고 있으며 특히 GPS 시스템, 감시시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 데이터를 분석하고자 하는 시공간 데이터 마이닝 연구에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝 연구들에서는 비시공간 데이터 기반의 일반적인 클러스터링 기법들을 그대로 적용하고 있으나 데이터의 속성이 다른 시공간 데이터 마이닝에서 기존의 알고리즘들이 어느 정도의 성능을 보장하는지, 데이터의 시공간 속성에 따라 적절한 마이닝 알고리즘을 선택하기 위한 기준이 무엇인지 등에 대한 연구는 미흡한 실정이다. 본 논문에서는 기존의 시공간 데이터 마이닝 연구에서 일반적으로 많이 사용되어 온 알고리즘인 SOM(Self-Organizing Map)을 기반으로 시공간 데이터 마이닝 모듈을 개발하고, 개발된 클러스터링 모듈의 성능을 K-means과 두 가지 응집 계층(Hierarchical Agglomerative) 알고리즘들과 균질도, 분리도, 반면영상 너비, 정확도의 네 가지 평가 기준을 기반으로 비교하였다. 또한 입력 데이터의 특성 가시화 및 클러스터링 결과의 정확한 분석을 위해 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

  • PDF

한국 주식시장에서의 군집화 기반 페어트레이딩 포트폴리오 투자 연구 (Clustering-driven Pair Trading Portfolio Investment in Korean Stock Market)

  • 조풍진;이민혁;송재욱
    • 산업경영시스템학회지
    • /
    • 제45권3호
    • /
    • pp.123-130
    • /
    • 2022
  • Pair trading is a statistical arbitrage investment strategy. Traditionally, cointegration has been utilized in the pair exploring step to discover a pair with a similar price movement. Recently, the clustering analysis has attracted many researchers' attention, replacing the cointegration method. This study tests a clustering-driven pair trading investment strategy in the Korean stock market. If a pair detected through clustering has a large spread during the spread exploring period, the pair is included in the portfolio for backtesting. The profitability of the clustering-driven pair trading strategies is investigated based on various profitability measures such as the distribution of returns, cumulative returns, profitability by period, and sensitivity analysis on different parameters. The backtesting results show that the pair trading investment strategy is valid in the Korean stock market. More interestingly, the clustering-driven portfolio investments show higher performance compared to benchmarks. Note that the hierarchical clustering shows the best portfolio performance.

Feature Extraction of Concepts by Independent Component Analysis

  • Chagnaa, Altangerel;Ock, Cheol-Young;Lee, Chang-Beom;Jaimai, Purev
    • Journal of Information Processing Systems
    • /
    • 제3권1호
    • /
    • pp.33-37
    • /
    • 2007
  • Semantic clustering is important to various fields in the modem information society. In this work we applied the Independent Component Analysis method to the extraction of the features of latent concepts. We used verb and object noun information and formulated a concept as a linear combination of verbs. The proposed method is shown to be suitable for our framework and it performs better than a hierarchical clustering in latent semantic space for finding out invisible information from the data.

Hierarchical Cluster Analysis Histogram Thresholding with Local Minima

  • Sengee, Nyamlkhagva;Radnaabazar, Chinzorig;Batsuuri, Suvdaa;Tsedendamba, Khurel-Ochir;Telue, Berekjan
    • Journal of Multimedia Information System
    • /
    • 제4권4호
    • /
    • pp.189-194
    • /
    • 2017
  • In this study, we propose a method which is based on "Image segmentation by histogram thresholding using hierarchical cluster analysis"/HCA/ and "A nonparametric approach for histogram segmentation"/NHS/. HCA method uses that all histogram bins are one cluster then it reduces cluster numbers by using distance metric. Because this method has too many clusters, it is more computation. In order to eliminate disadvantages of "HCA" method, we used "NHS" method. NHS method finds all local minima of histogram. To reduce cluster number, we use NHS method which is fast. In our approach, we combine those two methods to eliminate disadvantages of Arifin method. The proposed method is not only less computational than "HCA" method because combined method has few clusters but also it uses local minima of histogram which is computed by "NHS".

일반국도 도로특성분류를 위한 통계적 군집분석과 Kohonen Self-Organizing Maps의 비교연구 (A Comparative Study on Statistical Clustering Methods and Kohonen Self-Organizing Maps for Highway Characteristic Classification of National Highway)

  • 조준한;김성호
    • 대한토목학회논문집
    • /
    • 제29권3D호
    • /
    • pp.347-356
    • /
    • 2009
  • 본 연구는 기존의 도로기능분류 정의와 방법론을 벗어나 교통특성에 따른 도로분류 방법론인 도로특성분류를 기초로 분석을 수행하였다. 도로특성분류에 대한 일련의 과정 중에서 다양한 교통특성을 반영하는 설명변수를 기초로 요인점수를 산출하고, 동질한 도로구간을 그룹핑하는 군집화 분석과정과 적정 군집수 도출에 따른 군집결과비교에 본 연구는 초점을 맞추었다. 도로분류를 위해 병합적 계층 군집분석인 Ward법, 비계층적 군집분석인 K-means법, 자율신경 회로망을 이용한 K-SOM을 사용하여 비교분석하였다. 각 군집기법에 대한 결과를 토대로 비교분석한 결과, 군집 수 5 이하에서는 K-means법, 군집 수 14 이상에서는 Kohonen selforganizing maps가 가장 우수한 것으로 나타났으며, 군집수 5~9사이에서는 Ward법과 Kmeans법의 군집 성능이 불규칙한 패턴을 보임에 따라 세밀한 결과분석을 통해 우수성을 결정하는 것이 바람직할 것으로 분석되었다. 본 연구결과는 다양한 교통특성을 고려한 도로구간의 군집 속성을 분석하고 예측하는 분류화 작업에 중요한 기초적인 자료로 사용될 것으로 기대된다.

센서 네트워크에서 계층적 필터링을 이용한 에너지 효율적인 데이터 집계연산 (An Energy-Efficient Data Aggregation using Hierarchical Filtering in Sensor Network)

  • 김진수;박찬흠;김종근;강병욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.73-82
    • /
    • 2007
  • 본 논문에서는 연속질의에 대한 집계연산을 수행할 때, 센서 네트워크의 수명을 길게 하기 위해 각 센서 및 클러스터 헤드에서의 데이터 전송량을 줄이기 위한 방법을 제안한다. 센서의 에너지 소모를 줄이는 가장 중요한 요소는 전승되는 메시지 수를 줄이는 것이다. 본 논문에서 제안하는 방법은 기본적으로 클러스터링, 네트워크 내 집계 및 계층적 필터링을 결합한 것이다. 계층적 필터링이란 센서 네트워크를 두 계층으로 나누어 필터링하는 것이다. 1계층 필터링은 클러스터 멤버에서 클러스터 헤드로 데이터를 전송시 필터링을 수행하고, 2계층 필터링은 클러스터 헤드에서 기지국으로 데이터를 전송시 필터링을 수행한다. 이 방법은 기존의 데이터 필터링 방법보다 더 효율적이고 효과적인 방법이다. 다양한 실험을 통해서, 제안한 방법이 다른 방법들보다 더 많은 메시지를 줄이고. 네트워크의 생존기간이 더 증가하였음을 보여준다.

  • PDF

Unsupervised Clustering of Multivariate Time Series Microarray Experiments based on Incremental Non-Gaussian Analysis

  • Ng, Kam Swee;Yang, Hyung-Jeong;Kim, Soo-Hyung;Kim, Sun-Hee;Anh, Nguyen Thi Ngoc
    • International Journal of Contents
    • /
    • 제8권1호
    • /
    • pp.23-29
    • /
    • 2012
  • Multiple expression levels of genes obtained using time series microarray experiments have been exploited effectively to enhance understanding of a wide range of biological phenomena. However, the unique nature of microarray data is usually in the form of large matrices of expression genes with high dimensions. Among the huge number of genes presented in microarrays, only a small number of genes are expected to be effective for performing a certain task. Hence, discounting the majority of unaffected genes is the crucial goal of gene selection to improve accuracy for disease diagnosis. In this paper, a non-Gaussian weight matrix obtained from an incremental model is proposed to extract useful features of multivariate time series microarrays. The proposed method can automatically identify a small number of significant features via discovering hidden variables from a huge number of features. An unsupervised hierarchical clustering representative is then taken to evaluate the effectiveness of the proposed methodology. The proposed method achieves promising results based on predictive accuracy of clustering compared to existing methods of analysis. Furthermore, the proposed method offers a robust approach with low memory and computation costs.

레이더 데이터 분석을 위한 Fuzzy Logic 기반 클러스터링 기법에 관한 연구 (A Study on Fuzzy Logic based Clustering Method for Radar Data Analysis)

  • 이한수;김은경;김성신
    • 한국지능시스템학회논문지
    • /
    • 제25권3호
    • /
    • pp.217-222
    • /
    • 2015
  • 클러스터링 기법은 탐색적 자료 분석 기법으로 알려진 중요한 데이터마이닝 기법 중 하나로서 패턴 인식, 원격 탐사 등의 분야에 사용되고 있다. 이 방법을 이용하여 데이터의 기본 구조를 추출하고, 개체의 군집화 혹은 군집의 계층을 조직한다. 기상 레이더는 대기 중에 존재하는 물체에서 반사되는 신호를 이용하여 관측을 수행하고, 해당 좌표에 데이터를 저장하는 원리로 동작하는데, 이를 분석하기 위해서는 흩어져있는 레이더 데이터를 유사도를 바탕으로 강수에코와 비강수에코를 구분하여 군집화 할 필요가 있다. 따라서 본 논문에서는 클러스터링 기법을 레이더 데이터에 적용하는 방법에 대한 연구를 수행하였다. 또한, 강수에코와 비강수에코가 인접해 있을 경우 발생할 수 있는 문제를 해결하기 위하여 퍼지 로직과 계층적 클러스터링 기법을 접목하여 유사도를 판별하는 방법에 대한 연구를 수행하였다. 실제 사례를 바탕으로 본 논문에서 제안한 클러스터링 기법을 적용한 결과, 강수에코와 비강수에코가 인접해 있는 경우 기존 기법보다 좋은 결과를 도출하는 것을 확인할 수 있었다.