• 제목/요약/키워드: Clustering algorithm

검색결과 2,039건 처리시간 0.031초

ASA 군집화를 이용한 군집수 결정 및 다양한 실험 (Finding the Number of Clusters and Various Experiments Based on ASA Clustering Method)

  • 윤복식
    • 한국경영과학회지
    • /
    • 제31권2호
    • /
    • pp.87-98
    • /
    • 2006
  • In many cases of cluster analysis we are forced to perform clustering without any prior knowledge on the number of clusters. But in some clustering methods such as k-means algorithm it is required to provide the number of clusters beforehand. In this study, we focus on the problem to determine the number of clusters in the given data. We follow the 2 stage approach of ASA clustering algorithm and mainly try to improve the performance of the first stage of the algorithm. We verify the usefulness of the method by applying it for various kinds of simulated data. Also, we apply the method for clustering two kinds of real life qualitative data.

다목적 유전자 알고리즘을 이용한문서 클러스터링 (The Document Clustering using Multi-Objective Genetic Algorithms)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.57-64
    • /
    • 2012
  • 본 논문에서는 텍스트 마이닝 분야에서 중요한 부분을 차지하고 있는 문서 클러스터링을 위하여 다목적 유전자 알고리즘을 제안한다. 문서 클러스터링에 있어 중요한 요소 중 하나는 유사한 문서를 그룹화 하는 클러스터링 알고리즘이다. 지금까지 문서 클러스터링에는 k-means 클러스터링, 유전자 알고리즘 등을 사용한 연구가 많이 진행되고 있다. 하지만 k-means 클러스터링은 초기 클러스터 중심에 따라 성능 차이가 크며 유전자 알고리즘은 목적함수에 따라 지역 최적해에 쉽게 빠지는 단점을 갖고 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 다목적 유전자 알고리즘을 문서 클러스터링에 적용해 보고, 기존의 알고리즘과 정확성을 비교 및 분석한다. 성능 시험을 통해 k-means 클러스터링(약 20%)과 기존의 유전자 알고리즘(약 17%)을 비교할 때 본 논문에서 제안한 다목적 유전자 알고리즘의 성능이 월등하게 향상됨을 보인다.

FCM 클러스터링 알고리즘과 퍼지 결정트리를 이용한 상황인식 정보 서비스 (A Context-Aware Information Service using FCM Clustering Algorithm and Fuzzy Decision Tree)

  • 양석환;정목동
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.810-819
    • /
    • 2013
  • FCM 클러스터링 알고리즘은 대표적인 분할기반 군집화 알고리즘이며 다양한 분야에서 성공적으로 적용되어 왔다. 그러나 FCM 클러스터링 알고리즘은 잡음 및 지역 데이터에 대한 높은 민감도, 직관적인 결과와 상이한 결과 도출 가능성이 높은 문제, 초기 원형과 클러스터 개수 설정 문제 등이 존재한다. 본 논문에서는 FCM 알고리즘의 결과를 해당 속성의 데이터 축에 사상하여 퍼지구간을 결정하고, 결정된 퍼지구간을 FDT에 적용함으로써 FCM 알고리즘이 가지는 문제 중 잡음 및 데이터에 대한 높은 민감도, 직관적인 결과와 상이한 결과 도출 가능성이 높은 문제를 개선하는 시스템을 제안한다. 또한 실제 교통데이터와 강수량 데이터를 이용한 실험을 통하여 제안 모델과 FCM 클러스터링 알고리즘을 비교한다. 실험 결과를 통해 제안 모델은 잡음 및 데이터에 대한 민감도를 완화시킴으로써 보다 안정적인 결과를 제공하며, FCM 클러스터링 알고리즘을 적용한 시스템보다 직관적인 결과와의 일치율을 높여줌을 알 수 있다.

An Improved Hybrid Canopy-Fuzzy C-Means Clustering Algorithm Based on MapReduce Model

  • Dai, Wei;Yu, Changjun;Jiang, Zilong
    • Journal of Computing Science and Engineering
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2016
  • The fuzzy c-means (FCM) is a frequently utilized algorithm at present. Yet, the clustering quality and convergence rate of FCM are determined by the initial cluster centers, and so an improved FCM algorithm based on canopy cluster concept to quickly analyze the dataset has been proposed. Taking advantage of the canopy algorithm for its rapid acquisition of cluster centers, this algorithm regards the cluster results of canopy as the input. In this way, the convergence rate of the FCM algorithm is accelerated. Meanwhile, the MapReduce scheme of the proposed FCM algorithm is designed in a cloud environment. Experimental results demonstrate the hybrid canopy-FCM clustering algorithm processed by MapReduce be endowed with better clustering quality and higher operation speed.

Security Clustering Algorithm Based on Integrated Trust Value for Unmanned Aerial Vehicles Network

  • Zhou, Jingxian;Wang, Zengqi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권4호
    • /
    • pp.1773-1795
    • /
    • 2020
  • Unmanned aerial vehicles (UAVs) network are a very vibrant research area nowadays. They have many military and civil applications. Limited bandwidth, the high mobility and secure communication of micro UAVs represent their three main problems. In this paper, we try to address these problems by means of secure clustering, and a security clustering algorithm based on integrated trust value for UAVs network is proposed. First, an improved the k-means++ algorithm is presented to determine the optimal number of clusters by the network bandwidth parameter, which ensures the optimal use of network bandwidth. Second, we considered variables representing the link expiration time to improve node clustering, and used the integrated trust value to rapidly detect malicious nodes and establish a head list. Node clustering reduce impact of high mobility and head list enhance the security of clustering algorithm. Finally, combined the remaining energy ratio, relative mobility, and the relative degrees of the nodes to select the best cluster head. The results of a simulation showed that the proposed clustering algorithm incurred a smaller computational load and higher network security.

공간국부성을 최적화하는 클러스터링 방법 (A Clustering Method for Optimizing Spatial Locality)

  • 김홍기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.83-90
    • /
    • 2004
  • 본 논문에서는 순환적인 검색공간과 장애물이 존재하는 검색공간에서 객체들을 클러스터링할 때 고려해야하는 CCD(Clustering with Circular Distance) 문제와 COD(Clustering with Obstructed Distance) 문제를 연구하였다. 그리고 다차원 검색공간에서 삽입이나 삭제가 빈번히 발생하는 객체들을 효율적으로 클러스터링하기 위한 새로운 클러스터링 알고리즘을 제안하였다. 제안한 클러스터링 알고리즘에는 CCD 및 COD 문제를 해결하기 위한 거리 함수가 정의된다. 그리고 최소의 연산 시간으로 높은 공간 국부성을 갖는 클러스터들을 생성하기 위한 클러스터링 방법이 포함된다.

A Mixed Co-clustering Algorithm Based on Information Bottleneck

  • Liu, Yongli;Duan, Tianyi;Wan, Xing;Chao, Hao
    • Journal of Information Processing Systems
    • /
    • 제13권6호
    • /
    • pp.1467-1486
    • /
    • 2017
  • Fuzzy co-clustering is sensitive to noise data. To overcome this noise sensitivity defect, possibilistic clustering relaxes the constraints in FCM-type fuzzy (co-)clustering. In this paper, we introduce a new possibilistic fuzzy co-clustering algorithm based on information bottleneck (ibPFCC). This algorithm combines fuzzy co-clustering and possibilistic clustering, and formulates an objective function which includes a distance function that employs information bottleneck theory to measure the distance between feature data point and feature cluster centroid. Many experiments were conducted on three datasets and one artificial dataset. Experimental results show that ibPFCC is better than such prominent fuzzy (co-)clustering algorithms as FCM, FCCM, RFCC and FCCI, in terms of accuracy and robustness.

A Genetic-Algorithm-Based Optimized Clustering for Energy-Efficient Routing in MWSN

  • Sara, Getsy S.;Devi, S. Prasanna;Sridharan, D.
    • ETRI Journal
    • /
    • 제34권6호
    • /
    • pp.922-931
    • /
    • 2012
  • With the increasing demands for mobile wireless sensor networks in recent years, designing an energy-efficient clustering and routing protocol has become very important. This paper provides an analytical model to evaluate the power consumption of a mobile sensor node. Based on this, a clustering algorithm is designed to optimize the energy efficiency during cluster head formation. A genetic algorithm technique is employed to find the near-optimal threshold for residual energy below which a node has to give up its role of being the cluster head. This clustering algorithm along with a hybrid routing concept is applied as the near-optimal energy-efficient routing technique to increase the overall efficiency of the network. Compared to the mobile low energy adaptive clustering hierarchy protocol, the simulation studies reveal that the energy-efficient routing technique produces a longer network lifetime and achieves better energy efficiency.

Approximate Clustering on Data Streams Using Discrete Cosine Transform

  • Yu, Feng;Oyana, Damalie;Hou, Wen-Chi;Wainer, Michael
    • Journal of Information Processing Systems
    • /
    • 제6권1호
    • /
    • pp.67-78
    • /
    • 2010
  • In this study, a clustering algorithm that uses DCT transformed data is presented. The algorithm is a grid density-based clustering algorithm that can identify clusters of arbitrary shape. Streaming data are transformed and reconstructed as needed for clustering. Experimental results show that DCT is able to approximate a data distribution efficiently using only a small number of coefficients and preserve the clusters well. The grid based clustering algorithm works well with DCT transformed data, demonstrating the viability of DCT for data stream clustering applications.

클러스터링 알고리즘기반의 COVID-19 상황인식 분석 (Analysis of COVID-19 Context-awareness based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.755-762
    • /
    • 2022
  • 본 논문에서는 학습 예측이 가능한 군집적 알고리즘으로 COVID-19에서 상황인식정보인 질병의 속성정보와 클러스터링를 이용한 군집적 알고리즘을 제안한다. 클러스터링 내에서 처리되는 군집 데이터는 신규 또는 새롭게 입력되는 정보가 상호관계를 예측하기 위해 분류 제공되는데, 이때 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리되면 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 COVID-19에서의 질병속성 정보내 K-means알고리즘을 이용함에 있어 이러한 문제를 해결하기 위해 질병 상호관계 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 자율적인 사용자 군집 특징의 상호관계를 분석학습하고 이를 통하여 사용자 질병속성간에 따른 클러스터를 구성해 사용자의 누적 정보로부터 클러스터의 중심점을 제공하게 된다. 논문에서 제안된 COVID-19의 다중질병 속성정보군집단위로 분류하고 학습하는 알고리즘은 적용한 모의실험 결과를 통해 사용자 관리 시스템의 예측정확도가 학습과정에서 향상됨을 보여주었다.