• 제목/요약/키워드: Optimizing the Number of Clusters

검색결과 7건 처리시간 0.028초

외부 군집 연관 기준 정보를 이용한 군집수 최적화 (A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion)

  • 이현진;지태창
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권3호
    • /
    • pp.339-345
    • /
    • 2011
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법이다. k-means는 간단하고 빠른 군집화 알고리즘 중의 하나이다. 군집의 수 k는 군집화를 수행하는데 매우 중요한 요소이며, k의 값에 의해 군집화 결과가 달라진다. 본 논문에서는 반복적인 k-means 수행과 군집의 품질을 평가하는 외부 군집 연관 기준 정보를 결합하여 최적의 군집수를 결정하는 방법을 제안한다. 실험 결과 기존의 방법들에 비하여 제안하는 방법이 군집수의 정확성 측면에서 우수한 성능을 보였다.

새로운 클러스터링 알고리듬을 적용한 향상된 뉴로-퍼지 모델링 (Advance Neuro-Fuzzy Modeling Using a New Clustering Algorithm)

  • 김승석;김성수;유정웅
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권7호
    • /
    • pp.536-543
    • /
    • 2004
  • In this paper, we proposed a new method of modeling a neuro-fuzzy system using a hybrid clustering algorithm. The initial parameters and the number of clusters of the proposed system are optimally chosen simultaneously with respect to the process of regression, which is a unique characteristics of the proposed system. The proposed algorithm presented in this work improves the overall performance of the proposed a neuro-fuzzy system by choosing a proper number of clusters adaptively according the characteristics of given data. The process of clustering is performed by deciding on the number of classes, which yields the property of convergence of the system. In experiments, the superiority of the proposed neuro-fuzzy system is demonstrated, especially the process of optimizing parameters and clustering of learning speed.

온라인 문서 군집화에서 군집 수 결정 방법 (Determining the number of Clusters in On-Line Document Clustering Algorithm)

  • 지태창;이현진;이일병
    • 정보처리학회논문지B
    • /
    • 제14B권7호
    • /
    • pp.513-522
    • /
    • 2007
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

차감 및 중력 fuzzy C-means 클러스터링을 이용한 칼라 영상 분할에 관한 연구 (Segmentation of Color Image by Subtractive and Gravity Fuzzy C-means Clustering)

  • 진영근;김태균
    • 전기전자학회논문지
    • /
    • 제1권1호
    • /
    • pp.93-100
    • /
    • 1997
  • 칼라 영상 분할의 한 방법으로 fuzzy C-means를 이용한 방법이 많이 연구되었으나, 이 방법은 클러스터의 개수가 정해져야 사용할 수 있는 방법이다. 분할해야 할 데이터가 많은 경우 예비 분할을 수행하여 예비 분할 되지 않는 데이터들에 대해서 상세 분할을 fuzzy C-means를 사용하여 분할 하나 예비 분할된 데이터의 클러스터 중심과 상세 분할로 만들어진 클러스터의 중심과는 연계성이 없어진다. 본 연구에서는 이것을 보완하기 위하여 차감 클러스터링을 사용하여 칼라 영상의 클러스터의 개수와 중심을 구한 후, 이것을 이용하여 영상을 예비 분할하고 중력을 가진 fuzzy C-means를 사용하여 분할되지 않은 나머지 부분과 클러스터의 중심을 최적화 시켜 분할하는 알고리듬을 제안한다. 제안된 방법의 정성적인 평가를 수행하여 본 논문에서 제시된 방법이 우수함을 보인다.

  • PDF

Optimizing the maximum reported cluster size for normal-based spatial scan statistics

  • Yoo, Haerin;Jung, Inkyung
    • Communications for Statistical Applications and Methods
    • /
    • 제25권4호
    • /
    • pp.373-383
    • /
    • 2018
  • The spatial scan statistic is a widely used method to detect spatial clusters. The method imposes a large number of scanning windows with pre-defined shapes and varying sizes on the entire study region. The likelihood ratio test statistic comparing inside versus outside each window is then calculated and the window with the maximum value of test statistic becomes the most likely cluster. The results of cluster detection respond sensitively to the shape and the maximum size of scanning windows. The shape of scanning window has been extensively studied; however, there has been relatively little attention on the maximum scanning window size (MSWS) or maximum reported cluster size (MRCS). The Gini coefficient has recently been proposed by Han et al. (International Journal of Health Geographics, 15, 27, 2016) as a powerful tool to determine the optimal value of MRCS for the Poisson-based spatial scan statistic. In this paper, we apply the Gini coefficient to normal-based spatial scan statistics. Through a simulation study, we evaluate the performance of the proposed method. We illustrate the method using a real data example of female colorectal cancer incidence rates in South Korea for the year 2009.

Big Data Based Dynamic Flow Aggregation over 5G Network Slicing

  • Sun, Guolin;Mareri, Bruce;Liu, Guisong;Fang, Xiufen;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4717-4737
    • /
    • 2017
  • Today, smart grids, smart homes, smart water networks, and intelligent transportation, are infrastructure systems that connect our world more than we ever thought possible and are associated with a single concept, the Internet of Things (IoT). The number of devices connected to the IoT and hence the number of traffic flow increases continuously, as well as the emergence of new applications. Although cutting-edge hardware technology can be employed to achieve a fast implementation to handle this huge data streams, there will always be a limit on size of traffic supported by a given architecture. However, recent cloud-based big data technologies fortunately offer an ideal environment to handle this issue. Moreover, the ever-increasing high volume of traffic created on demand presents great challenges for flow management. As a solution, flow aggregation decreases the number of flows needed to be processed by the network. The previous works in the literature prove that most of aggregation strategies designed for smart grids aim at optimizing system operation performance. They consider a common identifier to aggregate traffic on each device, having its independent static aggregation policy. In this paper, we propose a dynamic approach to aggregate flows based on traffic characteristics and device preferences. Our algorithm runs on a big data platform to provide an end-to-end network visibility of flows, which performs high-speed and high-volume computations to identify the clusters of similar flows and aggregate massive number of mice flows into a few meta-flows. Compared with existing solutions, our approach dynamically aggregates large number of such small flows into fewer flows, based on traffic characteristics and access node preferences. Using this approach, we alleviate the problem of processing a large amount of micro flows, and also significantly improve the accuracy of meeting the access node QoS demands. We conducted experiments, using a dataset of up to 100,000 flows, and studied the performance of our algorithm analytically. The experimental results are presented to show the promising effectiveness and scalability of our proposed approach.

SDS 환경의 유사도 기반 클러스터링 및 다중 계층 블룸필터를 활용한 분산 중복제거 기법 (Distributed data deduplication technique using similarity based clustering and multi-layer bloom filter)

  • 윤다빈;김덕환
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권5호
    • /
    • pp.60-70
    • /
    • 2018
  • 클라우드 환경에서 다수의 사용자가 물리적 서버를 가상화하여 사용할 수 있도록 편의성을 제공하는 Software Defined Storage(SDS)를 적용하고 있지만 한정된 물리적 자원을 고려하여 공간 효율성을 최적화하는 솔루션이 필요하다. 기존의 데이터 중복제거 시스템에서는 서로 다른 스토리지에 업로드 된 중복 데이터가 중복제거되기 어렵다는 단점이 있다. 본 논문에서는 유사도기반 클러스터링과 다중 계층 블룸 필터를 적용한 분산 중복제거 기법을 제안한다. 라빈 해시를 이용하여 가상 머신 서버들 간의 유사도를 판단하고 유사도가 높은 가상머신들을 클러스터 함으로써 개별 스토리지 노드별 중복제거 효율에 비하여 성능을 향상시킨다. 또한 중복제거 프로세스에 다중 계층 블룸 필터를 접목하여 처리 시간을 단축하고 긍정오류를 감소시킬 수 있다. 실험결과 제안한 방법은 IP주소 기반 클러스터를 이용한 중복제거 기법에 비해 처리 시간의 차이가 없으면서, 중복제거율이 9% 높아짐을 확인하였다.