• 제목/요약/키워드: means

검색결과 32,005건 처리시간 0.044초

Approximate k values using Repulsive Force without Domain Knowledge in k-means

  • Kim, Jung-Jae;Ryu, Minwoo;Cha, Si-Ho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.976-990
    • /
    • 2020
  • The k-means algorithm is widely used in academia and industry due to easy and simple implementation, enabling fast learning for complex datasets. However, k-means struggles to classify datasets without prior knowledge of specific domains. We proposed the repulsive k-means (RK-means) algorithm in a previous study to improve the k-means algorithm, using the repulsive force concept, which allows deleting unnecessary cluster centroids. Accordingly, the RK-means enables to classifying of a dataset without domain knowledge. However, three main problems remain. The RK-means algorithm includes a cluster repulsive force offset, for clusters confined in other clusters, which can cause cluster locking; we were unable to prove RK-means provided optimal convergence in the previous study; and RK-means shown better performance only normalize term and weight. Therefore, this paper proposes the advanced RK-means (ARK-means) algorithm to resolve the RK-means problems. We establish an initialization strategy for deploying cluster centroids and define a metric for the ARK-means algorithm. Finally, we redefine the mass and normalize terms to close to the general dataset. We show ARK-means feasibility experimentally using blob and iris datasets. Experiment results verify the proposed ARK-means algorithm provides better performance than k-means, k'-means, and RK-means.

적응적 Multiple Kernels을 이용한 Interval Type-2 Possibilistic Fuzzy C-Means 방법 (A Novel Approach towards use of Adaptive Multiple Kernels in Interval Type-2 Possibilistic Fuzzy C-Means)

  • 주원희;이정훈
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.529-535
    • /
    • 2014
  • 본 논문에서는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 클러스터링 방법에 multiple Gaussian kernels을 기반으로 한 possibilistic fuzzy C-means multiple kernels(PFCM-MK) 알고리즘을 결합하여 적응적인 하이브리드 클러스터링 방법인 multiple kernels interval type-2 possibilistic fuzzy C-means(IT2PFCM-MK) 방법을 제안 하였다. 일반적으로 possibilistic fuzzy C-means(PFCM) 알고리즘은 fuzzy C-means(FCM) 알고리즘의 단점인 노이즈 민감성 및 특이점 문제와 알고리즘 초기 클러스터의 Prototype에 따라 위치가 겹치는 문제를 해결하기 위해 제안 되었다. 하지만 이 방법 역시 퍼지화 파라미터 값에 따라 위와 같은 문제를 여전히 가지고 있기 때문에 이와 같은 문제를 보완하기 위해 interval type-2 퍼지 접근 방법을 이용 하는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘을 제안 하였다. 또한 multiple kernels 함수를 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘에 적용하여 분류하기 복잡한 형태의 데이터와 노이즈가 있는 데이터에 대하여 보다 정확하고, 향상된 클러스터링을 수행할 수 있다.

클러스터 중심 결정 방법을 개선한 K-Means 알고리즘의 구현 (An Implementation of K-Means Algorithm Improving Cluster Centroids Decision Methodologies)

  • 이신원;오형진;안동언;정성종
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.867-874
    • /
    • 2004
  • K-Means 알고리즘은 재배치 기법의 일종으로 K개의 초기 센트로이드를 중심으로 K개의 클러스터가 될 때까지 클러스터링을 반복하는 것이다. 알고리즘의 특성상 K-Means 알고리즘은 초기 클러스터 센트로이드(중심) 및 클러스터 중심을 결정하는 방법에 따라 다른 클러스터링 결과를 얻을 수 있다. 본 논문에서는 K-Means 알고리즘을 이용한 초기 클러스터 중심 및 클러스터 중심을 결정하는 방법을 개선한 변형 K-Means 알고리즘을 제안한다. 제안한 알고리즘의 평가를 위하여 SMART 시스템의 16가지 가중치 계산 방식을 이용하여 성능을 평가한 결과 변형 K-Means알고리즘이 K-Means 알고리즘보다 재현률과 F-Measure에서 $20{\%}$이상 향상된 결과를 얻을 수 있었으며 특정 주제 아래 관련 문서가 할당되는 클러스터링 성능이 우수함을 알 수 있었다.

적응적인 초기치 설정을 이용한 Fast K-means 및 Frizzy-c-means 알고리즘 (A Fast K-means and Fuzzy-c-means Algorithms using Adaptively Initialization)

  • 강지혜;김성수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.516-524
    • /
    • 2004
  • 본 논문에서는 K-means 또는 Fuzzy-c-means 알고리즘에서 클러스터의 중심점을 찾는 과정 중 임의로 선택되는 초기값 선정의 문제를 해결하고, 기존의 단점을 보완하는 새로운 방안으로서 데이터의 분포의 통계적 특성에 따른 초기값 선정 방법을 제안하였다. 기존의 초기값 선정 방법은 초기값에 따라 클러스터링이 매우 민감한 변화를 가져와, 최종적으로 종종 원치 않는 방향으로 가는 문제점을 갖고 있다. 이러한 초기값 선정의 문제가 인지되어 왔지만, 그 문제의 해결방안이 실제적으로 모색된 경우는 없었다. 본 논문에서는 데이타의 통계적 특성을 이용한 초기값 선정 방법을 적용하여, 클러스터링이 형성되는 시간의 단축 및 원치 않는 결과가 생성되는 경우를 약화시켜 시스템의 향상을 가져왔고, 이러한 제안된 알고리즘의 우수성을 기존의 알고리즘과 비교를 통하여 나타내었다.

ON A CLASS OF BIVARIATE MEANS INCLUDING A LOT OF OLD AND NEW MEANS

  • Raissouli, Mustapha;Rezgui, Anis
    • 대한수학회논문집
    • /
    • 제34권1호
    • /
    • pp.239-251
    • /
    • 2019
  • In this paper we introduce a new formulation of symmetric homogeneous bivariate means that depends on the variation of a given continuous strictly increasing function on (0, ${\infty}$). It turns out that this class of means includes a lot of known bivariate means among them the arithmetic mean, the harmonic mean, the geometric mean, the logarithmic mean as well as the first and second Seiffert means. Using this new formulation we introduce a lot of new bivariate means and derive some mean-inequalities.

X-means 확장을 통한 효율적인 집단 개수의 결정 (Extensions of X-means with Efficient Learning the Number of Clusters)

  • 허경용;우영운
    • 한국정보통신학회논문지
    • /
    • 제12권4호
    • /
    • pp.772-780
    • /
    • 2008
  • K-means는 알고리즘의 단순함과 효율적인 구현이 가능함으로 인해 군집화를 위해 현재까지 널리 사용되는 방법 중 하나이다. 하지만 K-means는 집단의 개수가 사전에 결정되어야 하는 근본적인 문제점이 있다. 이 논문에서는 BIC(Bayesian information criterion) 점수를 이용하여 효율적으로 집단의 개수를 추정할 수 있는 X-means 알고리즘을 확장한 두 가지 알고리즘을 제안한다. 제안한 방법은 기본적으로 X-means 방법을 따르면서 집단이 임의의 분산 행렬을 가질 수 있도록 함으로써 X-means 알고리즘이 원형 집단만을 허용함에 따른 over-fitting을 개선한다. 제안한 방법은 하나의 집단에서 시작하여 계속해서 집단을 나누어가는 하향식 방법으로, BIC score를 최대로 증가시키는 집단을 분할해 나간다. 제안한 알고리즘은 Modified X-means(MX-means)와 Generalized X-means(GX-means)의 두 가지로, 전자는 K-means 알고리즘을, 후자는 EM 알고리즘을 사용하여 현재 주어진 집단들에서 최적의 분할을 찾아낸다. MX-means는 GX-means보다 그 속도에서 앞서지만 집단들이 중첩 된 경우에는 올바른 집단을 찾아낼 수 없는 단점이 있다. GX-means는 실행 속도가 느린 단점이 있지만 집단들이 중첩된 경우에도 안정적으로 집단들을 찾아낼 수 있다. 이러한 점들은 일련의 실험을 통해서 확인할 수 있으며, 제안한 방법들이 기존의 방법들에 비해 나은 성능을 보임을 확인할 수 있다.

변환 영역에서 Non-local Means 방법을 이용한 효율적인 영상 잡음 제거 기법 (Efficient Image Denoising Method Using Non-local Means Method in the Transform Domain)

  • 김동민;이창우
    • 전자공학회논문지
    • /
    • 제53권10호
    • /
    • pp.69-76
    • /
    • 2016
  • 본 논문에서는 변환 영역에서 non-local means (NL-means) 방법을 이용한 효율적인 영상 잡음 제거 기법을 제안한다. 먼저 고전적인 영상 잡음 제거 기법에서부터 최근 연구되고 있는 영상 잡음 제거 기법에 대한 리뷰를 서술하고 우수한 성능을 보이는 잡음 제거 기법인 NL-means 방법을 이용한 영상 잡음 제거 기법에 대한 성능을 분석한다. NL-means 기법의 가중치를 DCT 및 LiftLT 변환 영역에서 일부 계수만을 이용하여 계산함으로써 NL-means 기법을 효율적으로 구현하는 방법을 제안한다. 제안하는 방법은 계산량을 줄여서 영상 잡음을 효율적으로 제거할 수 있을 뿐만 아니라 변환 영역에서 영상의 특성을 효율적으로 이용하여 잡음 제거시 성능을 향상시킨다. 또한 제안하는 기법은 변환 영역에서 영상의 잡음 제거와 해상도 향상을 동시에 수행할 때 효율적으로 적용할 수 있는 장점이 있다. 모의 실험을 통하여 제안하는 방법이 우수한 성능을 보이는 것을 입증한다.

맵리듀스를 이용한 다중 중심점 집합 기반의 효율적인 클러스터링 방법 (An Efficient Clustering Method based on Multi Centroid Set using MapReduce)

  • 강성민;이석주;민준기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.494-499
    • /
    • 2015
  • 데이터 사이즈가 증가함에 따라서 대용량 데이터를 분석하여 데이터의 특성을 파악하는 것이 매우 중요해졌다. 본 논문에서는 분산 병렬 처리 프레임워크인 맵리듀스를 활용한 k-Means 클러스터링 기반의 효과적인 클러스터링 기법인 MCSK-Means (Multi centroid set k-Means)알고리즘을 제안한다. k-Means 알고리즘은 임의로 정해지는 k개의 초기 중심점들의 위치에 따라서 클러스터링 결과의 정확도가 많은 영향을 받는 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여, 본 논문에서 제안하는 MCSK-Means 알고리즘은 k개의 중심점들로 이루어진 m개의 중심점 집합을 사용하여 임의로 생성되는 초기 중심점의 의존도를 줄였다. 또한, 클러스터링 단계를 거친 m개의 중심점 집합들에 속한 중심점들에 대하여 직접 계층 클러스터링 알고리즘을 적용하여 k개의 클러스터 중심점들을 생성하였다. 본 논문에서는 MCSK-Means 알고리즘을 맵리듀스 프레임워크 환경에서 개발하여 대용량 데이터를 효율적으로 처리할 수 있도록 하였다.

Environmental Survey Data Modeling Using K-means Clustering Techniques

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권3호
    • /
    • pp.557-566
    • /
    • 2005
  • Clustering is the process of grouping the data into clusters so that objects within a cluster have high similarity in comparison to one another. In this paper we used k-means clustering of several clustering techniques. The k-means Clustering Is classified as a partitional clustering method. We analyze 2002 Gyeongnam social indicator survey data using k-means clustering techniques for environmental information. We can use these outputs given by k-means clustering for environmental preservation and environmental improvement.

  • PDF