• 제목/요약/키워드: K-Means Clustering 알고리즘

검색결과 333건 처리시간 0.026초

새로운 고속 EM 알고리즘 (A New Fast EM Algorithm)

  • 김성수;강지혜
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권10호
    • /
    • pp.575-587
    • /
    • 2004
  • 본 논문은 여러 분야에서 활용될 수 있는 향상된 고속 Expectation-Maximization(FEM) 알고리즘을 제안한다. 첫째, EM의 초기값 설정의 방법으로 많이 사용되고 있는 클러스터링 기법인 K-means의 문제점을 해결하여 개선된 EM의 초기값 선정에 적용하였다. 이것은 기존 K-means 알고리즘에서 임의로 지정하던 랜덤한 초기값 선정을, 데이타 분포 특성을 이용한 균등 분할법을 사용하여 EM의 초기값 문제를 해결하였다. 둘째, EM 과정의 핵심을 이루는 후행 확률(Posterior)의 의미를 부각하여 최대 가능성 후행 확률(Maximum Likelihood Posterior: MLP)과정을 적용하였다. 최종적으로, 본 논문에서 제안한 고속 EM알고리즘(FEM)은 근본적으로 해결하기 못했던 기존의 EM 초기치 선정과 수렴에 대한 문제점을 개선함으로써, EM 알고리즘의 특성을 극대화하는 방향으로 상대적으로 마른 수렴과 향상된 결과를 가져온다. 제안된 알고리즘의 객관적 타당성을 위해 기존의 방법과 제안된 방법에 의한 시뮬레이션의 결과를 여러 데이타들을 가지고 비교 분석하여 제안한 알고리즘의 우수성을 입증하였다.

Multi-Feature Clustering을 이용한 강인한 내용 기반 음악 장르 분류 시스템에 관한 연구 (A Study on the Robust Content-Based Musical Genre Classification System Using Multi-Feature Clustering)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.115-120
    • /
    • 2005
  • 본 논문에서는 multi-feature clustering(MFC) 방법을 이용한 강인한 내용 기반 음악 장르 분류 알고리즘을 제안한다. 기존 연구와 비교하여 본 논문에서는 입력 질의 패턴(또는 구간)과 입력 질의 길이의 변화에 따라 나타나는 불안정한 시스템 성능을 개선하는데 노력하였고, k-means clustering 기법에 기반한 multi-feature clustering(MFC)이라는 새로운 알고리즘을 제안하였다. 제안된 시스템의 성능을 검증하기 위해 질의 음악 파일의 서로 다른 여러 구간에서 질의 길이를 다변화하여 음악 특징 계수를 추출하였고, MFC 방법을 사용한 시스템과 MFC 방법을 사용하지 않은 시스템에 대한 장르 분류 성공률을 비교하여 제안 알고리즘의 성능을 비교${\cdot}$분석하였다. 모의실험 결과 MFC 방법을 사용한 시스템의 장르 분류 성공률이 높게 나타났고, 시스템의 안정성 역시 높게 나타났다.

2단계 k-평균 군집화를 활용한 한류컨텐츠 기업 주가 예측 연구 (A Study On Predicting Stock Prices Of Hallyu Content Companies Using Two-Stage k-Means Clustering)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.169-179
    • /
    • 2021
  • 본 연구는 기존의 k-평균 군집화를 활용한 2단계 k-평균 군집화 방법을 사용하여 한류콘텐츠 기업들의 주식가격을 예측함으로써 본 기법이 예측성능을 개선할 수 있음을 보이고자 하였다. 이를 위하여 본 연구는 2단계 k-평균 군집화의 알고리즘을 소개하고, 다양한 머신러닝 기법들과의 예측값 비교를 통하여 본 기법의 예측성능을 검증하였다. 본 기법은 기존의 k-평균 군집화로부터 얻어진 군집들 중에서 예측 대상에 근접한 군집을 추출하고 이 군집에 k-평군 군집화 방법을 다시 적용하여 실제 값에 보다 근접한 군집을 탐색하는 방식이다. 본 기법을 한류콘텐츠 기업들의 주가 시계열 자료에 적용한 결과, 다른 머신러닝 기법의 예측값들보다 실제 주식가격에 근접한 예측값을 나타내어, 기존의 k-평균 군집화 방법보다 개선된 예측성능을 보였다. 또한, 본 기법은 상대적으로 적은 크기의 군집을 사용함에도 불구하고 비교적 안정적인 예측값을 나타내었다. 이에 따라, 2단계 k-평균 군집화 기법은 예측의 정확성과 안정성을 동시에 개선할 수 있으며, 소규모 자료에도 유용할 수 있는 새로운 군집화 방식을 제시했다고 볼 수 있다. 향후에는 본 기법을 발전시켜 대규모 자료에도 적용하는 방안을 검토하는 연구가 요구된다.

외부 군집 연관 기준 정보를 이용한 군집수 최적화 (A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion)

  • 이현진;지태창
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권3호
    • /
    • pp.339-345
    • /
    • 2011
  • 군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법이다. k-means는 간단하고 빠른 군집화 알고리즘 중의 하나이다. 군집의 수 k는 군집화를 수행하는데 매우 중요한 요소이며, k의 값에 의해 군집화 결과가 달라진다. 본 논문에서는 반복적인 k-means 수행과 군집의 품질을 평가하는 외부 군집 연관 기준 정보를 결합하여 최적의 군집수를 결정하는 방법을 제안한다. 실험 결과 기존의 방법들에 비하여 제안하는 방법이 군집수의 정확성 측면에서 우수한 성능을 보였다.

클러스터 타당성 평가기준을 이용한 최적의 클러스터 수 결정을 위한 고속 탐색 알고리즘 (Fast Search Algorithm for Determining the Optimal Number of Clusters using Cluster Validity Index)

  • 이상욱
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.80-89
    • /
    • 2009
  • 클러스터링 알고리즘에서 최적의 클러스터 수를 결정하기 위한 효율적인 고속 탐색 알고리즘을 소개한다. 제안하는 방법은 클러스터링 적합도의 척도로 사용되는 클러스터 타당성 평가기준을 토대로 한다. 데이터 집합에 클러스터링 프로세스를 진행하여 최적의 클러스터 형상에 도달하게 되면 클러스터 타당성 평가기준은 최대 혹은 최소값을 가질 것으로 기대한다. 본 논문에서는 최적의 클러스터 개수를 찾기 위한 고속의 비소모적 탐색 방법을 설계하고 실제 클러스터링과 접목한다. 제안하는 알고리즘은 k-means++ 클러스터링 알고리즘에 적용하였고, 클러스터 타당성 평가기준으로써 CB 및 PBM 타당성 평가기준 방법을 사용하였다. 몇몇의 가상 데이터 집합과 실제 데이터 집합에 실험한 결과, 제안하는 방법은 정확도의 손실 없이 계산 효율을 획기적으로 증가시킴을 보여주었다.

인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석 (Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence)

  • 이서경;김동수;김경동;김영도;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

계층 구조 클러스터링 알고리즘 설계 및 그 응용 (Design of Hierarchically Structured Clustering Algorithm and its Application)

  • 방영근;박하용;이철희
    • 산업기술연구
    • /
    • 제29권B호
    • /
    • pp.17-23
    • /
    • 2009
  • In many cases, clustering algorithms have been used for extracting and discovering useful information from non-linear data. They have made a great effect on performances of the systems dealing with non-linear data. Thus, this paper presents a new approach called hierarchically structured clustering algorithm, and it is applied to the prediction system for non-linear time series data. The proposed hierarchically structured clustering algorithm (called HCKA: Hierarchical Cross-correlation and K-means clustering Algorithms) in which the cross-correlation and k-means clustering algorithm are combined can accept the correlationship of non-linear time series as well as statistical characteristics. First, the optimal differences of data are generated, which can suitably reveal the characteristics of non-linear time series. Second, the generated differences are classified into the upper clusters for their predictors by the cross-correlation clustering algorithm, and then each classified differences are classified again into the lower fuzzy sets by the k-means clustering algorithm. As a result, the proposed method can give an efficient classification and improve the performance. Finally, we demonstrates the effectiveness of the proposed HCKA via typical time series examples.

  • PDF

최대 전송횟수 제한 및 사용자 밀집도 변화에 따른 사용자 클러스터링 알고리즘 별 D2D 광고 확산 성능 분석 (Performance Analysis of User Clustering Algorithms against User Density and Maximum Number of Relays for D2D Advertisement Dissemination)

  • 한세호;김준선;이호원
    • 한국정보통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.721-727
    • /
    • 2016
  • 본 논문에서는 기존 알고리즘에서의 특정 D2D 사용자 분포에 대한 광고확산 효율 저하 문제를 해결하기 위해, D2D 통신 네트워크에서 광고확산 효율을 개선하는 광고확산 알고리즘 기반의 Modified Single Linkage, K-means, 그리고 Gaussian mixture model을 적용한 Expectation Maximization 클러스터링 알고리즘의 적용이 제안되었다. 제안된 클러스터링 알고리즘들을 통해 광고 확산을 위한 목표지역들이 목표그룹으로 클러스터링되고 이를 통해 D2D 전송 단말과 수신 단말 사이의 거리를 기반으로 광고 확산 경로 설정 알고리즘과 릴레이 단말 설정 알고리즘이 적용되어 광고가 연속적으로 전파된다. 본 논문에서는 MATLAB 시뮬레이션을 통해 각 알고리즘의 최대 D2D 릴레이 제한 수와 목표지역과 비목표지역의 사용자 밀집도의 비에 따른 성능을 비교 분석한다.

고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링 (Efficient K-means Clustering for High-dimensional Large Data)

  • 윤태식;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.33-36
    • /
    • 2011
  • 클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

Edge Computing 환경에서의 PCA를 이용한 Dimensionality 감축 기법 (Dimensionality Reduction Using PCA for Edge Computing)

  • 임환희;김세준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.95-96
    • /
    • 2018
  • Edge Computing은 Cloud Computing의 단점을 보완하기 위해 등장 하였으나, 자원 제한을 가지고 있는 Edge Node에서 데이터 분석 및 처리해야 하는 문제점이 있다. 이를 해결하기 위해 K-means clustering 알고리즘과 PCA 기법을 이용해 차원 추축을 이용한 계산비용과 처리시간을 줄이는 기법을 제안하였다. PCA란, 차원 축소 및 데이터 압축에 사용되는 기계학습 알고리즘 중 하나이며, 데이터에서 중요한 정보만 추출해 차원을 줄일 수 있다. 이를 통해 제안한 기법이 기존의 Reduction first clustering second(RFCS) 기법에 비해 성능이 우수한 것을 확인할 수 있었다.

  • PDF