• Title/Summary/Keyword: k-means 군집 기법

Search Result 153, Processing Time 0.033 seconds

Comparison of Document Clustering Performance Using Various Dimension Reduction Methods (다양한 차원 축소 기법을 적용한 문서 군집화 성능 비교)

  • Cho, Heeryon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.437-438
    • /
    • 2018
  • 문서 군집화 성능을 높이기 위한 한 방법으로 차원 축소를 적용한 문서 벡터로 군집화를 실시하는 방법이 있다. 본 발표에서는 특이값 분해(SVD), 커널 주성분 분석(Kernel PCA), Doc2Vec 등의 차원 축소 기법을, K-평균 군집화(K-means clustering), 계층적 병합 군집화(hierarchical agglomerative clustering), 스펙트럼 군집화(spectral clustering)에 적용하고, 그 성능을 비교해 본다.

K-Means Clustering in the PCA Subspace using an Unified Measure (통합 측도를 사용한 주성분해석 부공간에서의 k-평균 군집화 방법)

  • Yoo, Jae-Hung
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.4
    • /
    • pp.703-708
    • /
    • 2022
  • K-means clustering is a representative clustering technique. However, there is a limitation in not being able to integrate the performance evaluation scale and the method of determining the minimum number of clusters. In this paper, a method for numerically determining the minimum number of clusters is introduced. The explained variance is presented as an integrated measure. We propose that the k-means clustering method should be performed in the subspace of the PCA in order to simultaneously satisfy the minimum number of clusters and the threshold of the explained variance. It aims to present an explanation in principle why principal component analysis and k-means clustering are sequentially performed in pattern recognition and machine learning.

Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence (인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석)

  • Lee, Seo Gyeong;Kim, Dongsu;Kim, Kyungdong;Kim, Young Do;Lyu, Siwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

A Personalized Music Recommendation System with a Time-weighted Clustering (시간 가중치와 가변형 K-means 기법을 이용한 개인화된 음악 추천 시스템)

  • Kim, Jae-Kwang;Yoon, Tae-Bok;Kim, Dong-Moon;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.4
    • /
    • pp.504-510
    • /
    • 2009
  • Recently, personalized-adaptive services became the center of interest in the world. However the services about music are not widely diffused out. That is because the analyzing of music information is more difficult than analyzing of text information. In this paper, we propose a music recommendation system which provides personalized services. The system keeps a user's listening list and analyzes it to select pieces of music similar to the user's preference. For analysis, the system extracts properties from the sound wave of music and the time when the user listens to music. Based on the properties, a piece of music is mapped into a point in the property space and the time is converted into the weight of the point. At this time, if we select and analyze the group which is selected by user frequently, we can understand user's taste. However, it is not easy to predict how many groups are formed. To solve this problem, we apply the K-means clustering algorithm to the weighted points. We modified the K-means algorithm so that the number of clusters is dynamically changed. This manner limits a diameter so that we can apply this algorithm effectively when we know the range of data. By this algorithm we can find the center of each group and recommend the similar music with the group. We also consider the time when music is released. When recommending, the system selects pieces of music which is close to and released contemporarily with the user's preference. We perform experiments with one hundred pieces of music. The result shows that our proposed algorithm is effective.

Cluster-based keyword Ranking Technique (클러스터 기반 키워드 랭킹 기법)

  • Yoo, Han-mook;Kim, Han-joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.529-532
    • /
    • 2016
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 13% 가량 개선됨을 보인다.

A Load Balancing Scheme for Distributed SDN Based on Harmony Search with K-means Clustering (K-means 군집화 및 Harmony Search 알고리즘을 이용한 분산 SDN의 부하 분산 기법)

  • Kim, Se-Jun;Yoo, Seung-Eon;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.29-30
    • /
    • 2019
  • 본 논문에서는 다중 컨트롤러가 존재하는 분산 SDN 환경에서 과도한 제어 메시지로 인한 과부하된 컨트롤러의 부하를 줄이기 위하여 이주할 스위치를 K-means 군집화와 Harmony Search(HS)를 기반으로 선정 하는 기법을 제안하였다. 기존에 HS를 이용하여 이주할 스위치를 선택하는 기법이 제시되었으나, 시간 소모에 비하여 정확도가 부족한 단점이 있다. 또한 Harmony Memory(HM) 구축을 위해 메모리 소모 또한 크다. 이를 해결하기 위하여 본 논문에서는 유클리드 거리를 기반으로 하는 K-means 군집화를 이용하여 이주할 스위치를 골라내어 HM의 크기를 줄이고 이주 효율을 향상 시킨다.

  • PDF

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • 박민재;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.

Document Clustering Technique by K-means Algorithm and PCA (주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법)

  • Kim, Woosaeng;Kim, Sooyoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.3
    • /
    • pp.625-630
    • /
    • 2014
  • The amount of information is increasing rapidly with the development of the internet and the computer. Since these enormous information is managed by the document forms, it is necessary to search and process them efficiently. The document clustering technique which clusters the related documents through the similarity between the documents help to classify, search, and process the large amount of documents automatically. This paper proposes a method to find the initial seed points through principal component analysis when the documents represented by vectors in the feature vector space are clustered by K-means algorithm in order to increase clustering performance. The experiment shows that our method has a better performance than the traditional K-means algorithm.

Sensor Data Standardization using K-means Clustering in Distributed-Gateway System (분산 게이트웨이 환경에서의 K-means Clustering을 이용한 센서 데이터 평준화 기법)

  • Lee, Tae-Ho;Lim, Hwan-Hee;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.195-196
    • /
    • 2018
  • 본 논문에서는 IIoT(Industrial IoT) 환경에서 사용되는 각 종 센서의 특성을 고려하여 K-means clustering을 이용해 측정 주기에 따른 군집화를 통해 평준화함으로써 센서에서 게이트웨이로의 데이터 전송 시 일어날 수 있는 1:1 독점 통신 현상 및 작업부하를 해결 할 수 있는 기법을 제안한다. 본 논문에서는 해당 기법의 효율을 보다 극대화할 수 있는 분산 게이트웨이 환경에서 실험을 진행하였으며, 해당 실험의 결과에 따르면 분산 게이트웨이 시스템에서 사용되는 게이트웨이들의 작업부하가 현저히 낮아졌고 각 종 센서들이 할당되는 빈도수가 일정하게 나타남으로써 신뢰성과 정확성을 확보에 보다 우수함을 보인다.

  • PDF

A Study of the Fuzzy Clustering Algorithm using a Growth Curve Model (성장곡선을 이용한 퍼지군집분석 기법의 연구)

  • 김응환;이석훈
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.439-448
    • /
    • 2001
  • 본 연구는 시간자료(Longitudinal data)의 분석을 위하여 Fuzzy k-means 군집분석 방법을 확장한 알고리즘을 제안한다. 이 논문에서 제안하는 군집분석방법은 각각의 개체에 대응하는 성장곡선에 Fuzzy k-means 군집분석의 알고리즘을 결합하는 것을 핵심아이디어로한다. 분석결과는 생성된 군집을 성장곡선모형으로 표현할 수 있고 또한 추정된 모형의 식을 활용하여 새로운 개체를 분류도 할수 있음을 보인다. 그리고 이 군집분석방법은 아직 자라지 않은 나이 어린 개체가 미래에 어느 군집에 속할 것인가 하는 분류와 함께 이 개체의 향후 성장상태를 예측을 하는 데에도 적용이 가능하다. 제안된 알고리즘을 원숭이(macaque)의 상악동(maxillary sinus)의 자료에 적용한 실례로 보인다.

  • PDF