• Title/Summary/Keyword: k-means 군집 알고리즘

Search Result 191, Processing Time 0.025 seconds

A Study of the Fuzzy Clustering Algorithm using a Growth Curve Model (성장곡선을 이용한 퍼지군집분석 기법의 연구)

  • 김응환;이석훈
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.439-448
    • /
    • 2001
  • 본 연구는 시간자료(Longitudinal data)의 분석을 위하여 Fuzzy k-means 군집분석 방법을 확장한 알고리즘을 제안한다. 이 논문에서 제안하는 군집분석방법은 각각의 개체에 대응하는 성장곡선에 Fuzzy k-means 군집분석의 알고리즘을 결합하는 것을 핵심아이디어로한다. 분석결과는 생성된 군집을 성장곡선모형으로 표현할 수 있고 또한 추정된 모형의 식을 활용하여 새로운 개체를 분류도 할수 있음을 보인다. 그리고 이 군집분석방법은 아직 자라지 않은 나이 어린 개체가 미래에 어느 군집에 속할 것인가 하는 분류와 함께 이 개체의 향후 성장상태를 예측을 하는 데에도 적용이 가능하다. 제안된 알고리즘을 원숭이(macaque)의 상악동(maxillary sinus)의 자료에 적용한 실례로 보인다.

  • PDF

Efficient K-means Clustering for High-dimensional Large Data (고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링)

  • Yoon, Tae-Sik;Shim, Kyu-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.33-36
    • /
    • 2011
  • 클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

XML Document Clustering Technique by K-means algorithm through PCA (주성분 분석의 K 평균 알고리즘을 통한 XML 문서 군집화 기법)

  • Kim, Woo-Saeng
    • The KIPS Transactions:PartD
    • /
    • v.18D no.5
    • /
    • pp.339-342
    • /
    • 2011
  • Recently, researches are studied in developing efficient techniques for accessing, querying, and storing XML documents which are frequently used in the Internet. In this paper, we propose a new method to cluster XML documents efficiently. We use a K-means algorithm with a Principal Component Analysis(PCA) to cluster XML documents after they are represented by vectors in the feature vector space by transferring them as names and levels of the elements of the corresponding trees. The experiment shows that our proposed method has a good result.

Analysis of COVID-19 Context-awareness based on Clustering Algorithm (클러스터링 알고리즘기반의 COVID-19 상황인식 분석)

  • Lee, Kangwhan
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.5
    • /
    • pp.755-762
    • /
    • 2022
  • This paper propose a clustered algorithm that possible more efficient COVID-19 disease learning prediction within clustering using context-aware attribute information. In typically, clustering of COVID-19 diseases provides to classify interrelationships within disease cluster information in the clustering process. The clustering data will be as a degrade factor if new or newly processing information during treated as contaminated factors in comparative interrelationships information. In this paper, we have shown the solving the problems and developed a clustering algorithm that can extracting disease correlation information in using K-means algorithm. According to their attributes from disease clusters using accumulated information and interrelationships clustering, the proposed algorithm analyzes the disease correlation clustering possible and centering points. The proposed algorithm showed improved adaptability to prediction accuracy of the classification management system in terms of learning as a group of multiple disease attribute information of COVID-19 through the applied simulation results.

Effective User Clustering Algorithm for Collaborative Filtering System (협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘)

  • Go, Su-Jeong;Im, Gi-Uk;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.2
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF

A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion (외부 군집 연관 기준 정보를 이용한 군집수 최적화)

  • Lee, Hyun-Jin;Jee, Tae-Chang
    • Journal of Digital Contents Society
    • /
    • v.12 no.3
    • /
    • pp.339-345
    • /
    • 2011
  • The k-means has been one of the popular, simple and faster clustering algorithms, but the right value of k is unknown. The value of k (the number of clusters) is a very important element because the result of clustering is different depending on it. In this paper, we present a novel algorithm based on an external cluster relationship criterion which is an evaluation metric of clustering result to determine the number of clusters dynamically. Experimental results show that our algorithm is superior to other methods in terms of the accuracy of the number of clusters.

A Search-Result Clustering Method based on Word Clustering for Effective Browsing of the Paper Retrieval Results (논문 검색 결과의 효과적인 브라우징을 위한 단어 군집화 기반의 결과 내 군집화 기법)

  • Bae, Kyoung-Man;Hwang, Jae-Won;Ko, Young-Joong;Kim, Jong-Hoon
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.3
    • /
    • pp.214-221
    • /
    • 2010
  • The search-results clustering problem is defined as the automatic and on-line grouping of similar documents in search results returned from a search engine. In this paper, we propose a new search-results clustering algorithm specialized for a paper search service. Our system consists of two algorithmic phases: Category Hierarchy Generation System (CHGS) and Paper Clustering System (PCS). In CHGS, we first build up the category hierarchy, called the Field Thesaurus, for each research field using an existing research category hierarchy (KOSEF's research category hierarchy) and the keyword expansion of the field thesaurus by a word clustering method using the K-means algorithm. Then, in PCS, the proposed algorithm determines the category of each paper using top-down and bottom-up methods. The proposed system can be used in the application areas for retrieval services in a specialized field such as a paper search service.

Context-awareness User Analysis based on Clustering Algorithm (클러스터링 알고리즘기반의 상황인식 사용자 분석)

  • Lee, Kang-whan
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.7
    • /
    • pp.942-948
    • /
    • 2020
  • In this paper, we propose a clustered algorithm that possible more efficient user distinction within clustering using context-aware attribute information. In typically, the data provided to classify interrelationships within cluster information in the process of clustering data will be as a degrade factor if new or newly processing information is treated as contaminated information in comparative information. In this paper, we have developed a clustering algorithm that can extract user's recognition information to solve this problem in using K-means algorithm. The proposed algorithm analyzes the user's clustering attributed parameters from user clusters using accumulated information and clustering according to their attributes. The results of the simulation with the proposed algorithm showed that the user management system was more adaptable in terms of classifying and maintaining multiple users in clusters.

Initial Seed Generation for Constrained K-means (제약된 K-means를 위한 초기 씨드 생성방법)

  • Seo, Hyang-Suk;Kang, Jae-Ho;Ryu, Kwang-Ryel
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.283-286
    • /
    • 2003
  • 군집화 시 일반적으로 개별 클래스(class) 혹은 카테고리(category) 당 하나의 군집이 형성되는 결과가 선호된다. 하지만 데이터가 비정형적인 분포를 따르는 경우에는 하나의 군집으로 개별 클래스를 온전히 표현하는 것이 불가능하거나 오히려 부자연스러운 경우가 발생할 수 있다. 본 논문에서는 예제의 클래스를 알고 있는 즉, 레이블(label)된 예제들을 그렇지 않은(unlabeled) 예제들과 함께 활용하여 군집화하는 제약된 K-means (constrained K-means) 알고리즘을 위하여 보다 자연스러운 형태의 군집이 형성될 수 있도록 초기 씨드(seed, 씨앗)를 생성하는 방안을 제안한다. 레이블된 예제들을 계층적으로 군집화하면 다양한 단계에서 제약된 K-means를 위한 씨드집합을 생성할 수 있다. 본 연구에서는 각 단계의 씨드집합을 기반으로 형성된 군집결과간의 변화정도를 측정하여 가장 적절한 것으로 추정되는 씨드집합을 선정하였다. 제안한 방안을 문서 군집화 문제에 적용하여 실험한 결과 개별 클래스마다 하나의 군집을 가정하는 경우보다 더 나은 군집을 형성할 수 있음을 확인하였다.

  • PDF

Guassian pdfs Clustering Using a Divergence Measure-based Neural Network (발산거리 기반의 신경망에 의한 가우시안 확률 밀도 함수의 군집화)

  • 박동철;권오현
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.627-631
    • /
    • 2004
  • An efficient algorithm for clustering of GPDFs(Gaussian Probability Density Functions) in a speech recognition model is proposed in this paper. The proposed algorithm is based on CNN with the divergence as its distance measure and is applied to a speech recognition. The algorithm is compared with conventional Dk-means(Divergence-based k-means) algorithm in CDHMM(Continuous Density Hidden Markov Model). The results show that it can reduce about 31.3% of GPDFs over Dk-means algorithm without suffering any recognition performance. When compared with the case that no clustering is employed and full GPDFs are used, the proposed algorithm can save about 61.8% of GPDFs while preserving the recognition performance.