• Title/Summary/Keyword: 계층적 클러스터링

Search Result 244, Processing Time 0.036 seconds

A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering (중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가)

  • Jeon, Joon-Woo;Song, Kwang-Ho;Kim, Yoo-Sung
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

A Heuristic Leaf Ordering Algorithm for Hierarchical Clustering of DNA Microarray Data (DNA 마이크로어레이 데이터의 계층적 클러스터링에 대한 리프오더링 알고리즘 개발)

  • 여상수;이정원;김성권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.706-708
    • /
    • 2002
  • DNA 마이크로어레이 실험으로 나온 데이터들을 클러스터링하는 것은 유전자의 기능과 유전자의 네트워크를 파악해 나가는데 도움을 주게 된다. 계층적 클러스터링(hierarchical clustering) 방법은 그러한 실험 분석에서 가장 보편적으로 사용되는 방법이다. 본 논문에서는 계층적 클러스터링을 통해서 나온 결과 트리에 대해서, 트리의 리프 노드들을 재배열함으로써, 인접한 리프 노드들간의 거리의 종합이 최소가 되도록 하는 문제인 리프오더링 방법을 다루었고, 새로운 리프오더링 알고리즘을 제안하였다. 그리고, 이를 포함한 여러 리프오더링 방법들에 대한 실험 및 생물학적인 분석을 하였다.

  • PDF

Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm (K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정)

  • Lee, Shin-Won;An, Dong-Un;Chong, Sung-Jong
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.4 s.54
    • /
    • pp.173-185
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. In this paper, Condor system using K-Means algorithm Compares with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.

A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering (중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가)

  • Jeon, Joon-Woo;Song, Kwang-Ho;Kim, Yoo-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교 실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information (의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링)

  • 강동혁;주길홍;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.175-177
    • /
    • 2001
  • 기존의 문서 클러스터링 알고리즘은 모든 문서가 각각 하나의 클러스터에만 할당되도록 설계되어 문서에 여러 개의 주제가 포함되어 있을지라도 문서는 유사도 비교에 의해 오직 하나의 플러스터에 포함된다는 단점이 있다. 본 연구에서는 이러한 문서 플러스터링 방법의 한계를 파악하기 위해 문서가 여러 개의 클러스터에 포함될 수 있는 계층적 중복 문서 클러스터링을 제안한다. 또한, 문서 클러스터링의 정확도를 높이기 위해서 불용어 제거 알고리즘을 이용해 불용어를 제거하여 클러스터링에 사용되는 키워드를 선별하고, 단어가중치 산출을 위한 TF*NHDF 공식을 제안한다.

  • PDF

Neuro-Fuzzy model ins using the Hierarchical Clustering (계층적 클러스터링을 이용한 뉴로-퍼지 모델링)

  • 김승석;곽근창;유정웅;전명근
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.279-282
    • /
    • 2002
  • 본 논문에서는 뉴로-퍼지 모델에서 입력 공간의 효율적인 분할을 위하여 계층적 클러스터링방법을 이용하고 있다. 기존의 HCM, FCM 등에서 초기치를 임의로 선택함으로써 데이터의 클러스터를 생성하였으나 제안된 방법은 계층적인 클러스터링을 이용하여 각 데이터간의 정보를 이용하여 클러스터링을 좀더 일반화하였다. 임의로 주어진 초기치에 의하여 클러스터의 형태가 바뀔 수 있는 문제점을 각각의 데이터 정보를 이용함으로써 이러한 문제를 해결하고자 하였다. 이를 자동차 연료 예측 문제에 적용하여 제안된 방법의 유용성을 보이고자 한다.

Similarity-based Image Clustering Method using Hierarchical Clustering Technique (다단계 클러스터링 기법을 이용한 이미지 클러스터링 기법에 관한 연구)

  • 한정규;김석대;황수찬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.707-709
    • /
    • 2003
  • 본 논문에서는 유사도(similarity) 기반 이미지 클러스터링 기법에 대하여 논하고자 한다. 비트맵 이미지의 특징을 추출하고 이러한 특징에 기반한 유사도 측정 함수들을 소개하고 이미지 클러스터링 알고리즘과 구현을 통한 실험 예제들에 대해서 설명한다. 이 실험에서 우리는 유사도에 따라 이미지들이 계층적(Hierarchical)으로 집단화 되는 계층적 클러스터링 알고리즘을 사용하였다. 이미지의 특징 표현을 위해서는 HSV 기반의 히스토그램을 이용하였다. 본 논문에서 제안한 기법의 실험 결과는 이미지 데이터베이스에서 유사한 이미지를 검색하는데 높은 효율성이 있는 것을 보여준다.

  • PDF

A Hierarchical Clustering for Browsing Retrieval Results (검색결과의 브라우징을 위한 계층적 클러스터링)

  • 윤보현;김현기;노대식;강현규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.342-344
    • /
    • 2000
  • 대부분 웹 검색엔진들의 검색결과로 수십 혹은 수백만건의 문서가 제시되어 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 검색 결과의 브라우징을 위한 검색 결과 문서에 대한 자동 클러스터링 방법을 제안한다. 문서간 유사도를 계산하기 위해 공통 키워드 빈도를 이용하고, 클러스터링 방법은 계층적 클러스터링을 사용하고, 각 클러스터에 대한 디스트립터를 추출하기 위해 빈도를 이용한다. 실험 결과, 완전 연결 방법이 가장 나은 정확도를 보였지만 계산시간이 많이 소요되어 동적 환경에 부적합하다는 것을 보였다. 아울러 집단 평균 연결이 정확도나 계산 시간 측면에서 우수함을 알수 있었다.

  • PDF

Development of Clustering Algorithm and Tool for DNA Microarray Data (DNA 마이크로어레이 데이타의 클러스터링 알고리즘 및 도구 개발)

  • 여상수;김성권
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.30 no.10
    • /
    • pp.544-555
    • /
    • 2003
  • Since the result data from DNA microarray experiments contain a lot of gene expression information, adequate analysis methods are required. Hierarchical clustering is widely used for analysis of gene expression profiles. In this paper, we study leaf-ordering, which is a post-processing for the dendrograms output by hierarchical clusterings to improve the efficiency of DNA microarray data analysis. At first, we analyze existing leaf-ordering algorithms and then present new approaches for leaf-ordering. And we introduce a software HCLO(Hierarchical Clustering & Leaf-Ordering Tool) that is our implementation of hierarchical clustering, some of existing leaf-ordering algorithms and those presented in this paper.

A Study of Incremental Clustering Technique based on Ontology (온톨로지 기반 점진적 클러스터링 기법에 관한 연구)

  • Kim Je-Min;Park Young-Tack
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.643-645
    • /
    • 2005
  • 클러스터링은 무질서한 데이터들의 상호 연관 관계를 정의하고, 이를 통하여 보다 체계적으로 데이터를 군집화하는 것이다. 클러스터링을 적용한 웹 서비스 시스템은 비슷한 내용을 묶어 제공하기 때문에 사용자는 보다 효율적으로 정보를 제공받을 수 있다. 시멘틱 웹의 기반이 되는 온톨로지는 클러스터링을 위한 완벽한 입력 데이터를 제공한다. 본 논문은 온톨로지를 기반의 메타 데이터를 클러스터링 하기 위한 기법을 제안한다. 본 논문의 목적은 온톨로지 기반의 메타 데이터들의 유사성을 측정하기 위한 평가함수를 정의하고, 이러한 평가함수를 적용한 계층적 클러스터링 알고리즘을 연구하는 것이다.

  • PDF