• 제목/요약/키워드: 군집화 유효성 지수

검색결과 12건 처리시간 0.026초

합형식의 군집 유효화 지수의 분석과 새로운 지수 개발 (Analysis and New Indices of Cluster Validity Indices in Summation Type)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.598-600
    • /
    • 2005
  • 군집 유효화 평가란 기본적으로 클래스 (Class)에 대한 정보가 주어지지 않은 상태에서 다양한 입력 변수에 의해 발생되는 군집화의 결과들을 평가하여 그들 중에서 주어진 데이터 집합의 자연적인 분할 상태에 가장 적합한 결과를 찾는 기법을 말한다. 군집 유효화 평가에서 그 척도로 사용되는 것이 군집 유효화 지수이다. 본 논문에서는 우선 현존하는 다양한 군집 유효화 지수들 중에서 합 형식을 가지는 지수들을 다룬다. 구체적으로 이 지수들의 설계 원리와 각 지수들의 부합성 (Compliance) 분석한다. 다음으로 분석을 통해 밝혀진 그들의 단점을 보완할 수 있는 새로운 군집 유효화 지수들을 제안한다. 마지막으로 기존의 군집 유효화 지수들을 포함한 새로이 제안한 지수들의 성능을 실험 학습을 통해 평가한다.

  • PDF

고차원 응용에서의 군집 유효성 평가 기법 (Cluster Validity Assessment Techniques for High-Dimensional Applications)

  • 김민호;유현진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.715-717
    • /
    • 2005
  • 군집 유효성은 다양한 입력 변수에 따라 변하는 군집화 알고리즘의 결과들을 평가하는 것이다. 본 논문에서는 고차원의 데이터 집합에 대한 군집 유효성의 문제점에 대한 새로운 해결책을 제시한다. 고차원 군집화 결과들을 평가할 때 발생하는 기존의 군집 유효성 지수들의 적용성의 문제점을 살펴보고, 고차원으로 인해 발생하는 문제를 효과적으로 다룰 수 있는 다양한 새로운 군집 유효성 지수들을 제안한다. 제안된 군집 유효성 지수들은 본 논문에 제공된 실험에서 최적의 군집 유효성 결과를 제공한다.

  • PDF

비형식의 군집 유효화 지수의 분석과 새로운 지수 개발 (Analysis and New Indices of Cluster Validity Indices in Ratio Type)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.601-603
    • /
    • 2005
  • 군집 유효화 평가는 군집화 알고리즘을 진정한 의미의 비감독 학습이 가능하도록 만든다는 의미에서 그 중요성이 더해지고 있다. 본 논문에서는 이 군집 유효화 평가에 일반적으로 이용되는 군집 유효화 지수들의 설계원리를 분석하고 기존 지수들의 부합성을 분석한다. 우리는 제 (I) 부에서 합 형식의 지수들을 다루었으며, 본 논문에서는 비 형식의 지수들을 다룬다. 합형식의 CVI에서처럼 저역 필터링의 문제점을 해결하였으며, 또한, 부작용 없이 비형식의 지수들의 성능을 향상시킬 수 있는 새로운 기법을 제시한다. 새로운 지수들의 성능은 실험 학습을 통해 제시된다.

  • PDF

유효성 기반 군집화 알고리즘 (Validation-based Clustering Algorithm)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.19-21
    • /
    • 2003
  • 본 논문에서는 군집화의 가장 중요한 2가지 문제에 대한 새로운 해결책을 제시한다. 첫 번째 문제는 두 객체가 하나의 군집내에 포함될 수 있는지를 결정하는 유사 결정으로써, 이를 해결하기 위해 군집 유효화 지수에 기반한 유사 결정 기법을 제안한다. 이 기법은 정성적인 인지 과정을 정량적인 비교 결정 과정으로 바꾼다 이 기법은 본 논문에서 제안한 랜덤 군집화와 전체 군집화의 두 부분으로 구성된 유효성 기반 군집화 알고리즘의 핵심을 이루며. 기존의 않은 군집화 알고리즘에서 요구되는 복잡한 파라미터를 결정할 필요가 없어지도록 한다. 두 번째 문제는 최적 군집 수 (optimal number of clusters)를 찾는 것으로써, 이것 또한 앞에서 제안한 기법에 의해서 전체 군집화에서 찾을 수 있다. 마지막으로 제안한 기법과 군집화 알고리즘의 효용성 및 효율성을 보여주는 실험 결과가 제시된다.

  • PDF

AMI로부터 측정된 전력사용데이터에 대한 군집 분석 (Clustering load patterns recorded from advanced metering infrastructure)

  • 안효정;임예지
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.969-977
    • /
    • 2021
  • 본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.

범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술 (Entropy-based Clustering Validation Technique for Categorical Data Sets)

  • 박남현;안창욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.477-480
    • /
    • 2004
  • 본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

  • PDF

효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교 (Comparison of clustering with yeast microarray gene expression data)

  • 이경아;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.741-753
    • /
    • 2011
  • 마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

효모 마이크로어레이 유전자 발현데이터에 대한 가우시안 과정 회귀를 이용한 유전자 선별 및 군집화 (Screening and Clustering for Time-course Yeast Microarray Gene Expression Data using Gaussian Process Regression)

  • 김재희;김태훈
    • 응용통계연구
    • /
    • 제26권3호
    • /
    • pp.389-399
    • /
    • 2013
  • 본 연구에서는 가우시안 과정회귀방법을 소개하고 시계열 마이크로어레이 유전자 발현데이터에 대해 가우시안 과정회귀를 적용한 사례를 보이고자한다. 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용한 유전자를 선별방법에 대한 모의실험을 통해 민감도, 특이도, 위발견율 등을 계산하여 선별방법으로의 활용성을 보였다. 실제 효모세포주기 데이터에 대해 제곱지수공분산함수를 고려한 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용하여 차변화된 유전자를 선별한 후, 선별된 유전자들에 대해 가우시안 모형기반 군집화를 하고 실루엣 값으로 군집유효성을 보였다.

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.