• 제목/요약/키워드: 군집성

검색결과 2,851건 처리시간 0.055초

고차원 응용에서의 군집 유효성 평가 기법 (Cluster Validity Assessment Techniques for High-Dimensional Applications)

  • 김민호;유현진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.715-717
    • /
    • 2005
  • 군집 유효성은 다양한 입력 변수에 따라 변하는 군집화 알고리즘의 결과들을 평가하는 것이다. 본 논문에서는 고차원의 데이터 집합에 대한 군집 유효성의 문제점에 대한 새로운 해결책을 제시한다. 고차원 군집화 결과들을 평가할 때 발생하는 기존의 군집 유효성 지수들의 적용성의 문제점을 살펴보고, 고차원으로 인해 발생하는 문제를 효과적으로 다룰 수 있는 다양한 새로운 군집 유효성 지수들을 제안한다. 제안된 군집 유효성 지수들은 본 논문에 제공된 실험에서 최적의 군집 유효성 결과를 제공한다.

  • PDF

유효성 기반 군집화 알고리즘 (Validation-based Clustering Algorithm)

  • 김민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.19-21
    • /
    • 2003
  • 본 논문에서는 군집화의 가장 중요한 2가지 문제에 대한 새로운 해결책을 제시한다. 첫 번째 문제는 두 객체가 하나의 군집내에 포함될 수 있는지를 결정하는 유사 결정으로써, 이를 해결하기 위해 군집 유효화 지수에 기반한 유사 결정 기법을 제안한다. 이 기법은 정성적인 인지 과정을 정량적인 비교 결정 과정으로 바꾼다 이 기법은 본 논문에서 제안한 랜덤 군집화와 전체 군집화의 두 부분으로 구성된 유효성 기반 군집화 알고리즘의 핵심을 이루며. 기존의 않은 군집화 알고리즘에서 요구되는 복잡한 파라미터를 결정할 필요가 없어지도록 한다. 두 번째 문제는 최적 군집 수 (optimal number of clusters)를 찾는 것으로써, 이것 또한 앞에서 제안한 기법에 의해서 전체 군집화에서 찾을 수 있다. 마지막으로 제안한 기법과 군집화 알고리즘의 효용성 및 효율성을 보여주는 실험 결과가 제시된다.

  • PDF

효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘 (A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering)

  • 김성은;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

상호정보량 기법을 이용한 군집분석의 적용성 연구 (Application of Cluster Analysis using Mutual Information)

  • 정영훈;김완수;정창삼;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.414-414
    • /
    • 2011
  • 우리나라 뿐만 아니라 전 세계적으로 기후변화로 인한 집중호우, 폭설 등이 빈번하게 일어나고 있으며 수공구조물 설계에 필요한 확률강우량도 증가하고 있다. 확률강우량을 산정하는 빈도해석의 경우 지점빈도해석의 문제점을 보완한 지역빈도해석에 대한 연구가 꾸준히 진행되고 있다. 지역빈도해석을 적용하기 위해서는 수문학적 동질성을 가지는 지역 구분이 무엇보다 중요하다. 군집 분석은 개체들이 지니고 있는 다양한 속성의 유사성을 동질적인 집단으로 군집화하는 방법을 말한다. 군집분석의 기본원리는 분석하고자 하는 여러 특성등을 유사성(similaruty) 거리(distance)로 환산하고 거리가 상대적으로 가까운 개체들을 동질적으로 군집화하는 것이다. 군집분석을 적용하기 위해서는 기상학적 인자와 지형학적 인자를 이용하여 군집분석을 실시한다. 군집분석을 실시할 때 가장 중요한 것은 입력변수의 선택으로 입력 변수의 적절한 선택이 결과값에 큰 영향을 준다. 상호정보량(Mutual Information, MI) 기법은 두 무작위 변수간의 관련성을 측정하는 방법이며 (Cover and Tomas, 2006), 두 변수간의 독립성 구조에 관한 가정이 없고 데이터 변형이나 잡음(noise)에 대한 영향이 적어 다른 기법보다 신뢰도가 높다고 알려져 있다(Peng et al., 2005). 본 연구에서는 상호정보량 기법을 이용하여 군집된 지점들의 종속성과 독립성의 관계를 정량적으로 산정하여 비교하고자 한다.

  • PDF

개별 이동성 모델부터의 집단 이동성 모델 도출 (Modeling Group Mobility from Individual Mobility Model)

  • 김동엽;최동연;송하윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.376-379
    • /
    • 2014
  • 본 논문에서는 사람의 이동정보인 위치데이터를 바탕으로 위치분석(Location Analysis)을 통해 나타난 개개인의 이동성 모델을 바탕으로 각 개인의 이동성 모델에서 나타난 군집들의 관계를 분석해 개인이 속한 집단의 이동성 모델을 만든다. 집단 이동성 모델은 개인의 모델에서 나타난 군집을 이용하는데, 각 군집을 만드는데 필요한 위치 정보들과 군집의 중심, 군집간의 거리의 값을 계산하여 새로운 통합 군집을 만든다. 새로 만드는 군집은 각 특징에 따라 Micro Cluster, Macro Cluster의 2가지로 분류하였다. 실제 수년간 수집한 2명의 통합 개인 이동성 모델을 바탕으로 집단 이동성 모델을 생성한다. 집단 이동성 모델 생성에는 R Language를 사용하였고 결과 모델을 지도상에 표시할 수 있다.

군집분석 비교 및 한우 관능평가데이터 군집화 (A Comparison of Cluster Analyses and Clustering of Sensory Data on Hanwoo Bulls)

  • 김재희;고윤실
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.745-758
    • /
    • 2009
  • 자발적인 군집을 유도하는 다변량 통계기법으로 널리 사용되는 군집분석은 데이터에 기반한 탐색적 방법으로 쓰이며 군집원칙에 따라 여러 가지 방법이 제안되어 왔다. 또한 군집화된 결과에 대하여 유효성을 측정하는 측도도 다양한방법이 개발되었다. 본 연구에서는 계층적 군집분석 방법으로 최장연결법과 Ward의 방법, 비계층적 군집분석 방법으로 K-평균법 그리고 확률분포정보를 활용한 모형기반 군집분석방법을 이용하여 모의실험으로 군집분석을 실시하고 군집유효성 측도로는 연결성, Dunn 지수, 실루엣을 구하여 각 군집방법에 대해 유효성을 비교한다. 또한, 한우 관능평가 데이터에 군집분석을 적용하여 최적의 군집 상황을 구하고자 한다.

붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정 (Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm)

  • 박민재;전성해;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.

Modified Sequential Algorithmic Schema를 이용한 디지털 사진의 효율적인 분류 (Modified Sequential Algorithm schema for Efficient Digital Image retrieval)

  • 이상린
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.237-240
    • /
    • 2007
  • 이 논문에서는 수정된 Sequential Algorithmic Schema를 이용해서 여러 장소를 이동하면서 찍은 디지털 이미지를 효율적으로 분류할 수 있는 방법을 제안한다. 제안하는 방법은 이웃 패턴들과 특징 정보의 연속성, 유사성을 가지며 들어오는 입력 패턴에 대해 기존의 모든 군집과 유사도를 비교하는 방법이 아니라 이전 군집의 정보와 유사도를 비교하여 군집에 포함시키거나 동적으로 군집을 생성하는 효율적인 군집화 방법이다. 제안한 방법은 실험을 통해서 기존의 군집화 기법에 성능 및 속도의 효율성을 증명하였다.

  • PDF

라이프스타일에 따른 인터넷뱅킹 이용에 관한 연구 (A Study on the Relationship between Lifestyle and the Use of Internet Banking)

  • 조남재;이기영;손지호
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 추계학술대회
    • /
    • pp.391-410
    • /
    • 2005
  • 본 연구에서는 응답자들의 라이프스타일을 먼저 몇 개의 요인으로 분석 한 후, 도출된 요인들을 다시 군집분류를 하였다. 추출된 군집들에 따라 인터넷 뱅킹 신뢰성과 인지도 그리고 소득수준이 인터넷 뱅킹 이용도에 어떤 차이를 보이는지 분석하였고, 전체 군집에서 나온 결과와 어떤 차이를 보이는지 비교 분석 해보았다. 그 결과 라이프스타일에 따라 4개의 군집이 분류되었으며, 군집1을 '적극적 활동형', 군집 2를 '현실적 가족형', 군집 3을 '전통적 보수형', 군집 4를 '소극적 비활동형'으로 명명하였다. 군집들에 따라 신뢰성, 인지도, 소득수준이 인터넷 뱅킹 이용에 영향을 미치는지에 대한 연구 결과로는 전체군집에서는 소득에만 영향을 받았으나 군집을 세분화하여 세분화된 군집별로 알아본 결과 전체 군집과는 달리 '적극적 활동형'은 신뢰성, '전통적 보수형'과 '소극적 비활동형'은 소득수준, 그리고 현실적 가족형은 아무 영향을 받지 않는 것으로 보아 시장을 세분화 하였을 경우와 세분화 하지 않았을 경우의 연구 결과는 다르다는 결론을 얻어냈으며, 인터넷 뱅킹 활성화에 있어서도 라이프스타일에 따른 고객 세분화는 큰 의미가 있다.

  • PDF

상대적 계층적 군집 방법을 이용한 마이크로어레이 자료의 군집분석 (Microarray data analysis using relative hierarchical clustering)

  • 우숙영;이재원;전명식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.999-1009
    • /
    • 2014
  • 계층적 군집 분석은 분석 결과를 덴드로그램으로 쉽게 표시할 수 있어서 방대한 양의 마이크로어레이 자료를 탐색하기에 유용하며, 군집된 결과를 이용하여 생물학적 현상을 이해하는데 도움을 준다. 하지만, 계층적 군집방법은 두 군집간의 절대값 거리만을 고려하여 병합하기 때문에 군집 간의 상대적 비유사성은 설명하지 못하는 단점이 있다. 본 연구에서는 상대적 계층적 군집 방법을 소개하고, 마이크로어레이 자료와 같이 다양한 군집의 모양을 가진 모의실험 자료들과 실제 마이크로어레이 자료를 사용하여 상대적 계층적 군집방법과 기존의 계층적 군집 방법을 비교하였다. 두 계층적 군집 방법의 질적 평가는 오분류율, 동질성, 이질성 지표를 이용하여 수행하였다.