• 제목/요약/키워드: K-평균 군집방법

검색결과 192건 처리시간 0.03초

개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병 (Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm)

  • 한진우;전성해;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권5호
    • /
    • pp.517-524
    • /
    • 2004
  • 1960년대 퍼지 이론이 소개된 이후 데이터 마이닝을 포함한 기계 학습 분야의 군집화 작업에서 퍼지 이론이 폭넓게 사용되었다. 퍼지 C-평균 알고리즘은 가장 많이 사용되는 퍼지 군집화 알고리즘이다. 이 알고리즘은 하나의 데이터 개체가 서로 다른 소속 정도를 가지고 각 군집에 할당될 수 있도록 한다. 퍼지 C-평균 알고리즘도 K-평균 알고리즘과 같은 일반적인 군집화 알고리즘과 마찬가지로 초기 군집수와 군집 중심의 위치에 의해 최종 군집 결과의 성능 차이가 나타난다. 군집화를 위한 이러한 초기 설정은 주관적이며 이 때문에 적절치 못한 결과를 얻게 될 수도 있다. 본 논문에서는 이 문제를 해결할 수 있는 방법으로 주어진 학습 데이터의 속성을 기반으로 한 초기 군집수와 군집 중심을 결정하는 개선된 밀도 기반의 퍼지 C-평균 알고리즘을 제안하였다. 제안 방법은 격자를 사용하여 초기 군집 중심의 위치와 군집수를 결정하였다. 기존에 많이 이용되었던 객관적인 기계 학습 데이터를 이용하여 제안 알고리즘의 성능비교를 수행하였다.

마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교 (Comparison of clustering methods of microarray gene expression data)

  • 임진수;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.39-51
    • /
    • 2012
  • 군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

주성분 분석의 K 평균 알고리즘을 통한 XML 문서 군집화 기법 (XML Document Clustering Technique by K-means algorithm through PCA)

  • 김우생
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.339-342
    • /
    • 2011
  • 최근 들어 인터넷에서 많이 사용되는 XML 문서들을 효율적으로 접근, 질의, 저장하는 방법들이 연구된다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서를 대응하는 트리 구조의 원소들의 이름과 레벨로 표현하여 특징 벡터 공간상의 벡터로 나타내고 주성분 분석을 통한 k 평균 알고리즘 기법을 사용하여 군집화를 시도한다. 실험 결과를 통하여 제안하는 기법이 좋은 결과를 얻을 수 있음을 보였다.

스케일 성질을 이용한 군집 지역에서의 스케일 인자에 대한 연구 (Study on Scaling Exponent for Classification of Regions using Scaling Property)

  • 정영훈;김성훈;안현준;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.504-504
    • /
    • 2015
  • 수공구조물을 설계하기 위해서는 설계수문량을 빈도해석을 통해 산정할 수 있다. 빈도해석 중 지점빈도해석을 보완한 지역빈도해석을 적용하기 위해서는 군집분석을 통한 지역구분이 무엇보다 중요하다. 또한 스케일 성질(scaling property)은 강우의 시 공간적 특성을 지속기간별 관측된 강우자료를 이용하여 재현기간에 대한 지속기간의 함수로 강우의 IDF곡선을 제시할 수 있는 방법이다. 따라서 스케일 성질을 통해 군집된 지역에서의 강우자료에 적용하여 스케일 인자(scaling exponent)를 추정한 후 수문학적 동질성을 통계적 특성으로 설명하고자 한다. 본 연구를 수행하기에 앞서 군집 분석은 4개의 군집방법(평균연결법, Ward방법, Two-Step방법, K-means방법)을 적용하였고, 한강유역에 위치한 104개의 강우지점은 4개의 지역으로 구분하는 것이 적절하다고 판단되어 비계층적 방법인 k-means방법을 이용하여 지역을 구분하였다. 본 연구에서는 군집된 결과를 바탕으로 4개의 지역으로 구분된 지역에 포함된 강우지점을 대상으로 스케일 인자를 추정하고 수문학적 동질성을 통계적 방법으로 제시하고자 한다.

  • PDF

단어 군집 기반 모바일 애플리케이션 범주화 (Word Cluster-based Mobile Application Categorization)

  • 허정만;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.17-24
    • /
    • 2014
  • 본 논문에서는 단어 군집 정보를 활용하여 모바일 애플리케이션의 범주를 분류하는 방법을 제안한다. 제안하는 방법은 모바일 애플리케이션 설명이 짧을 수 있다는 점을 고려하여, 모바일 애플리케이션 설명에 포함된 단어 정보 뿐만 아니라 각 단어의 단어 군집 대표 정보를 범주화 자질로 활용한다. 그리고, 모바일 애플리케이션의 카테고리가 세분화되어 있으므로, 제안하는 방법은 범주별 단어 발생 빈도를 K 평균 군집화 알고리즘에 적용하여 단어 군집을 생성한다. 모바일 애플리케이션 설명이 설치사양과 같이 범주와 관련없는 내용이 있을 수 있다는 점을 반영하여, 제안하는 방법은 단어 군집 중에서 범주화에 유용한 일부 단어 군집만을 선별하여 활용한다. 실험결과 제안하는 방법은 단어 군집 정보를 활용하여 모바일 애플리케이션 범주화 재현율을 5.65% 개선시켰다.

2009년 여자프로골프선수 프로파일을 이용한 군집방법비교 (A Comparison of cluster analysis based on profile of LPGA player profile in 2009)

  • 민대기
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.471-480
    • /
    • 2010
  • 군집방법은 탐색적 통계기법에서 매우 유용한 방법이나 최종 의사결정을 지지할 검정 통계량이 없는 것이 단점이다. 자료구조에서 살펴보면 군의 성격을 파악하는 변수가 있느냐 없느냐가 군집분석과 판별분석의 차이이다. 군집분석이 가장 이상적으로 이루어졌다면 그 프로파일의 분석결과가 판별분석과 같을 것이다. 이 점에 근거하여 비계층 분석의 대표적인 K-평균법 방법과 자기 조직화지도 군집분석의 유효성을 2009년 여자프로골프 선수들의 프로파일 분석을 통하여 비교 연구하였다.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

신용카드업에서 데이터마이닝의 활용 -고객행동기반의 고객세분화-

  • 진서훈;안상욱
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.171-174
    • /
    • 2004
  • 기업들이 심화된 경쟁체제 속에서 고객에 대한 보다 심층적인 이해를 필요로 하고 정보기술의 발달로 각 요소활동내용의 데이터화가 가능해짐에 따라 CRM으로 대변되는 고객 정보의 전략적 활용이 매우 중요하게 되었다. 이를 위해 기업은 고객에 대한 이해를 바탕으로 고객관리 및 마케팅을 수행하기 위한 필수적인 도구인 고객세분화를 수행하고 있다. 본 연구에서는 신용카드고객의 카드사용행태에 근거하여 서로 유사한 사용행태를 보이는 고객군으로 세분화하는 과정을 소개한다. 고객이 실제로 카드를 사용하면서 발생시킨 거래정보에만 의존하여 고객세분화를 수행하였으며 이는 마케팅의 관점에서 상당히 의미 있는 내용이라 볼 수 있다. 고객세분화를 위하여 데이터마이닝기법인 k-평균군집방법과 최장연결법에 의한 계보적 군집방법을 활용하였다

  • PDF

움직임 벡터의 계층적 군집화를 통한 HEVC 고속 부호화 연구 (Study on Fast HEVC Encoding with Hierarchical Motion Vector Clustering)

  • 임정윤;안용조;심동규
    • 방송공학회논문지
    • /
    • 제21권4호
    • /
    • pp.578-591
    • /
    • 2016
  • 본 논문에서는 HEVC 부호화기의 속도를 향상시키기 위하여, 움직임 벡터의 군집화를 통한 코딩 블록의 최대 분할 깊이를 결정하는 방법을 제안한다. 현재 HEVC (High Efficiency Video Coding)의 참조 소프트웨어 HM은 최적의 코딩 블록 구조를 찾기 위해 다양한 코딩 블록의 깊이들에 대한 율-왜곡 최적화 (RDO: Rate-Distortion Optimization)를 수행한다. 하지만 이는 부호화기의 높은 복잡도를 차지하는 요소 중 하나로 보고된다. 본 논문에서는 최적의 코딩 블록 구조를 움직임 벡터의 군집화 된 결과에 따라 결정함으로써, 부호화 과정에서 코딩 블록 구조를 찾기 위한 RDO의 복잡도를 줄임으로써 부호화기의 속도를 향상시키는 방법을 제안한다. 제안하는 방법은 전처리 과정으로부터 원본 영상에 대한 움직임 벡터 계산, 이를 통한 계층적 군집화를 수행하여, 군집화된 경향을 기반으로 코딩 블록의 최대 깊이를 결정한다. 본 논문의 제안하는 방법은 HEVC 참조 소프트웨어 대비 평균 1.45% BD-rate 손실이 있었으며 평균 16%의 부호화 속도 향상을 보였다. 또한, 기존의 고속화 방법과 함께 적용한 경우 1.84% BD-rate 손실과 45.13%의 평균 부호화 속도 향상을 나타냈다.

실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약 (News Clustering and Multi-Document Summarization for Real-time Issue Analysis)

  • 유홍연;이승우;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF