• 제목/요약/키워드: 군집분류

검색결과 1,411건 처리시간 0.03초

범주형 데이터의 분류를 위한 퍼지 군집화 기법 (A Fuzzy Clustering Algorithm for Clustering Categorical Data)

  • 김대원;이광형
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.661-666
    • /
    • 2003
  • 본 논문에서는 범주형 데이터의 분류를 위한 새로운 기법을 제시한다. 기존의 대표적인 퍼지 군집화 방법인 k-modes 알고리즘과 fuzzy k-modes 알고리즘은 군집의 중심을 단일 값으로 표현하고, 군집에 속하는 데이터의 빈도 수에 기반한 중신 갱신 기법을 사용하였다. 이와 같은 기존의 방법들은 분류의 경계가 모호한 데이트를 군집화할 경우, 알고리즘의 각 단계에서 발생하는 분류의 에러를 보정하지 못해 최종적으로 지역해에 빠지는 단점이 있다. 이를 극복하기 위해 본 논문에서는 군집 중심을 퍼지 집합을 이용하여 정의한다. 퍼지 군집 중심은 주어진 데이터와 군집간의 거리 관계를 퍼지 값을 이용해 표현하며, 각 군집의 중심은 데이터의 소속 정도 값을 이용해 갱신된다. 이와 같은 퍼지 중심 표현기법을 도입하여 범주형 데이터의 분류 시에 보다 세밀한 결정을 내림으로써, 인접한 군집들의 경계에서 발생하는 불확실성을 최소화한다. 기존의 대표적인 방법들과의 비교실험을 수행함으로써 제안한 방법의 성능을 검증하였다.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

당뇨 환자의 관리행태에 대한 군집 분류 (Group Classification on Management Behavior of Diabetic Mellitus)

  • 최순호
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 추계학술발표논문집 2부
    • /
    • pp.759-762
    • /
    • 2010
  • 본 연구는 당뇨인지환자들의 당뇨 조절에 관계되는 요인들을 포괄적으로 반영하는 집단으로 분류한 후 이를 기반으로 보다 효율적인 당뇨관리사업을 할 수 있는 기초자료를 제공하기 위해 수행되었다. 연구를 위해 2007년, 2008년도 국민건강영양조사를 통해 검진에 참여한 당뇨인지환자 666명의 자료를 수집하여 분석하였다. 당뇨인지환자의 관리행태에 대한 군집분류는 K-means 기법을 이용하였다. 당뇨인지환자의 군집은 건강행태사업 대상군, 중점관리사업 대상군, 합병증검사사업 대상군으로 분류되었다. 당뇨 조절율을 높이기 위해서는 각 군집의 특성에 따라 보다 특화된 당뇨관리 프로그램이 적용되어야 할 것이다.

  • PDF

사용자의 색상 선호 기반 추천 시스템을 위한 상품 이미지 속 의류 색상 분석 (Color Analysis of Clothing in Product Images for User's Color Preference-Based Recommendation System)

  • 노은진;박상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.643-645
    • /
    • 2022
  • 많은 온라인 쇼핑몰에서 색상 기반 필터링 서비스나 추천 시스템을 제공하지만, 수동 분류는 많은 시간이 들고 오류 위험이 있다. 본 연구의 실험에서는 먼저 분석할 의류 이미지를 실루엣 분석으로 수행한 경우와 수행하지 않는 경우의 k-평균 군집화 알고리즘으로 가장 우세한 색상 군집의 중심값을 도출하는데, 만약 군집 개수가 2개 이상이면 보다 큰 군집의 중심값만을 고려한다. 이 중심값을 이용해 사전 학습한 k-최근접 이웃 알고리즘으로 색상 클래스를 분류한다. 실험 결과 실루엣 분석을 수행하지 않은 k-평균 군집화 알고리즘을 사용한 분류 방식이 정확도와 수행 시간 모두 매우 준수하였으나, 배경색이 존재하여 의류 색 분석에 영향을 줄 수 있는 경우 잘못 분류한다는 문제도 있다.

KCI 등재 학술지의 분류를 위한 네트워크 군집화 방법의 비교 (A classification of the journals in KCI using network clustering methods)

  • 김진광;김소형;오창혁
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.947-957
    • /
    • 2016
  • KCI는 국내 학술지 및 게재 논문과 인용에 대한 데이터베이스이며, 이를 이용하여 국내 학술지 간의 인용 관계를 파악할 수 있다. 현재 사용 중인 KCI의 학술지 분류는 각 학술지의 등재 신청 시 학술지 발간 주체가 선정한 분류로 인용 관계에 의한 분류가 아니다. 이로 인해 같은 분류에 속하는 학술지 사이의 인용관계가 없거나 낮은 현상이 발생하기도 하여 인용관계가 많은 학술지끼리 같이 묶여야 한다는 기준에 부합하지 않는 문제점이 발생하고 있다. 따라서 학술지 분류가 학술지 간의 인용정도를 잘 대표하지 못하는 것으로 알려져 있다. 본 연구에서는 KCI에 등재된 학술지 분류와 KCI 인용망에 네트워크 군집화 알고리즘을 적용한 군집 결과를 토대로 어떠한 차이가 있는지 살펴보았다. 이를 위해 최근 논문에서 대표적으로 다뤄지는 네트워크 알고리즘을 제시하고, 인용관계에 따른 각 알고리즘의 군집 결과 차이를 비교하였다. 그 결과 '인포맵' 알고리즘이 기존 KCI 분류망과 모듈화 구조 측면에서 유사성이 가장 높은 것으로 나타났다.

다단계 계층군집 영상분류법을 이용한 토지 피복 분석 (Analysis of Land-cover Types Using Multistage Hierarchical flustering Image Classification)

  • 이상훈
    • 대한원격탐사학회지
    • /
    • 제19권2호
    • /
    • pp.135-147
    • /
    • 2003
  • 본 연구는 한반도 위성 영상자료에 다단계 계층군집 영상분류법을 적용하여 관측지역의 피복특성을 분석한다. 다단계 계층군집 영상분류는 크게 두 단계로 이루어진다. 첫 번째 단계는 계층군집에 의해 공간적으로 근접하고 있는 이웃집단간의 결합을 하는 공간확장 영상분할 단계이고 두번째 단계는 결합지역의 공간적 제약 없이 영상분할 단계에서 분할된 집단을 계층군집에 의해 적은 한정적인 수의 클래스로 분류하는 과정이다. 계층군집 영상분류는 수치영상의 계층구조에 근거하여 매 단계 두 개의 집단을 한 개의 집단으로 합병하므로 클래스 수에 따른 분류집단 간의 관계를 나타내는 계층나무를 구성할 수 있다. 실험결과는 계층군집 영상분류에 의해 구성된 계층나무는 토지사용간의 계층구조를 자세히 밝혀주고 토지 피복 특성의 정확한 분석에는 좀 더 자세한 분광정보가 필요함을 보여주고 있다.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

쇼크 그래프를 이용한 효과적인 영상 군집화 (Effective Image Clustering Using Shock Graphsm)

  • 장석우;솔리마 카남;백우진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.249-252
    • /
    • 2011
  • 본 논문에서는 쇼크(shock) 그래프 기반의 뼈대 특징을 이용하여 모양 정보를 분류하기 위해 그래프 편집 거리(edit cost) 기반의 k-means 군집화 알고리즘을 적용하는 방법을 제안한다. 본 논문에서 제안된 방법에서는 먼저 질의 영상과 대상 데이터베이스 영상으로부터 뼈대 기반의 쇼크 그래프를 추출한 후 종점(end points)과 분기점(branch points)을 가중치를 이용하여 적응적으로 선택한다. 그런 다음, 두 영상 사이의 편집 거리를 구하여 이를 k-means 군집화 알고리즘의 거리 척도로 적용함으로써 대용량의 영상을 보다 효과적으로 분류한다. 성능을 평가하기 위해서 제안된 알고리즘을 MPEG-7 데이터베이스에 적용하였으며, 그 결과 제안된 영상 분류 방법이 기존의 영상 분류 방법에 비해서 보다 효과적으로 모양 기반의 영상을 분류하였음을 확인하였다.

  • PDF

유전자 알고리즘을 이용한 효율적인 패턴 분류 시스템 구현 (The implementation of efficient pattern classification system using the gene algorithm)

  • 이호현;최용호;서원택;조범준
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.792-795
    • /
    • 2002
  • 현재 많은 관심의 대상이 되고 있는 데이터 마이닝은 대용량의 데이터베이스로부터 일정한 패턴을 분류하여 지식의 형태로 추출하는 작업이다. 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고 군집들간의 유사성을 최소화 시키도록 데이터 집합을 분할하는 것이다. 데이터 마이닝에서 군집화는 대용량 데이터를 다루기 때문에 원시 데이터에 대한 접근 횟수를 줄이고 알고리즘이 다루어야 할 데이터 구조의 크기를 줄이는 군집화 기법이 활발하게 사용된다. 그런데 기존의 군집화 알고리즘은 잡음에 매우 민감하고, local minima에 반응한다. 또한 사전에 군집의 개수를 미리 결정해야 하고, initialization 값에 따라 군집의 성능이 좌우되는 문제점이 있다. 본 연구에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 LONGEPRO 알고리즘을 제안하고, 여기서 제시하는 적합도 함수의 최적화된 군집을 찾아내여 조금더 효율적인 알고리즘을 만들어 대용량 데이터를 다루는 데이터 마이닝에 적용해 보려 한다.

  • PDF

유사량 측정 유역 군집분석에 따른 분류 (Classification by Clustering Analysis for Watersheds Measuring Sediment Yield)

  • 신승숙;박상덕;박상연;윤민우
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.114-114
    • /
    • 2017
  • 하천의 유사량 자료는 하상변동 예측, 저수지 퇴사량 추정, 유사조절 계획 수립 등 유역과 하천관리 그리고 하천 시설물 관리를 위해 필요하다. 최근 4대강 사업구간에 대한 담수용 보로 유입되는 유사량과 하천 유사의 종횡단적 분포와 하상변동량 등의 산정에 기초자료로 활용하고자 유사량 관측망이 구축되어 있다. 본 연구에서는 하천 유사량에 영향을 미치는 유역특성인자에 대한 군집분석을 통해 유사 발생 유역을 분류하고자 한다. 체계화된 유량 및 유사량 측정 방법에 의해 신뢰할만한 유량-총유사량 관계식을 갖는 유량조사사업단의 35개 유역을 대상으로 한다. 유역 군집분석을 수행하고자 유역과 하천에 대한 지형인자, 토양인자, 토지이용 등의 유역특성 매개변수 자료를 수집하였고, 매개변수별 유사도거리 산정에 오류를 줄이기 위해 매개변수를 무차원화 하였다. 유역의 비유사량은 유역면적, 유역경사, 토성, 토지이용 등에 영향을 받았다. K-means 기법에 의해 군집분석을 수행한 결과 유사량 측정 유역은 A, B, C, D 4개의 그룹으로 분류되었다. B그룹 유역은 첨두홍수량이 크고 발생시간이 짧은 유역 및 하천 조건을 가지고 있었으며, 직접유출이 증가하는 지표조건과 침식이 활발한 토양조건을 갖는 것으로 파악되었다. 그룹별로 실측 비유사량을 검토한 결과 B그룹에 포함된 유역의 유사량이 다른 유역에 비해 상대적으로 크게 발생하였다. 이러한 결과는 유역특성 매개변수의 군집분석을 통한 유역의 군집분류가 유역과 하천의 유사관리 측면에서 유용한 관리방안으로 활용될 수 있음을 의미한다.

  • PDF