• 제목/요약/키워드: K-Means 클러스터링

검색결과 366건 처리시간 0.03초

클러스터 밀도에 무관한 향상된 클러스터링 기법 (An Improved Clustering Method with Cluster Density Independence)

  • 유병현;김완우;허경용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.248-249
    • /
    • 2015
  • 클러스터링은 대표적인 비교사 학습 방법의 하나로 균일한 특성을 가지는 데이터를 클러스터로 묶기 위해 사용된다. 하지만 클러스터링은 기본적으로 클러스터의 중심에서 데이터까지의 거리에 기반하고 있으므로 클러스터의 중심이 밀도가 높은 클러스터 쪽으로 쏠리는 현상이 발생한다. 이 논문에서는 클러스터의 중심을 가능한 멀리 떨어져 있도록 하는 항을 Fuzzy C-Means의 목적함수에 추가함으로써 클러스터 사이의 밀도 차이가 심한 데이터의 클러스터링 문제에서 정확한 결과를 얻을 수 있는 클러스터링 방법을 제안한다. 제안한 방법은 FCM에 비해 실제 클러스터 중심으로 수렴하는 경우가 더 많으며 수렴 속도 역시 FCM 보다 빠른 것을 실험 결과를 통해 확인할 수 있다.

  • PDF

데이터 형태에 적응하는 클러스터링 알고리즘 (Data Clustering Algorithm Adaptive to Data Forms)

  • 이기호;이기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1433-1436
    • /
    • 2000
  • 클러스터링에 있어서 k-means[7], DBSCAN[2], CURE[4], ROCK[5], PAM[8], 같은 기존의 알고리즘은 원형이나 타원형 등의 어느 고정된 모양에 의해 클러스터를 결정한다. 만약 클러스터 하려는 데이터의 분포가 우연히 알고리즘의 결정된 모양과 일치하면 정확한 해를 얻을 수 있다. 하지만 자연적인 데이터의 분포에서는 발생하기 어렵다. 데이터의 형태를 추적하여 이러한 문제점을 해결한 CHAMELEON[1] 알고리즘이 최근에 발표되었다. 하지만 모양에는 독립적이나 데이터의 양이 증가함에 따라 소요되는 시간이 폭발적으로 증가한다. 이것은 기존의 마이닝 데이터들이 대용량이라는 것을 고려하면 현실에 적용하기 힘든 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 K-means[7]]를 이용한 대표를 선출하는 방법으로 CHAMELEON[1]의 문제점 개선(EF-CHAMELEON)을 시도하였으며 여러 자연적인 형태의 도형들은 아주 작은 원형들의 집합으로 구성 될 수 있다는 생각을 기본으로 잡음에 영향을 받지 않을 정도로 아주 작은 초기 다수의 소형 클러스터를 K-mean을 이용하여 구성하고 이를 다시 크러스터간의 상대적인 거리를 이용하여 다시 머지 하는 방법으로 모양에 의존적인 문제를 해결하며 비교사 학습(unsupervised learning)에 충실하기 위해 임계값을 적용 적정 단계에서 알고리즘을 멈추게 한 ADF 알고리즘을 소개한다. 실험 데이터는 기존의 여러 클러스터링 알고리즘이 판별 할 수 없었던 다양한 모양을 가지고있는 2차원 배열을 사용하여 ADF. CHAMELEON[1], EF-CHAMELEON,의 성능을 비교하였다.

  • PDF

쿼드트리와 균등 샘플링를 이용한 효과적 차분 프라이버시 K-평균 클러스터링 알고리즘 (A Differentially Private K-Means Clustering using Quadtree and Uniform Sampling)

  • 홍대영;구한준;심규석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.25-26
    • /
    • 2018
  • 최근 데이터를 공개할 때 프라이버시를 보호하기 위한 방법들이 연구되고 있다. 그 중 차분 프라이버시(differential privacy)는 최소성 공격 등에 대해서도 안전함이 증명된 익명화 기법이다. 본 논문에서는 기존 차분 프라이버시 -평균 클러스터링 알고리즘의 성능을 개선하고 실생활 데이터를 이용한 실험을 통해 이를 검증한다.

  • PDF

경계 차감 클러스터링에 기반한 클러스터 개수 추정 화자식별 (Speaker Identification with Estimating the Number of Cluster Based on Boundary Subtractive Clustering)

  • 이윤정;최민정;서창우;한헌수
    • 한국음향학회지
    • /
    • 제26권5호
    • /
    • pp.199-206
    • /
    • 2007
  • 본 논문에서는 화자식별을 위한 특징벡터의 새로운 클러스터링 방법을 제안한다. 제안된 방법은 클러스터 센터에 대한 초기값 설정과 클러스터 개수에 대한 사전 정보 없이 클러스터링이 가능하다. 각 클러스터 센터는 경계 차감 클러스터링 알고리즘으로 한 번에 한 개의 클러스터 센터가 추가됨으로써 순차적으로 구해지며, 클러스터 개수는 클러스터간의 상호관계를 조사하여 결정된다. 인공 생성 데이터 및 TIMIT 음성을 이용하여 실험한 결과로부터 제안된 방법이 기존의 방법보다 우수함을 확인하였다.

클러스터링 기법을 활용한 이커머스 사용자 리뷰에 따른 시장세분화 연구 (A Study on Market Segmentation Based on E-Commerce User Reviews Using Clustering Algorithm)

  • 김민경;허재석;사애진;전아름;이한별
    • 한국전자거래학회지
    • /
    • 제27권2호
    • /
    • pp.21-36
    • /
    • 2022
  • 최근 코로나로 인해 이커머스 시장이 확대되면서 인터넷 쇼핑몰 이용률 증가와 함께 다양한 형태의 소비 패턴을 보이는 고객들이 나타나고 있다. 기업은 고객 리뷰를 통해 고객의 의견과 정보를 얻을 수 있기 때문에 온라인 플랫폼에서의 고객 리뷰 관리에 대한 연구의 필요성이 증가하고 있다. 본 연구에서는 고객들을 군집화하고 분석하였으며, 이커머스 시장에 존재하는 고객 유형을 정의하고 시장세분화를 수행하였다. 구체적으로, 본 연구는 온라인 쇼핑몰 위메프(Wemakeprice)의 고객 리뷰 데이터를 수집하여 K-means 클러스터링을 진행하였으며, 그 결과로 6개의 군집이 도출되었다. 이후 6개의 군집으로 시장세분화 된 결과를 분석하여 각 군집의 특징을 정의하고 고객관리 방안까지 함께 제시하였다. 본 연구 결과는 이커머스 시장의 고객 유형 파악과 고객관리를 용이하게 하는 자료로 사용될 것이며, 다양한 온라인 플랫폼의 고객관리 비용 절감과 수익 창출에 기여할 것으로 기대된다.

3차 스플라인을 이용한 초음파 영상에서의 충수 추출 (Extraction of Appendix from Ultrasonic Images by Using Cubic Spline)

  • 최성수;김한별;한민수;박승익;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.389-391
    • /
    • 2013
  • 본 논문에서는 초음파 검사자가 효율적으로 충수염을 진단할 수 있도록 하기 위하여 초음파 영상에서 충수를 추출하는 방법을 제안한다. 충수를 추출하는 과정은 초음파 영상에서 Ends_in Search Stretching 기법을 적용하여 명암 대비를 강조하고, Max-Min 이진화, 영역 레이블링, 잡음 제거, Cubic Spline 보간법을 적용하여 복부 근육의 하단 근막 부분을 추출한다. 초음파 영상에서 추출된 근막 영역을 제거한 후, K-Means 클러스터링과 영역 레이블링을 적용하여 충수 영역을 추출한다. 제안된 방법을 초음파 영상을 대상으로 실험한 결과, 충수염을 진단하기에 적합한 충수 영역이 추출되는 것을 영상의학과 전문의를 통하여 확인하였다.

  • PDF

클러스터링 기법을 이용한 공정 데이터의 압축 저장 기법에 관한 연구 (A Study on Process Data Compression Method by Clustering Method)

  • 김윤식;모경주;윤인섭
    • 한국가스학회지
    • /
    • 제4권4호
    • /
    • pp.58-64
    • /
    • 2000
  • 가스 저장$\cdot$ 공급 시설을 포함한 화학공정에서 측정된 데이터를 효과적으로 이용하기 위하여 정보의 손실의 최소화하면서 데이터를 압축하여 저장하고 재생할 수 있는 방법에 대한 연구가 진행되어 왔다 기존에 제안되었던 데이터 압축 저장 방법들의 단점을 극복하기 위하여, 부분 선형화 근사 방법과 k-means 클러스터링 알고리즘을 응용한 새로운 공정 데이터의 압축 방법을 제안하였다. 제안된 방법을 실공정 데이터에 적용하여 본 결과, 본 연구에서 제안된 방법이 기존의 방법보다 재현 능력이 우수함을 확인할 수 있었다.

  • PDF

영상에서의 감성인식과 아동색채심리 (Sensibility Recognition and Child Color Psychology in Image)

  • 신성윤;이경주;이양원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.133-136
    • /
    • 2010
  • 작금의 현대 사회는 바쁜 일상 속 부모들의 관심이 부족한 자녀들에 대한 심리적 안정과 환경 적응력을 위한 색채심리치료의 필요성이 급증하고 있다. 이에 우리는 아동의 그림 등으로 아동의 감성상태를 파악하여야 한다. 현재 진행 중인 감성의 실증적 연구는 크게 심리학적 관점과 공학적 관점에서 이루어지고 있다. 심리학분야에서 이해하고 있는 감성은 감정에 가깝다고 할 수 있고, 한편 공학적 관점에서 이해되는 감성은 '외부의 물리적 자극에 의한 감각, 지각으로부터 인간의 내부에 야기되는 고도의 심리적 체험'으로 정의할 수 있다. 본 논문에서는 색채 이미지 공간에서의 단색, 배색의 정보를 활용하여 색채조화를 식별하고, 아동의 그림에서의 심리를 추출해내는 시스템을 제공한다. 우선 색채 이미지공간을 기반으로 감성 데이터베이스를 구축한다. 이후에 영상을 K-Means알고리즘을 이용해 클러스터링 하여 방대한 컬러 값들을 그룹화 시킨 후에 데이터베이스와 매칭을 시켜 감성을 추출해 내고, 아동의 그림에서의 컬러 분포도를 이용하여 아동색채심리를 알아본다.

  • PDF

GLVQ클러스터링을 위한 필기체 숫자의 효율적인 특징 추출 방법 (The Efficient Feature Extraction of Handwritten Numerals in GLVQ Clustering Network)

  • 전종원;민준영
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.995-1001
    • /
    • 1995
  • 패턴인식은 전처리, 특징추출, 식별의 과정을 거쳐 인식을 하게된다. 식별과정 에서 여러개의 패턴이 흩어져 있을 경우에 유사한 패턴끼리 클러스터링을 위하여 한 카테고리 내에서 패턴을 분할하게 된다. 클러스터링 방법에는 통계적인 방법으로 k-means 방법, ISODATA알고리즘등이 있으며〔1〕, 최근에는 신경망에 의한 클러스터링 방법으로 T, Kohonen의 LVQ(Learning Vector Quantization)가 주로 이용되었다〔6〕. Nikhil R, Pal. et al은 LVQ알고리즘을 보다 개선한 방법으로 GLVQ(Generalized LVQ, 1993)를 제안하였다〔4〕.본 논문은 GLVQ 알고니즘으로 패턴을 클러스터링 할 경우에 효율적인 특징추출 방법을 제안한다. 본 논문에서는 20명의 필기체 숫자 0에서 9까지 의 200개 패턴을 여러 가지 방법으로 특징 추출하여 GLVQ알고리즘으로 10개(0-9의 패턴) 의 클러스터로 구분하고, 해당 클러스터에서 오분류되는 패턴의 비율로서 그 효율성을 비교 하였다. 그 결과 투영조합 방법을 이용하였을 경우 98.5%의 분류율을 나타내었다.

  • PDF

데이터와 적용되는 알고리즘의 연관성을 이용한 클러스터링 기법 (Clustering Technique Using Relevance of Data and Applied Algorithms)

  • 한우연;남미영;이필규
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.577-586
    • /
    • 2005
  • 영상 처리와 패턴 인식 그리고 컴퓨터 비젼 분야의 가장 성공적인 응용들 중 하나인 얼굴 인식을 위해 많은 알고리즘이 제안되었고, 최근에는 얼굴의 어떤 속성이 대상을 인식하는 것을 더 쉽거나 어렵게 만드는지에 대한 연구가 진행되고 있다. 본 논문에서는 얼굴의 속성(조명, 표정)에 따라 각각의 알고리즘의 인식 성능이 달라지는 점에 착안해서, 얼굴 데이터와 적용된 알고리즘과의 연관성을 이용하여 인식 성능을 높이는 클러스터링 방법을 제안하였다. 실험에서는 인식 알고리즘으로 n-tuple, PCA 그리고 가보 웨이블릿이 사용되었고, 세 가지 벡터화 방법이 제안되었다. 우선 학습 데이터를 k-means 알고리즘을 이용하여 클러스터링하고 각각의 클러스터에 대한 세 가지 인식 알고리즘의 적합도를 평가한 후, 같은 알고리즘을 선택한 클러스터들을 통합하여 새로운 클러스터를 구성한다. 그리고 테스트 데이터에서 새로운 클러스터에 대한 유사도를 평가하여 가장 가까운 클러스터가 선택한 알고리즘으로 인식을 수행한다. 그 결과 클러스터링 과정을 거치지 않고 단일 알고리즘을 사용하여 인식했을 때보다 인식 성능이 향상된 것을 관찰할 수 있다.