• 제목/요약/키워드: k-평균 클러스터링

검색결과 110건 처리시간 0.034초

다중 클라이언트 환경에서 동형 암호를 이용한 프라이버시 보장형 K-평균 클러스터링 (Privacy-Preserving K-means Clustering using Homomorphic Encryption in a Multiple Clients Environment)

  • 권희용;임종혁;이문규
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제15권4호
    • /
    • pp.7-17
    • /
    • 2019
  • 기계 학습은 다양한 현상의 예측 및 분석 등을 가장 정확하게 수행하는 기술 중 하나이다. K-평균 클러스터링은 주어진 데이터들을 비슷한 데이터들의 군집으로 분류하는 기계 학습 기법의 한 종류로 다양한 분야에서 사용된다. K-평균 클러스터링의 성능을 높이기 위해서는 가능하면 많은 데이터에 기반한 분석을 수행하는 것이 바람직하므로, K-평균 클러스터링은 데이터를 제공하는 다수의 클라이언트들과 제공받은 데이터들을 사용하여 클러스터의 중심값을 계산하는 서버가 있는 모델에서 수행될 수 있다. 그러나 이 모델은 클라이언트들의 데이터가 민감한 정보를 포함하고 있는 경우, 서버가 클라이언트들의 프라이버시를 침해할 수 있다는 문제점이 있다. 본 논문에서는 다수의 클라이언트가 있는 모델에서 이러한 문제를 해결하기 위해 동형 암호를 사용하여 클라이언트의 프라이버시를 보호하며 기계 학습을 수행할 수 있는 프라이버시 보장형 K-평균 클러스터링 방법을 제안한다.

K-Means 클러스터링에서 초기 중심 선정 방법 비교 (Comparison of Initial Seeds Methods for K-Means Clustering)

  • 이신원
    • 인터넷정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.1-8
    • /
    • 2012
  • 클러스터링 기법은 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화 하는 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 또한 초기 클러스터 중심이 임의로 설정되기 때문에 클러스터링 결과가 편차가 심하다. 본 논문에서는 클러스터링에 소요되는 시간을 줄이고 안정적인 클러스터링을 하기 위해 초기 클러스터 중심 선정 방법을 삼각형 높이를 이용하는 방법을 제안하고 비교 실험해 봄으로서 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다. 실험결과로 평균 총소요시간을 보면 최대평균거리를 이용하는 방법은 기존 방법에 비해서 17.9% 감소하였고, 제안한 방법은 38.4% 감소하였다.

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

빅데이터 K-평균 클러스터링을 위한 RHadoop 플랫폼 (RHadoop platform for K-Means clustering of big data)

  • 신지은;오윤식;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.609-619
    • /
    • 2016
  • 본 논문에서는 대용량 데이터를 처리 및 분석하기 위해 RHadoop 플랫폼에서 실제 데이터와 모의 실험 데이터를 가지고 K-평균 클러스터링을 구현하고, MapReduce의 컴바이너 사용여부에 따른 처리 속도를 비교하고자 한다. 또한, K-평균 클러스터링에서 최적의 군집수 결정방법을 MapReduce 프로그램으로 구현하여 실제 데이터에 적용하고자 한다. 그리고 제안된 RHadoop 플랫폼의 확장 가능성을 보이기 위해 실제 데이터에서 R의 기본 패키지에서 kmeans() 함수와 bigmemory 패키지 상에서 유용한 bigkmeans() 함수와 처리 속도를 비교하고자 한다.

스펙트럴 클러스터링 - 요약 및 최근 연구동향 (Spectral clustering: summary and recent research issues)

  • 정상훈;배수현;김충락
    • 응용통계연구
    • /
    • 제33권2호
    • /
    • pp.115-122
    • /
    • 2020
  • K-평균 클러스터링은 매우 널리 사용되고 있으나 유사도가 구면체 또는 타원체로 정의되어 각 클러스터가 볼록 집합 형태인 자료에는 좋은 결과를 주지만 그렇지 않은 경우에는 매우 형편 없는 결과를 나타낸다. 스펙트럴 클러스터링은 K-평균 클러스터링의 단점을 잘 보완해 줄 뿐아니라 여러 형태의 자료나 고차원 자료 등에 대해서도 좋은 결과를 나타내서 최근 인공 신경망 모형에 많이 이용되고 있다. 하지만, 개선되어야 할 단점도 여전히 많다. 본 논문에서는 스펙트럴 클러스터링에 대해 알기 쉽게 소개하고, 클러스터 갯수의 추정, 척도모수의 추정, 고차원 자료의 차원 축소 등 스펙트럴 클러스터링에 대한 최근의 연구 동향을 소개한다.

하이퍼플래인을 이용한 웹 방문 패턴에 대한 사용자 클러스터링 (A Clustering Method of Web Navigation Pattern Using the Hyperplane)

  • 이해각;주영옥
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.608-611
    • /
    • 2004
  • 사용자 웹 방문 패턴 발견으로써의 사용자 클러스터링은 웹 사이트를 이용하는 사용자들의 취향과 행동방식을 얻어내는데 매우 유용하다. 또한 이러한 정보는 웹 개인화나 웹 사이트를 재구성 하는 데 필수적 이 다. 본 논문에서 사용자 웹 방문 패스를 클러스터링 하기 위한 시간적으로 효율적이며, 패스 특성을 보다 정확하게 표현하여 클러스터링 할 수 있는 알고리즘이 제안되며, 제안된 알고리즘은 패스 간의 유사도 측정을 통한 클러스터링, 하이퍼플랜을 이용한 K-평균 클러스터링의 2단계 과정으로 이루어져 있다.

  • PDF

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링 (K-means Clustering Method according to Documentation Numbers)

  • 조시성;안동언;정성종;이신원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.345-348
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)를 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

쿼드 트리를 이용한 동적 공간 분할 기반 차분 프라이버시 k-평균 클러스터링 알고리즘 (Differentially Private k-Means Clustering based on Dynamic Space Partitioning using a Quad-Tree)

  • 구한준;정우환;오성웅;권수용;심규석
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.288-293
    • /
    • 2018
  • 최근 공개되는 데이터에 적용하는 다양한 프라이버시 보호 기법들이 연구가 되어왔다. 그 중 차분 프라이버시는 본래의 데이터에 확률적인 노이즈를 더하여 공격자의 사전 지식에 상관없이 개인 정보를 보호한다. 기존 차분 프라이버시를 만족하는 k-평균 클러스터링은 데이터로부터 차분 프라이버시를 만족하는 히스토그램 형태로 바꾼 뒤. k-평균 클러스터링 알고리즘을 수행한다. 하지만 이는 데이터의 분포와 상관없이 등간격으로 히스토그램을 만들기 때문에 노이즈가 삽입되는 버킷이 많아지는 단점이 있다. 이를 해결하기 위해 본 논문에서는 데이터의 분포를 더 적은 버킷으로 나타낼 수 있는 쿼드 트리를 이용하여 히스토그램을 만든 뒤 k-평균을 찾는 알고리즘을 제안한다. 또한, 실험을 통해 기존의 알고리즘보다 더 좋은 성능을 가지는 것을 보인다.

쿼드트리와 균등 샘플링를 이용한 효과적 차분 프라이버시 K-평균 클러스터링 알고리즘 (A Differentially Private K-Means Clustering using Quadtree and Uniform Sampling)

  • 홍대영;구한준;심규석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.25-26
    • /
    • 2018
  • 최근 데이터를 공개할 때 프라이버시를 보호하기 위한 방법들이 연구되고 있다. 그 중 차분 프라이버시(differential privacy)는 최소성 공격 등에 대해서도 안전함이 증명된 익명화 기법이다. 본 논문에서는 기존 차분 프라이버시 -평균 클러스터링 알고리즘의 성능을 개선하고 실생활 데이터를 이용한 실험을 통해 이를 검증한다.

  • PDF

K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정 (Refining Initial Seeds using Max Average Distance for K-Means Clustering)

  • 이신원;이원휘
    • 인터넷정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.103-111
    • /
    • 2011
  • 대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다.