• 제목/요약/키워드: K-Means 클러스터링

검색결과 363건 처리시간 0.038초

이행적 폐쇄트리를 기반으로 한 점증적 웹 문서 클러스터링 (An Incremental Web Document Clustering Based on the Transitive Closure Tree)

  • 윤성대;고석범
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.1-10
    • /
    • 2006
  • 기존의 문서 클러스터링 기법에는 k-means와 같이 수행속도가 우수한 기법과, 분류의 정확률이 우수한 계층적 집괴 클러스터링 기법이 있다. 두 기법은 각각 분류의 정확률 저하와 저속의 수행속도로서 상호 단점을 가지며, 새로운 문서를 삽입 할 때마다 문서 유사도를 재계산해야 하는 문제가 있다. 웹 정보의 특성은 잦은 문서의 추가를 통해 정보를 축적하는 것이다. 따라서 본 논문에서는 정확률이 우수한 계층적 집괴 클러스터링 기법을 기반으로 수행속도를 향상 시킬 수 있는 이행적 폐쇄 트리 기법을 제안하고, 또한 새로운 문서의 삽입과 삭제에 우수한 점증적인 클러스터링이 가능한 기법을 제안한다. 제안된 기법의 효율성을 검증하기 위하여 기존의 알고리즘과 정확률, 재현율, F-Measure, 수행속도에 대해 비교 평가 및 분석한다.

  • PDF

수질 모니터링 시스템에서의 K-means 클러스터링 모델 (A K-means Clustering Model on a Water Quality Monitoring System)

  • 권대현;조수선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1666-1669
    • /
    • 2010
  • 본 논문에서는 USN환경에서 수질 모니터링 시스템의 일부인 싱크노드에서의 클러스터링 모델을 설계하였다. 싱크노드에서 수집된 많은 데이터 중 핵심 데이터만을 전송하기 위해서 많은 연구들이 진행 중에 있다. 본 논문에서 사용된 K-means 클러스터링 모델은 비슷한 속성들로 이루어진 K개의 클러스터로 데이터들을 묶어 불필요한 중복을 줄이고 위험 요소로 판단되는 데이터들을 추출하는 모델이다. 실험을 통해서 제안한 시스템의 성능을 다른 시스템과 비교하여 얼마나 더 효과적으로 데이터를 축약하였는지 확인할 수 있었다.

클러스터 중심 왜곡 저감을 위한 클러스터링 기법 (Clustering Method for Reduction of Cluster Center Distortion)

  • 정혜천;서석태;이인근;권순학
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.354-359
    • /
    • 2008
  • 클러스터링은 주어진 임의의 데이터 중에서 유사한 성질을 지닌 데이터를 복수개의 그룹으로 조직화하는 기법이다. 이를 위해 K-Means, Fuzzy C-Means(FCM), Mountain Method(MM) 등과 같은 많은 기법들이 제안되었고 또한 널리 사용되어지고 있다. 그러나 이러한 기법들은 초기값에 따라 클러스터링 결과가 크게 달라지는 단점이 있다. 특히 가장 널리 사용되는 FCM 기법은 잡음 데이터에 취약하며, 주어진 입력 데이터의 클러스터 내부분산을 최소화 하는 방법을 사용하기 때문에 클러스터링 중심의 왜곡 현상이 발생한다. 본 논문에서는 데이터 가중치에 근거한 비례적 근접데이터 병합을 통하여 클러스터 중심 왜곡을 저감하며 초기값에 영향을 받지 않는 클러스터링 기법을 제안한다. 그리고 FCM으로 얻어진 클러스터 중심과 제안기법을 적용하여 얻어진 클러스터 중심에 대한 비교 검토를 통하여 제안기법의 효용성을 확인한다.

K-means 알고리즘을 사용한 분산 바이오 데이터 통합화 (Integration of Distributed Biological Data using Modified K-means Algorithm)

  • 류병걸;신동규;신동일;정종일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.32-35
    • /
    • 2007
  • Bioinformatics의 목표는 생물학적인 질의를 해결하는 것과 생물학자들이 수집된 데이터를 분석하고 검색을 하여 생물학자들이 정확한 일을 수행하는 것이다. 인터넷은 여러 조사 그룹의 데이터베이스에 동시에 접근가능한 수단을 제공했으나 이러한 분산 환경에서 많은 양의 데이터는 전송 시의 시간 지연 문제와 최종 검색시의 느린 검색 속도 문제를 나타낸다. 데이터 클러스터링은 데이터의 검색시 이러한 문제점을 해결하기 위하여 이용될 수 있는 방법이지만 단순 적용시에는 데이터의 양에 비례하는 실행 시간이 또 다른 문제를 발생시킨다. 본 논문에서는 바이오데이터의 효율적인 클러스터링을 위한 개선된 분산 클러스터링 시나리오와 이를 위해 수정된 K-means 알고리즘을 제시한다. 최종 실험 결과는 20% 이상 향상된 실행 속도를 보여준다.

  • PDF

클러스터링 균형을 사용하여 최적의 클러스터 개수를 결정하기 위한 효율적인 휴리스틱 (An efficient heuristics for determining the optimal number of cluster using clustering balance)

  • 이상욱
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.792-796
    • /
    • 2009
  • 데이터 클러스터링 분야에서 최적의 클러스터 개수를 추정하는 것은 매우 중요한 일이다. 그것은 클러스터링의 적합성을 판단할 기준을 정하고 그 적합성을 극대화 하는 최적의 클러스터의 개수를 찾는 것이다. 본 논문에서는 클러스터의 적합성을 판단할 기준으로써 클러스터링 균형을 사용하여 최적의 클러스터 개수를 찾기 위한 효율적인 휴리스틱 방법을 제안하였다. k-means 사용하여 가상 및 실제 데이터 셋에 적용한 결과, 제안한 알고리즘이 계산효율 측면에서 우수함을 확인할 수 있었다.

  • PDF

클러스터 측정과 유전자 알고리즘을 이용한 문서 클러스터링 (Document Clustering using Generic Algorithm and Cluster Measurement)

  • 최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.490-493
    • /
    • 2010
  • 본 논문에서는 클러스터 측정(Cluster Measurement)과 유전자 알고리즘을 이용한 문서 클러스링 알고리즘을 제안한다. 유전자 알고리즘의 요소를 클러스터링에 대입하고 클러스터 측정을 적합도 함수에 대입하여 문서 클러스터링을 구현하였다. 성능 평가를 위하여 한국일보-20000/한국일보-40075 문서범주화 실험문서집합의 데이터 셋을 이용하였다. 클러스터링 성능 평가 결과 AS Index가 DB Index, RS Index 보다 좋은 성능을 보여준다. 또한 제안한 알고리즘이 K-means 클러스터링 알고리즘에 비교해 안정적으로 좋은 성능을 보여준다.

웹 개인화를 위한 웹사용자 클러스터링 알고리즘에 관한 연구 (A Study on Web-User Clustering Algorithm for Web Personalization)

  • 이해각
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2375-2382
    • /
    • 2011
  • 웹사이트 운영이 비즈니스 모델로서의 성공을 거두기 위한 가장 중요한 요소 중 하나는 웹사용자의 성향을 분석하여 이를 효율적으로 이용하는 것이다. 사용자 분석을 통하여 사용자들에게 웹사이트의 가치를 효율적으로 전달하고 이를 통하여 운영자는 충분한 수익을 거둘 수 있다. 이러한 점에서 웹 사이트를 이용하는 사용자들의 취향과 행동방식을 얻어내려는 웹 방문 패턴 발견으로써의 사용자 클러스터링은 매우 중요하다. 또한 얻어진 사용자의 클러스터링 정보는 웹 개인화나 웹 사이트를 재구성하는데 필수적이다. 본 논문에서는 사용자 웹 방문 데이터를 정제하고 분류하여 그 특성에 따라 사용자들을 몇 개의 그룹으로 클러스터링 하기 위한 알고리즘이 제안된다. 알고리즘은 2단계로 구성되는데 첫 번째 단계는 초기해를 구하는 단계로서, 패스의 사이각을 이용하여 유사도를 측정하고 이 유사도에 따라 K개의 사용자 그룹으로 분류하여 초기해를 구한다. 두번째 단계는 첫 번째 단계에서 구한 초기해를 개선하여 최적해를 찾는 과정으로서 하이퍼플레인을 이용하여 클러스터링하는 개량된 K-평균알고리즘을 제안한다. 또한 실험을 통하여 기존의 방법과 비교하여 제안된 알고리즘의 효율성과 패스 특성이 보다 정확하게 계산된 클러스터링이 구현됨을 확인할 수 있다.

픽셀간의 칼라공간에서의 거리와 이웃관계를 고려하는 클러스터링을 통한 칼라영상 분할 (Color Image Segmentation based on Clustering using Color Space Distance and Neighborhood Relation Among Pixels)

  • 이화정;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권10호
    • /
    • pp.1038-1045
    • /
    • 2000
  • 본 논문에서는 칼라공간상의 거리와 이웃정보를 이용한 클러스터링을 통한 칼라영상 분할 방법을 제안한다. 칼라영상의 한 픽셀은 칼라정보(R.G.B)와 위치정보(x.y)를 가진다. 대개의 칼라공간에서의 클러스터링방법은 픽셀을 (R,G,B)공간으로 변환후 (R,G,B)공간상의 분포만을 이용하지만 여기서는(R,G,B)와 (x.y)모두를 사용하여 클러스터링함으로 영상의 세그먼트들을 찾는다. 클러스터링 방법으로서 인력을 모방하는 중력 클러스터링(gravitational clustering)을 사용하였다. 이 방법은 클러스터의 중심값과 클러스터 수를 미리 정해주지 않아도 자동적으로 결정할 수 있는 장점이 있다. 중력 클러스터링에서 찾은 클러스터 수를 가지고 다른 클러스터링 방법(K-means)에 입력으로 주어 결과를 비교해 본다. 본 논문에서는 이웃관계를 따라 클러스터링하는 것이 정확한 경계선을 찾는데 효과적임을 보여준다.

  • PDF

쿼드 트리를 이용한 동적 공간 분할 기반 차분 프라이버시 k-평균 클러스터링 알고리즘 (Differentially Private k-Means Clustering based on Dynamic Space Partitioning using a Quad-Tree)

  • 구한준;정우환;오성웅;권수용;심규석
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.288-293
    • /
    • 2018
  • 최근 공개되는 데이터에 적용하는 다양한 프라이버시 보호 기법들이 연구가 되어왔다. 그 중 차분 프라이버시는 본래의 데이터에 확률적인 노이즈를 더하여 공격자의 사전 지식에 상관없이 개인 정보를 보호한다. 기존 차분 프라이버시를 만족하는 k-평균 클러스터링은 데이터로부터 차분 프라이버시를 만족하는 히스토그램 형태로 바꾼 뒤. k-평균 클러스터링 알고리즘을 수행한다. 하지만 이는 데이터의 분포와 상관없이 등간격으로 히스토그램을 만들기 때문에 노이즈가 삽입되는 버킷이 많아지는 단점이 있다. 이를 해결하기 위해 본 논문에서는 데이터의 분포를 더 적은 버킷으로 나타낼 수 있는 쿼드 트리를 이용하여 히스토그램을 만든 뒤 k-평균을 찾는 알고리즘을 제안한다. 또한, 실험을 통해 기존의 알고리즘보다 더 좋은 성능을 가지는 것을 보인다.

정보입자기반 RBFNNs에 의한 하수처리공정 시뮬레이터의 설계 (Design of Sewage Treatment Process Simulator with the Aid of IG-based RBFNNs)

  • 이승주;오성권
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2011년도 제42회 하계학술대회
    • /
    • pp.1958-1959
    • /
    • 2011
  • RBFNNs(Radial Basis Function Neural Networks) 모델의 경우 Min-Max, HCM(Hard C-means)클러스터링 그리고 FCM(Fuzzy C-means)클러스터링 중 한가지를 통해 데이터 입자는 로드 규칙을 생성한 후 퍼지 공간을 분할 및 가우시안 함수의 정점을 정의한다. 본 논문은 기존의 방법과는 다르게 Min-Max와 FCM클러스터링을 혼합하여 로드의 규칙을 생성한 후 퍼지 공간을 분할 및 가우시안 함수의 정정을 정의하는 방법으로 사용하고자 한다. PSO최적화 알고리즘을 이용하여 같은조건에서 최적화한 기존의 방법으로 모델링된 RBFNNs와 Min-Max와 FCM 클러스터링을 혼합하여 사용한 방법의 비교를 통하여 어떤 모델의 성능이 더욱 좋은지 비교하고자 한다.

  • PDF