• 제목/요약/키워드: K-means 클러스터링 알고리즘

검색결과 217건 처리시간 0.024초

K-means 알고리즘을 이용한 계층적 클러스터링에서의 클러스터 계층 깊이 선택 (Selection of Cluster Hierarchy Depth in Hierarchical Clustering using K-Means Algorithm)

  • 이원휘;이신원;정성종;안동언
    • 대한전자공학회논문지SD
    • /
    • 제45권2호
    • /
    • pp.150-156
    • /
    • 2008
  • 정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 K-Means 알고리즘을 이용하여 효율적으로 정보 검색을 하고 검색결과를 계층적으로 볼 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 더 나은 성능을 보임을 알 수 있다.

K-Means 알고리즘을 이용한 다차원 데이터 클러스터링 기법 구현 (An Implementation of Clustering Method using K-Means Algorithm on Multi-Dimensional Data)

  • 임선영;신현순;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1132-1134
    • /
    • 2013
  • K-Means 클러스터링 기법은 데이터마이닝 분야 중 클러스터링 분야에서 가장 널리 쓰이는 방법 중 하나로 주어진 데이터 셋에서 k개의 클러스터를 중심으로 데이터를 분할하는 기법이다. 최근의 데이터는 여러개의 속성을 고려해야 한다. 따라서 본 논문에서는 K-Means 클러스터링 기법을 소개하고, 또 K-Means 클러스터링 기법을 여러 개의 속성을 고려하기 위하여 다차원 데이터에 적용한 실험을 소개한다.

Hybrid Kohonen 네트워크에 의한 항공영상 클러스터링 (Areal Image Clustering using Hybrid Kohonen Network)

  • 이경희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제52차 하계학술대회논문집 23권2호
    • /
    • pp.250-251
    • /
    • 2015
  • 본 논문에서는 자기 조직화 기능을 갖는 Kohonen의 SOM(Self organization map) 신경회로망과 주어지는 데이터에 따라 초기의 클러스터 개수를 설정하여 처리하는 수정된 K-Means 알고리즘을 결합한 Hybrid Kohonen Network 를 제안한다. 또한, 실제의 항공영상에 적용하여 고전적인 K-Means 알고리즘 및 고전적인 SOM 알고리즘보다 우수함을 보인다.

  • PDF

빅데이터에서 개선된 TI-FCM 클러스터링 알고리즘 (Improved TI-FCM Clustering Algorithm in Big Data)

  • 이광규
    • 전기전자학회논문지
    • /
    • 제23권2호
    • /
    • pp.419-424
    • /
    • 2019
  • FCM 알고리즘은 반복 최적화 기법을 통해 최적해를 찾는다. 특히, 클러스터링 초기 중심과 잡음의 위치, 몰려있는 밀도의 위치, 개수에 따라 실행시간 차이가 난다. 하지만 이 방법은 중심점을 점차 갱신해 나가는 방법으로 초기 클러스터 중심이 한 쪽으로 치우치게 되고 클러스터링 결과의 편차가 심해 클러스터링 대푯값의 신뢰도가 떨어진다. 따라서 본 논문에서는 삼각부등식을 이용하여 클러스터 간 거리를 최대한 멀어지게 하여 클러스터 중심 밀도를 결정하는 TI-FCM(Triangular Inequality-Fuzzy C-Means:삼각부등식-FCM)클러스터링 알고리즘을 제안한다. 제안된 방법은 대용량의 빅데이터에서도 FCM에 비해 실제 클러스터에 수렴하는 효과적인 방법이고 실험을 통해 기존 FCM보다 실행시간이 감소됨을 보였다.

웹 개인화를 위한 웹사용자 클러스터링 알고리즘에 관한 연구 (A Study on Web-User Clustering Algorithm for Web Personalization)

  • 이해각
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2375-2382
    • /
    • 2011
  • 웹사이트 운영이 비즈니스 모델로서의 성공을 거두기 위한 가장 중요한 요소 중 하나는 웹사용자의 성향을 분석하여 이를 효율적으로 이용하는 것이다. 사용자 분석을 통하여 사용자들에게 웹사이트의 가치를 효율적으로 전달하고 이를 통하여 운영자는 충분한 수익을 거둘 수 있다. 이러한 점에서 웹 사이트를 이용하는 사용자들의 취향과 행동방식을 얻어내려는 웹 방문 패턴 발견으로써의 사용자 클러스터링은 매우 중요하다. 또한 얻어진 사용자의 클러스터링 정보는 웹 개인화나 웹 사이트를 재구성하는데 필수적이다. 본 논문에서는 사용자 웹 방문 데이터를 정제하고 분류하여 그 특성에 따라 사용자들을 몇 개의 그룹으로 클러스터링 하기 위한 알고리즘이 제안된다. 알고리즘은 2단계로 구성되는데 첫 번째 단계는 초기해를 구하는 단계로서, 패스의 사이각을 이용하여 유사도를 측정하고 이 유사도에 따라 K개의 사용자 그룹으로 분류하여 초기해를 구한다. 두번째 단계는 첫 번째 단계에서 구한 초기해를 개선하여 최적해를 찾는 과정으로서 하이퍼플레인을 이용하여 클러스터링하는 개량된 K-평균알고리즘을 제안한다. 또한 실험을 통하여 기존의 방법과 비교하여 제안된 알고리즘의 효율성과 패스 특성이 보다 정확하게 계산된 클러스터링이 구현됨을 확인할 수 있다.

적응적인 초기치 설정을 이용한 Fast K-means 및 Frizzy-c-means 알고리즘 (A Fast K-means and Fuzzy-c-means Algorithms using Adaptively Initialization)

  • 강지혜;김성수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.516-524
    • /
    • 2004
  • 본 논문에서는 K-means 또는 Fuzzy-c-means 알고리즘에서 클러스터의 중심점을 찾는 과정 중 임의로 선택되는 초기값 선정의 문제를 해결하고, 기존의 단점을 보완하는 새로운 방안으로서 데이터의 분포의 통계적 특성에 따른 초기값 선정 방법을 제안하였다. 기존의 초기값 선정 방법은 초기값에 따라 클러스터링이 매우 민감한 변화를 가져와, 최종적으로 종종 원치 않는 방향으로 가는 문제점을 갖고 있다. 이러한 초기값 선정의 문제가 인지되어 왔지만, 그 문제의 해결방안이 실제적으로 모색된 경우는 없었다. 본 논문에서는 데이타의 통계적 특성을 이용한 초기값 선정 방법을 적용하여, 클러스터링이 형성되는 시간의 단축 및 원치 않는 결과가 생성되는 경우를 약화시켜 시스템의 향상을 가져왔고, 이러한 제안된 알고리즘의 우수성을 기존의 알고리즘과 비교를 통하여 나타내었다.

적응적 Multiple Kernels을 이용한 Interval Type-2 Possibilistic Fuzzy C-Means 방법 (A Novel Approach towards use of Adaptive Multiple Kernels in Interval Type-2 Possibilistic Fuzzy C-Means)

  • 주원희;이정훈
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.529-535
    • /
    • 2014
  • 본 논문에서는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 클러스터링 방법에 multiple Gaussian kernels을 기반으로 한 possibilistic fuzzy C-means multiple kernels(PFCM-MK) 알고리즘을 결합하여 적응적인 하이브리드 클러스터링 방법인 multiple kernels interval type-2 possibilistic fuzzy C-means(IT2PFCM-MK) 방법을 제안 하였다. 일반적으로 possibilistic fuzzy C-means(PFCM) 알고리즘은 fuzzy C-means(FCM) 알고리즘의 단점인 노이즈 민감성 및 특이점 문제와 알고리즘 초기 클러스터의 Prototype에 따라 위치가 겹치는 문제를 해결하기 위해 제안 되었다. 하지만 이 방법 역시 퍼지화 파라미터 값에 따라 위와 같은 문제를 여전히 가지고 있기 때문에 이와 같은 문제를 보완하기 위해 interval type-2 퍼지 접근 방법을 이용 하는 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘을 제안 하였다. 또한 multiple kernels 함수를 interval type-2 possibilistic fuzzy C-means(IT2PFCM) 알고리즘에 적용하여 분류하기 복잡한 형태의 데이터와 노이즈가 있는 데이터에 대하여 보다 정확하고, 향상된 클러스터링을 수행할 수 있다.

클러스터링 알고리즘기반의 COVID-19 상황인식 분석 (Analysis of COVID-19 Context-awareness based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.755-762
    • /
    • 2022
  • 본 논문에서는 학습 예측이 가능한 군집적 알고리즘으로 COVID-19에서 상황인식정보인 질병의 속성정보와 클러스터링를 이용한 군집적 알고리즘을 제안한다. 클러스터링 내에서 처리되는 군집 데이터는 신규 또는 새롭게 입력되는 정보가 상호관계를 예측하기 위해 분류 제공되는데, 이때 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리되면 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 COVID-19에서의 질병속성 정보내 K-means알고리즘을 이용함에 있어 이러한 문제를 해결하기 위해 질병 상호관계 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 자율적인 사용자 군집 특징의 상호관계를 분석학습하고 이를 통하여 사용자 질병속성간에 따른 클러스터를 구성해 사용자의 누적 정보로부터 클러스터의 중심점을 제공하게 된다. 논문에서 제안된 COVID-19의 다중질병 속성정보군집단위로 분류하고 학습하는 알고리즘은 적용한 모의실험 결과를 통해 사용자 관리 시스템의 예측정확도가 학습과정에서 향상됨을 보여주었다.

진화론적으로 최적화된 Context-based RBF 뉴럴 네트워크 설계 (Design of Genetically Optimized Context-based RBFNN)

  • 박호성;오성권;김현기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.258-260
    • /
    • 2009
  • 본 논문에서는 최적화 알고리즘인 유전자 알고리즘과 context-based FCM 클러스터링 방법을 이용하여 새로운 형태의 RBF 뉴럴 네트워크의 포괄적인 설계 방법론을 소개한다. 제안된 구조는 클러스터링 기법을 기반하여 사용된 데이터의 특성에 효과적인 모델을 구축하고자 한다. 또한 유전자 알고리즘을 이용하여 모델의 최적화에 주요한 영향을 미치는 파리미터들(-은닉층에서의 contex의 수, contex에 포괄되는 노드의 수, 그리고 contex에 입력되는 입력변수)을 동조한다. 제안된 모델의 설계 공정은 1) K-means 클러스터링을 통한 context fuzzy set에 대한 정의와 설계, 2) context-based fuzzy clustering에 대한 모델의 적용과 이에 따른 모델 구축의 효율성, 3) 유전자 알고리즘을 통한 모델 최적화를 위한 파라미터들의 최적화와 같은 단계로 구성되어 있다. 구축된 RBF 뉴럴 네트워크의 후반부 다항식에 대한 parameter들은 성능지수를 최소화하기 위해 Least Square Method에 의해서 보정된다. 본 논문에서는 모델을 설계함에 있어서 체계적인 설계 알고리즘을 포괄적으로 설명하고 있으며, 더 나아가 제안된 모델의 성능을 다른 표준적인 모델들과 대조함으로써 제안된 모델의 우수성을 나타내고자 한다.

  • PDF

클러스터링 알고리즘기반의 상황인식 사용자 분석 (Context-awareness User Analysis based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.942-948
    • /
    • 2020
  • 본 논문에서는 상황인식 속성정보를 이용하여 클러스터링내에서 보다 효율적인 사용자 구분이 가능한 군집적 알고리즘을 제안한다. 일반적으로 클러스터링 데이터를 처리함에 있어 군집 정보내에서 상호관계를 분류하기 위해 제공되는 데이터는 신규 또는 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리될 경우, 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해 K-means알고리즘을 이용함에 있어 사용자 인식 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 시스템 내 누적된 정보를 이용하여 자율적인 사용자 군집 특징을 분석하고, 이를 통하여 사용자의 속성간에 따른 클러스터를 구성해 사용자를 구분하게 된다. 제안한 알고리즘은 적용한 모의실험 결과를 통해 다중 사용자를 군집단위로 분류하고 유지하는 측면에서 사용자 관리 시스템이 보다 향상된 적응성을 보여주었다.