• 제목/요약/키워드: K-means clustering 기법

검색결과 267건 처리시간 0.024초

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF

2단계 k-평균 군집화를 활용한 한류컨텐츠 기업 주가 예측 연구 (A Study On Predicting Stock Prices Of Hallyu Content Companies Using Two-Stage k-Means Clustering)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.169-179
    • /
    • 2021
  • 본 연구는 기존의 k-평균 군집화를 활용한 2단계 k-평균 군집화 방법을 사용하여 한류콘텐츠 기업들의 주식가격을 예측함으로써 본 기법이 예측성능을 개선할 수 있음을 보이고자 하였다. 이를 위하여 본 연구는 2단계 k-평균 군집화의 알고리즘을 소개하고, 다양한 머신러닝 기법들과의 예측값 비교를 통하여 본 기법의 예측성능을 검증하였다. 본 기법은 기존의 k-평균 군집화로부터 얻어진 군집들 중에서 예측 대상에 근접한 군집을 추출하고 이 군집에 k-평군 군집화 방법을 다시 적용하여 실제 값에 보다 근접한 군집을 탐색하는 방식이다. 본 기법을 한류콘텐츠 기업들의 주가 시계열 자료에 적용한 결과, 다른 머신러닝 기법의 예측값들보다 실제 주식가격에 근접한 예측값을 나타내어, 기존의 k-평균 군집화 방법보다 개선된 예측성능을 보였다. 또한, 본 기법은 상대적으로 적은 크기의 군집을 사용함에도 불구하고 비교적 안정적인 예측값을 나타내었다. 이에 따라, 2단계 k-평균 군집화 기법은 예측의 정확성과 안정성을 동시에 개선할 수 있으며, 소규모 자료에도 유용할 수 있는 새로운 군집화 방식을 제시했다고 볼 수 있다. 향후에는 본 기법을 발전시켜 대규모 자료에도 적용하는 방안을 검토하는 연구가 요구된다.

디자인 패턴을 적용한 위성영상처리를 위한 군집화 분류시스템의 설계 (A Design of Clustering Classification Systems using Satellite Remote Sensing Images Based on Design Patterns)

  • 김동연;김진일
    • 정보처리학회논문지B
    • /
    • 제9B권3호
    • /
    • pp.319-326
    • /
    • 2002
  • 본 논문에서는 위성영상을 처리하기 위한 무감독분류 기법인 군집분류 시스템을 설계하고 구현하였다. 구현된 시스템은 새로운 위성영상 포맷과 군집분류 기법의 지원이 용이하고, 확장성 있는 시스템의 설계를 위하여 팩토리 패턴과 전략적 패턴 등 다양한 디자인 패턴을 적용하였다. 군집분류 시스템은 순차군집분류 기법, K-Means 군집분류 기법, ISODATA 기법, Fuzzy C-Means군집분류 기법을 설계, 구현하였으며 Landsat TM 위성영상을 분류기의 입력영상으로 실험하였다. 그 결과 군집분류 기법은 사전지식이 없는 위성영상의 분류를 위한 표본영역의 추출작업과 위성영상의 실시간 분류에 효과적인 사용이 가능함을 보였으며, 재사용성 및 확장성이 우수한 시스템을 개발하였다.

K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정 (Refining Initial Seeds using Max Average Distance for K-Means Clustering)

  • 이신원;이원휘
    • 인터넷정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.103-111
    • /
    • 2011
  • 대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다.

흰개미 군집 알고리즘을 이용한 유사 블로그 추천 시스템에 관한 연구 (A Study of Similar Blog Recommendation System Using Termite Colony Algorithm)

  • 정기성;조이석;이말례
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.83-88
    • /
    • 2013
  • 본 연구의 목적은 유사 블로그 추천 시스템을 통해서 특정 주제의 유사도에 따라 주제를 찾아 주는 것이다. 유사 추천 시스템을 실현하기 위해서는 대규모 데이터 집합에서 유사항목을 가진 그룹을 찾을 수 있도록 군집해야 한다. 군집화(clustering) 기법은 군집하고자 하는 목적에 따라 적합한 기법과 군집수가 결정되어야 한다. 군집기법으로는 가장 많이 사용되는 K-means 알고리즘을 사용 하였고 추천 알고리즘은 흰개미 군집 알고리즘을 사용하였다. 흰개미 습성 모델을 이용한 군집화 기법은 K-means 알고리즘이 갖고 있는 적절한 군집 갯수 문제점을 해결하고, 군집화 시간을 단축하며, 군집을 위한 군집 평균 이동횟수를 개선한다.

K-Means 클러스터링에서 초기 중심 선정 방법 비교 (Comparison of Initial Seeds Methods for K-Means Clustering)

  • 이신원
    • 인터넷정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.1-8
    • /
    • 2012
  • 클러스터링 기법은 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화 하는 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 또한 초기 클러스터 중심이 임의로 설정되기 때문에 클러스터링 결과가 편차가 심하다. 본 논문에서는 클러스터링에 소요되는 시간을 줄이고 안정적인 클러스터링을 하기 위해 초기 클러스터 중심 선정 방법을 삼각형 높이를 이용하는 방법을 제안하고 비교 실험해 봄으로서 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다. 실험결과로 평균 총소요시간을 보면 최대평균거리를 이용하는 방법은 기존 방법에 비해서 17.9% 감소하였고, 제안한 방법은 38.4% 감소하였다.

K-Means Clustering 알고리즘 기반 클라우드 동적 자원 관리 기법에 관한 연구 (A Study on Dynamic Resource Management Based on K-Means Clustering in Cloud Computing)

  • 곽민기;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.107-110
    • /
    • 2021
  • 글로벌 퍼블릭 클라우드 산업 규모는 매년 폭발적으로 성장하고 있으며 최근 COVID-19 등 비대면 문화 확산에 따라 지속 확장되고 있다. 클라우드 사업자는 유한한 인프라 자원으로 다수의 사용자에게 양질의 IT 서비스 제공을 위해 잉여 자원 할당을 최소화하는 것이 중요하다. 그러나 일반적인 퍼블릭 클라우드 환경에서는 정적 자원 할당 기법을 채택하고 있기 때문에 사용자의 주관적인 판단에 따라 잉여 자원의 발생은 필연적이다. 본 논문에서는 머신 러닝 기법 중 K-Means Clustering 알고리즘을 적용하여 클라우드 동적 자원 관리 기법을 제안한다. K-Means Clustering 기반으로 클라우드에 탑재된 각 Instance 의 자원 사용률 데이터를 분석하고, 분석 결과를 토대로 각 Instance 가 속한 Cluster 에 대하여 자원 최적화 작업을 수행한다. 이를 통해 전체 데이터센터 관점에서 잉여 자원의 발생을 최소화하면서도 SLA 수준 및 서비스 연속성을 보장한다.

노인 운전자의 공격적인 운전 상태 검출 기법 (A Method of Detecting the Aggressive Driving of Elderly Driver)

  • 고동우;강행봉
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.537-542
    • /
    • 2017
  • 공격적인 성향의 운전은 자동차 사고의 주요한 원인이 된다. 기존 연구에서는 공격적 성향의 운전을 검출하기 위해, 주로 청년을 대상으로 연구가 이뤄졌으며 기계학습의 순수한 Clustering 또는 Classification 기법을 통해 이뤄졌다. 그러나 노인들은 취약한 신체적 조건에 의해 젊은 운전자와는 다른 운전 강도를 가지고 있어 기존의 방식으로는 검출이 불가능 하며, 데이터를 보정하는 등의 새로운 방법이 필요하다. 그리하여, 본 연구에서는 기존의 클러스터링 기법(K-means, Expectation - maximization algorithm)에, 새롭게 제안하는 ECA(Enhanced Clustering method for Acceleration data)기법을 추가하여, 주행 차량에 위치한 스마트폰으로부터 수집된 가속도 데이터를 분석하고 공격적인 운전 형태를 검출해 낸다. ECA는 모든 피험자의 데이터에서 K-means와 EM을 통해 검출된 군집군의 데이터 중 높은 강도의 데이터를 선별하여, 특징을 스케일링한 값을 통해 모델링한다. 본 방식을 통해 기존의 연구의 순수한 클러스터링 방식과는 달리, 모든 청장년 및 노인 실험 참가자 개인들의 공격적인 운전 데이터가 검출되었으며, 클러스터링 기법간의 비교를 통해 K-means 기법이 보다 높은 검출 효율을 갖고 있음을 확인했다. 또한, K-means 방식을 검출한 공격적인 운전 데이터에서는 젊은 운전자가 노인운전자에 비해 1.29배의 높은 운전 강도를 가지고 있음을 발견했다. 이와 같이 본 연구에서 제안된 방식은 낮은 운전 강도를 갖고 있는 노인의 데이터에서 공격적인 운전을 검출 가능하게 되었으며, 특히. 제안된 방법은 노인 운전자를 위한 맞춤형 안전운전 시스템을 구축이 가능하며, 추후 다양한 연구을 통해 이상 운전 상태를 검출하고 조기 경보하는데 활용이 가능할 것이다.

클러스터 중심 왜곡 저감을 위한 클러스터링 기법 (Clustering Method for Reduction of Cluster Center Distortion)

  • 정혜천;서석태;이인근;권순학
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.354-359
    • /
    • 2008
  • 클러스터링은 주어진 임의의 데이터 중에서 유사한 성질을 지닌 데이터를 복수개의 그룹으로 조직화하는 기법이다. 이를 위해 K-Means, Fuzzy C-Means(FCM), Mountain Method(MM) 등과 같은 많은 기법들이 제안되었고 또한 널리 사용되어지고 있다. 그러나 이러한 기법들은 초기값에 따라 클러스터링 결과가 크게 달라지는 단점이 있다. 특히 가장 널리 사용되는 FCM 기법은 잡음 데이터에 취약하며, 주어진 입력 데이터의 클러스터 내부분산을 최소화 하는 방법을 사용하기 때문에 클러스터링 중심의 왜곡 현상이 발생한다. 본 논문에서는 데이터 가중치에 근거한 비례적 근접데이터 병합을 통하여 클러스터 중심 왜곡을 저감하며 초기값에 영향을 받지 않는 클러스터링 기법을 제안한다. 그리고 FCM으로 얻어진 클러스터 중심과 제안기법을 적용하여 얻어진 클러스터 중심에 대한 비교 검토를 통하여 제안기법의 효용성을 확인한다.

K-평균 군집방법을 이요한 가중커널분류기 (Kernel Pattern Recognition using K-means Clustering Method)

  • 백장선;심정욱
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.447-455
    • /
    • 2000
  • 본 논문에서는 커널분류기에 요구되는 다량의 계산량과 자료저장공간을 감소시키도록 고안된 최적군집방법을 적용한 K-평균 가중커널분류기법이 제안되었다. 이 방법은 원래의 훈련표본보다 작은 수의 참고벡터들과 그들의 가중값을 들을 찾아 원래 커널분류 기준을 근사화하여 패턴을 인식하는 것이다. K-평균 가중커널분류기법은 가중파젠윈도우(WPW)분류기법을 개량한 것으로서 참고벡터들을 계산하기 위한 초기 부적절하게 군집된 관측값들을 최적으로 재군집화 함으로써 WPW기법의 단범을 극복하였다. 실제자료들에 제안된 방법을 적용한 결과 WPW분류기법보다 참고벡터들의 대표성과 자료축소면에서 월등히 향상된 결과를 확인하였다

  • PDF