• 제목/요약/키워드: K-means 알고리즘

검색결과 770건 처리시간 0.032초

Hard 분산 분할 기반 추론 시스템을 이용한 비선형 공정 모델링 (Nonlinear Process Modeling Using Hard Partition-based Inference System)

  • 박건준;김용갑
    • 한국정보전자통신기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.151-158
    • /
    • 2014
  • 본 논문에서는 Hard 분산 분할 방법을 이용하는 추론 시스템을 소개하고 비선형 공정을 모델링한다. 이를 위해 입력 공간을 분산 형태로 분할하고 소속 정도가 0 또는 1을 갖는 Hard 분할 방법을 이용한다. 제안한 방법은 C-Means 클러스터링 알고리즘에 의해 구현되며, 초기 중심값에 민감한 단점을 보완하기 위해 LBG 알고리즘을 적용하여 이진 분할에 의한 초기 중심값을 이용한다. Hard 분산 분할된 입력 공간은 규칙 기반의 시스템 모델링에서 규칙을 형성한다. 규칙의 전반부 파라미터는 C-Means 클러스터링 알고리즘에 의한 소속행렬로 결정된다. 규칙의 후반부는 다항식 함수의 형태로 표현되며, 각 규칙의 후반부 파라미터들은 표준 최소자승법에 의해 동정된다. 비선형 공정으로는 널리 이용되는 데이터를 이용하여 비선형 공정을 모델링한 후 특성을 평가한다.

RFM 기법과 K-Means 알고리즘을 이용한 고객 분류 (A Study on Customer rating using RFM and K-Means)

  • 지현정;신경일;신동일;신동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.803-806
    • /
    • 2017
  • 고객의 행동을 분석하기 위한 RFM(Recency, Frequency, Monetary)은 마케팅 분양에서 널리 쓰이고 있는 시작분석기법이다. 최근 축적되는 데이터가 많아지면서 이를 활용하기 위해 기계학습에 대한 관심이 증가하였다. 따라서 RFM 기법과 다양한 알고리즘을 결합하여 데이터를 분석하고자 하는 시도가 이루어지고 있다. 본 논문에서는 RFM 기법과 대표적인 클러스터링 알고리즘인 k-means를 통하여 고객을 등급화 하는 방법에 대해 실험하였다. 기존의 실험에서는 k값을 8 혹은 9로 지정하는 사례가 많았다. 그러나 본 실험에서는 내부평가방법을 통해 데이터 셋에 대한 최적의 k값을 구해보았고, 실험 결과 사용한 4개의 데이터 셋에서 3이라는 동일한 결과가 나왔다.

깊이정보 생성을 위한 영상 분할에 관한 연구 (A study on image segmentation for depth map generation)

  • 임재성
    • 한국산학기술학회논문지
    • /
    • 제18권10호
    • /
    • pp.707-716
    • /
    • 2017
  • 디스플레이 기기들이 고도화 되면서, 사용자의 목적에 부합하는 영상이 요구되어져 가고 있다. 따라서, 3D 디스플레이에서 필요하게 되는 깊이 정보가 요구될 때 디스플레이 기기들은 객체 기반의 영상 정보를 제공 할 수 있어야 한다. 따라서, 본 논문에서 깊이 정보 생성을 위한 히스토그램 기반의 영상분할 알고리즘을 제안한다. 기존의 K 군집 알고리즘에서 군집의 수를 파라미터화 하여, 영상에 적응적으로 군집 수를 결정할 수 없게 되는 한계를 지닌다. 또한, k 군집 알고리즘이 지니고 있던 지역 최소점에 빠져 영상 분할에 있어 과분할을 야기하는 지역 최소점에 빠지게 되는 경향이 있다. 반면에, 제안하는 알고리즘은 분할해야할 군집 선정에서 계산량을 고려하여 적응적으로 선택 가능할 수 있게 하는 히스토그램 기반의 알고리즘을 설계하여 적응적으로 선택 가능하게 하였다. 기존 알고리즘이 가지고 있었던 지역 최소점에 빠지지 않도록 방지하게 하여 결과 영상에서 객체 기반의 결과를 보여줄 수 있도록 설계 했다. 이 후 연결요소 알고리즘을 통해 과분할 요소를 제거했다. 따라서, 제안하는 알고리즘은 객체 기반의 깊이 정보 결과를 보여 줄 뿐만 아니라, 벤치마크 방법에 비해 확률 랜드 인덱스, 분할 커버링 측면에서도 각각 벤치마크 방법에 비해 0.017, 0.051으로 향상된 결과치를 보여준다.

개체 구조에 따른 유전자 알고리즘 기반의 문서 클러스터링 성능 비교 (Comparison of Document Clustering algorithm using Genetic Algorithms by Individual Structures)

  • 최임천;쏭웨이;박순철
    • 한국산업정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.47-56
    • /
    • 2011
  • 유전자 알고리즘을 문서 클러스터링에 적용하기 위해서는 적절한 개체 구조가 필요 하다. 기존의 유전자 알고리즘을 이용한 문서 클러스터링(DCGA)은 센트로이드 벡터 형식의 개체 구조를 사용하였다. 새로운 유전자 알고리즘을 이용한 문서 클러스터링(NDAGA)은 문서 할당 형식의 개체 구조를 사용한다. 본 논문에서는 문서 클라스터링에 더 적합한 개체 구조와 연산을 결정하기 위해 두 개체 구조의 차이에 따른 연산, 연산량, 클러스터링 수행 시간, 성능을 구체적으로 비교, 분석한다. 본 논문에서 수행한 다양한 실험에서 NDCGA가 DCGA와 비교하여 15%정도 더 빠른 수행 시간과, 약 5~10% 정도 더 높은 성능을 보여, 문서 할당 형식의 개체 구조가 센트로이드 벡터 형식의 개체 구조 보다 문서 클러스터링에 적합한 것을 증명한다. 또한 NDCGA는 전통적인 클러스터링 알고리즘들(K-means, Group Average)에 비해서 15~20% 더 좋은 성능을 보였다.

클러스터링 알고리즘기반의 상황인식 사용자 분석 (Context-awareness User Analysis based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.942-948
    • /
    • 2020
  • 본 논문에서는 상황인식 속성정보를 이용하여 클러스터링내에서 보다 효율적인 사용자 구분이 가능한 군집적 알고리즘을 제안한다. 일반적으로 클러스터링 데이터를 처리함에 있어 군집 정보내에서 상호관계를 분류하기 위해 제공되는 데이터는 신규 또는 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리될 경우, 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해 K-means알고리즘을 이용함에 있어 사용자 인식 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 시스템 내 누적된 정보를 이용하여 자율적인 사용자 군집 특징을 분석하고, 이를 통하여 사용자의 속성간에 따른 클러스터를 구성해 사용자를 구분하게 된다. 제안한 알고리즘은 적용한 모의실험 결과를 통해 다중 사용자를 군집단위로 분류하고 유지하는 측면에서 사용자 관리 시스템이 보다 향상된 적응성을 보여주었다.

영상 잡음 제거를 위한 주성분 분석 기반 비 지역적 평균 알고리즘의 효율적인 공분산 행렬 계산 방법 (An Efficient Method to Compute a Covariance Matrix of the Non-local Means Algorithm for Image Denoising with the Principal Component Analysis)

  • 김정환;정제창
    • 방송공학회논문지
    • /
    • 제21권1호
    • /
    • pp.60-65
    • /
    • 2016
  • 본 논문에서는 영상에 존재하는 잡음 (noise) 들을 제거하는 방법 중 하나인 비 지역적 평균 (non-local means, NLM) 알고리즘을 먼저 소개하고 비 지역적 평균 알고리즘의 개선된 방법 중 하나인 주성분 분석 (principal component analysis, PCA) 기반의 알고리즘에 대해서도 소개한다. 주성분 분석을 활용하기 위해서는 선행적으로 공분산 행렬 (covariance matrix)을 구해야 하는데, 영상의 모든 픽셀들을 대상으로 하였을 때 이 공분산 행렬을 구하기 위해서는 큰 크기를 가지는 행렬 곱 연산이 필요하다. 만약 비 지역적 평균 알고리즘의 영상 패치 (neighborhood patch) 의 크기를 S × S = S2, 영상 전체의 픽셀 수를 Q라고 한다면 공분산 행렬을 구하기 위해서는 S2 × Q 크기의 행렬 곱 연산이 필요하게 된다. 이는 영상의 특성을 고려하면 비효율적인 연산이다. 따라서 본 논문에서는 공분산 행렬을 효율적으로 구하기 위해, 영상 패치들간의 일정 간격을 유지하면서 샘플링을 하는 방법을 제안하고자 한다. 최종적으로, 샘플링 후에는 S2 × floor (Width/l) × (Height/l) 크기를 가진 행렬의 곱 연산으로 공분산 행렬을 구할 수 있다.

평균 이동 알고리즘 기반의 지지 벡터 영역 표현 방법 (Support Vector Data Description using Mean Shift Clustering)

  • 장형진;김표재;최정환;최진영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.307-309
    • /
    • 2007
  • SVDD의 scale prob1em을 해결하기 위하여, 학습 데이터를 sub-groupings하여 group 단위로 SVDD를 통해 학습함으로써 학습 시간을 줄이는, K-means clustering을 이용한 SVDD 방범(KMSVDD)이 제안되었다. 하지만 KMSVDD는 K-means clustering 알고리즘의 본질상 최적의 K값을 정하기 힘들다는 문제와, 동일한 데이터를 학습할지라도 clustered group이 램덤하게 형성되기 때문에 매번 학습의 결과가 달라지는 문제점이 있었다. 또한 데이터의 분포 상태와 관계없이 무조건 타원(dlliptic) 형태의 K개의 cluster로 나누기 때문에 각각의 나눠진 cluster들은 데이터 분포에 대한 특징을 나타내기 힘들게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 데이터 분포에서 mode를 먼저 찾은 후 이 mode를 기준으로 clustering하는 Mean Shift clustering 방법을 이용한 SVDD를 제안하고자 한다. 제안된 알고리즘은 KMSVDD와 비교해 데이터 학습 속도에서는 큰 차이가 없으면서도 데이터의 분포 상태를 고려한 형태로 clustering 한 sub-group을 학습하므로 학습의 정확도가 일정하게 되며, 각각의 cluster는 데이터 분표의 특징을 포함하는 효과가 있다. 또한 Mean Shift Kernel의 bandwidth의 결정은 K-Means의 K와는 달리 어느 정도 여유를 갖고 결정되어도 학습 결과에는 차이가 없다. 다양한 데이터들을 이용한 모의실험을 통하여 위의 내용들을 검증하도록 한다.

  • PDF

암호화된 데이터에 대한 프라이버시를 보존하는 k-means 클러스터링 기법 (Privacy-Preserving k-means Clustering of Encrypted Data)

  • 정윤송;김준식;이동훈
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1401-1414
    • /
    • 2018
  • k-means 클러스터링 알고리즘은 주어진 데이터를 비슷한 k개의 그룹으로 묶어서 시장 세분화나 의료연구 등의 다양한 분야에서 활용되고 있다. 본 논문에서는 다수의 사용자 데이터를 노출하지 않고 암호화하여 외부 서버에 저장하는 환경에서 프라이버시를 보존하는 클러스터링 알고리즘을 제안한다. 분산된 서버에 평문으로 저장된 데이터를 다자간 계산프로토콜을 기반으로 수행된 기존 클러스터링 알고리즘 연구와 비교했을 때 제안하는 기법은 모든 데이터를 안전하게 암호문으로 저장할 수 있다는 뚜렷한 장점이 있다. 데이터 간의 거리를 측정하고 비교하기 위해서 덧셈과 곱셈 연산이 가능한 완전동형암호로 데이터를 암호화한다. 프로토콜 수행과정에서 사용자 데이터의 안전성을 분석하고 통신량과 연산량을 다른 연구들과 비교한다.

무선 센서 네트워크에서의 머신러닝을 활용한 에너지 효율적인 클러스터 라우팅 방안 연구 (Energy Efficient Cluster Routing Method Using Machine Learning in WSN)

  • 강미영
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.124-130
    • /
    • 2023
  • 본 논문에서는 K-평균 군집화 알고리즘을 사용하는 머신러닝을 활용하여 무선 센서 네트워크에서 센서 노드의 에너지 효율성을 향상시켜 네트워크의 수명을 향상시키고자 한다. 무선 센서 네트워크는 물리적인 센서로 배터리를 포함한 물리적 장치를 무선 네트워크로 구성한 것으로 센서 노드의 특성 상 에너지 소비를 최소화하여 네트워크 수 명을 최대화하기 위해 모든 자원을 효율적으로 사용해야 한다. 클러스터기반 접근 방식은 상대적으로 많은 수의 노 들로 구성된 그룹을 관리하는데 사용된다. 제안된 프로토콜에서는 기존의 LEACH 알고리즘을 개선하여 클러스터 기반 접근방식과 위치기반 접근 방식을 사용하여 클러스터 헤드를 선정하는 클러스터링 알고리즘을 제안한다. 개선 하고자 했던 성능 결과를 Matlab 시뮬레이션을 이용하여 측정하였다. 실험 결과를 통해 에너지 효율성 부분에 대해 K-means 클러스터링을 적용함으로써 에너지 효율이 개선되어 젠체 네트워크의 수명이 연장됨을 확인한다.

토너먼트 기반의 빅데이터 분석 알고리즘 (An Algorithms for Tournament-based Big Data Analysis)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.545-553
    • /
    • 2015
  • 모든 데이터는 그 자체로 가치를 가지고 있지만, 실세계에서 수집되는 데이터들은 무작위적이며 비구조화되어 있다. 따라서 이러한 데이터를 효율적으로 활용하기 위해서 데이터에서 유용한 정보를 추출하기 위한 데이터 변환과 분석 알고리즘들을 사용하게 된다. 이러한 목적으로 사용되는 것이 데이터 마이닝이다. 오늘날에는 데이터를 분석하기 위한 다양한 데이터 마이닝 기법뿐만 아니라, 대용량 데이터를 효율적으로 처리하기 위한 연산 요건과 빠른 분석 시간을 필요로 하고 있다. 대용량 데이터를 저장하기 위하여 하둡이 많이 사용되며, 이 하둡의 데이터를 분석하기 위하여 맵리듀스 프레임워크를 사용한다. 본 논문에서는 단일 머신에서 동작하는 알고리즘을 맵리듀스 프레임워크로 개발할 때 적용의 효율성을 높이기 위한 토너먼트 기반 적용 방안을 제안하였다. 본 방법은 다양한 알고리즘에 적용할 수 있으며, 널리 사용되는 데이터 마이닝 알고리즘인 k-means, k-근접 이웃 분류에 적용하여 그 유용성을 보였다.