• 제목/요약/키워드: K-means 알고리즘

검색결과 770건 처리시간 0.036초

K-means 알고리즘과 GBR 알고리즘을 이용한 정수장 응집제 투입률 결정 기법 (Determination of coagulant input rate in water purification plant using K-means algorithm and GBR algorithm)

  • 김진영;강복선;정회경
    • 한국정보통신학회논문지
    • /
    • 제25권6호
    • /
    • pp.792-798
    • /
    • 2021
  • 본 논문에서는 인공지능 기반의 빅데이터 분석과 예측을 통하여 정수장의 공정 중 약품투입곤정에서 응집제 투입률을 결정하는 알고리즘을 도출하였다. 또한, 빅데이터 기술 및 인공지능 알고리즘 적용 방법에 대한 분석 및 기존의 학문적, 기술적 자료를 검토하여 유사 분야 적용 사례를 분석 검토하였다. 이를 통한 최적 응집제 투입률 제시를 목표로 운영 근무자의 의사결정 패턴을 입력 변수와 출력변수의 관계 패턴으로 학습한 후 학습된 패턴을 실제 응집제 주입 공정에 적용하여 침전수 탁도가 목표치에 근사한 일정 수준을 유지할 수 있도록 운영이 가능하였다. 데이터 범위 산정과 전처리를 거친 변수를 선정하여 알고리즘 수행을 준비한 후 군집화와 분류 알고리즘을 적용하여 알고리즘 수행과 결과에 대한 피드백을 반복하여 학습을 진행하였다.

분산 인 메모리 DBMS 기반 병렬 K-Means의 In-database 분석 함수로의 설계와 구현 (Design and Implementation of Distributed In-Memory DBMS-based Parallel K-Means as In-database Analytics Function)

  • 구해모;남창민;이우현;이용재;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2018
  • 데이터의 양이 증가하면서 단일 노드 데이터베이스로는 저장과 처리를 동시에 수행하기에는 부족하다. 따라서, 데이터를 분산시켜 복수 노드로 구성된 분산 데이터베이스에 저장되고 있으며 분석 역시 효율성을 위해 병렬 기능을 제공해야한다. 전통적인 분석 방식은 데이터베이스에서 분석 노드로 데이터를 이동시킨 후 분석을 수행하기 때문에 네트워크의 비용이 발생하며 사용자가 분석을 위해 분석 프레임 워크도 다를 수 있어야한다. 본 연구는 군집화 분석 기법인 K-Means 군집화 알고리즘을 관계형 데이터 베이스와 칼럼 기반 데이터베이스를 이용한 분산 데이터베이스 환경에서 SQL로 구현하는 In-database 분석 함수로의 설계와 구현 그리고 관계형 데이터베이스에서의 성능 최적화 방법을 제안한다.

쿼드트리와 균등 샘플링를 이용한 효과적 차분 프라이버시 K-평균 클러스터링 알고리즘 (A Differentially Private K-Means Clustering using Quadtree and Uniform Sampling)

  • 홍대영;구한준;심규석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.25-26
    • /
    • 2018
  • 최근 데이터를 공개할 때 프라이버시를 보호하기 위한 방법들이 연구되고 있다. 그 중 차분 프라이버시(differential privacy)는 최소성 공격 등에 대해서도 안전함이 증명된 익명화 기법이다. 본 논문에서는 기존 차분 프라이버시 -평균 클러스터링 알고리즘의 성능을 개선하고 실생활 데이터를 이용한 실험을 통해 이를 검증한다.

  • PDF

K-means 알고리즘 기반 클러스터링 인덱스 비교 연구 (A Performance Comparison of Cluster Validity Indices based on K-means Algorithm)

  • 심요성;정지원;최인찬
    • Asia pacific journal of information systems
    • /
    • 제16권1호
    • /
    • pp.127-144
    • /
    • 2006
  • The K-means algorithm is widely used at the initial stage of data analysis in data mining process, partly because of its low time complexity and the simplicity of practical implementation. Cluster validity indices are used along with the algorithm in order to determine the number of clusters as well as the clustering results of datasets. In this paper, we present a performance comparison of sixteen indices, which are selected from forty indices in literature, while considering their applicability to nonhierarchical clustering algorithms. Data sets used in the experiment are generated based on multivariate normal distribution. In particular, four error types including standardization, outlier generation, error perturbation, and noise dimension addition are considered in the comparison. Through the experiment the effects of varying number of points, attributes, and clusters on the performance are analyzed. The result of the simulation experiment shows that Calinski and Harabasz index performs the best through the all datasets and that Davis and Bouldin index becomes a strong competitor as the number of points increases in dataset.

WLAN 실내 측위 결정을 위한 KNN/PFCM Hybrid 알고리즘 (KNN/PFCM Hybrid Algorithm for Indoor Location Determination in WLAN)

  • 이장재;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.146-153
    • /
    • 2010
  • 무선 네트워크 기반 실내 측위는 측위를 위한 특수 장비를 필요로 하지 않고, Fingerprinting 방식은 무선 네트워크 기반 측위를 위한 기술 중에서 가장 정확도가 높기 때문에 무선 네트워크 Fingerprinting 방식이 가장 적당한 실내 측위 방법이다. Fingerprinting 방식에서 KNN은 WLAN 기반 실내 측위에 가장 많이 적용되고 있지만 KNN의 성능은k개의 이웃 수와 RP의 수에 따라 민감하다. 논문에서는 KNN 성능을 향상시키기 위해 PFCM 군집화를 적용한 KNN과 PFCM을 혼합한 알고리즘을 제안하였다. 제안한 알고리즘은 신호잡음비 데이터를 KNN 방법에 적용하여k개의 RP을 선택한 후 선택된 RP의 신호잡음비를 PFCM에 적용하여k개의 RP를 군집하여 분류한다. 실험 결과에서는 위치 오차가 2m 이내에서 KNN/PFCM 알고리즘이 KNN과 KNN/FCM 알고리즘보다 성능이 우수하다.

K-Means 클러스터링에서 초기 중심 선정 방법 비교 (Comparison of Initial Seeds Methods for K-Means Clustering)

  • 이신원
    • 인터넷정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.1-8
    • /
    • 2012
  • 클러스터링 기법은 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화 하는 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 또한 초기 클러스터 중심이 임의로 설정되기 때문에 클러스터링 결과가 편차가 심하다. 본 논문에서는 클러스터링에 소요되는 시간을 줄이고 안정적인 클러스터링을 하기 위해 초기 클러스터 중심 선정 방법을 삼각형 높이를 이용하는 방법을 제안하고 비교 실험해 봄으로서 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다. 실험결과로 평균 총소요시간을 보면 최대평균거리를 이용하는 방법은 기존 방법에 비해서 17.9% 감소하였고, 제안한 방법은 38.4% 감소하였다.

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF

가우시안 가중치를 이용한 비선형 블라인드 채널등화를 위한 MFCM의 성능개선 (Performance Improvement on MFCM for Nonlinear Blind Channel Equalization Using Gaussian Weights)

  • 한수환;박성대;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.407-412
    • /
    • 2007
  • 본 논문에서는 비선형 블라인드 채널등화기의 구현을 위하여 가우시안 가중치(gaussian weights)를 이용한 개선된 퍼지 클러스터(Modified Fuzzy C-Means with Gaussian Weights: MFCM_GW) 알고리즘을 제안한다. 제안된 알고리즘은 기존 FCM 알고리즘의 유클리디언 거리(Euclidean distance) 값 대신 Bayesian Likelihood 목적함수(fitness function)와 가우시안 가중치가 적용된 멤버쉽 매트릭스(partition matrix)를 이용하여, 비선형 채널의 출력으로 수신된 데이터들로부터 최적의 채널 출력 상태 값(optimal channel output states)들을 직접 추정한다. 이렇게 추정된 채널 출력 상태 값들로 비선형 채널의 이상적 채널 상태(desired channel states) 벡터들을 구성하고, 이를 Radial Basis Function(RBF) 등화기의 중심(center)으로 활용함으로써 송신된 데이터 심볼을 찾아낸다. 실험에서는 무작위 이진 신호에 가우시안 잡음이 추가된 데이터를 사용하여 기존의 Simplex Genetic Algorithm(GA), 하이브리드 형태의 GASA(GA merged with simulated annealing (SA)), 그리고 과거에 발표되었던 MFCM 등과 그 성능을 비교 분석하였으며, 가우시안 가중치가 적용된 MFCM_GW를 이용한 채널등화기가 상대적으로 정확도와 속도 면에서 우수함을 보였다.

  • PDF

신경망을 이용한 벡터 양자화의 코드북 설계 (A Codebook Design for Vector Quantization Using a Neural Network)

  • 주상현;원치선;신재호
    • 한국통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.276-283
    • /
    • 1994
  • 백터양자와를 위한 신경망을 사용은 그것의 적응적 설계 특성으로 더 좋은 코드북을 설계할 수 있을 것으로 기대되며, 또한 설계된 코드북의 코드워드는 자동정렬되어 실시간 탐색을 가능케 한다. 신경망의 이러한 장점을 살리기 위하여 본 논문에서는 KSFM(Kohonen`s Self-organizing Feature Map)을 수정하고, K-means 알고리즘을 결함한 새로운 코드북 설계 할고리즘을 제안한다. 실험결과로 부터 제안된 알고리즘의 성능향상과 실시간 처리를 위한 코드북의 부분탐색 가능성을 확인하였다.

  • PDF

내용기반 검색을 위한 자연 영상의 칼라양자화 방법 (Color Quantization of Natural Images for Content-Based Retrieval)

  • 길연희;김성영;박창민;김민환
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.266-270
    • /
    • 2000
  • 내용기반 영상검색시스템에서 객체 단위로 영상을 검색하기 위해서는 영상에서 의미있는 객체를 추출하는 과정이 필수적이며, 이를 위해 영역 분할을 효율적으로 수행하기 위한 양자화가 선행되어야 한다. 일반적인 칼라 양자화 기법은 칼라 수를 줄이되 양자화 된 영상이 원시 영상과 가능할 비슷해 보이도록 하는 것을 목적으로 하지만, 영역 분할을 위한 칼라 양자화에서는 칼라의 표현보나는 의미있는 객체를 용이하게 추출할 수 있도록 양자화 하는 것을 목적으로 한다. 본 논문에서는 기존의 Octree 양자화 방법과 K-means 알고리즘의 장점을 조합하여 영역 분할에 용이한 양자화 결과를 얻을 수 있는 방법을 제안한다. 먼저, Octree 양자화 방법을 수행하여 얻어진 양자화 된 칼라들 중에서 시각적으로 유사한 칼라를 병합함으로써, Octree 양자화 방법의 단점인 강제 분할 문제점을 해결한다. 이어서, 병합 후의 양자화 된 칼라에 대해서만 K-means 알고리즘을 수행함으로써, 보다 빠른 시간 내에 영역 분할에 적합한 양자화 된 영상을 얻는다. 실험을 통해 제안한 방법의 효용성을 확인하였다.

  • PDF