• 제목/요약/키워드: 군집 수 결정

검색결과 365건 처리시간 0.028초

새떼 이동의 모방에 의한 k-평균 군집 속도의 향상 (Enhancement of the k-Means Clustering Speed by Emulation of Birds' Motion in Flock)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제9권9호
    • /
    • pp.965-970
    • /
    • 2014
  • K-평균 군집에서 수렴 속도를 향상시키기 위한 노력으로서, 우리는 새떼 이동의 개념을 도입한다. 그들 운동의 특징은 각 새가 그의 가장 가까운 이웃을 쫓아간다는 것이다. 우리는 군집 과정에 이 특징을 활용한다. 일단 한 벡터의 클래스가 결정되면, 그 근처의 몇 벡터들에게 동일한 클래스가 부여된다. 실험 결과 군집 종결에 필요한 계산 반복 횟수가 종전 방법에 비해 유의미하게 작은 것으로 나타났다. 게다가 단일 반복 계산에 소요되는 시간이 5% 이상 짧았다. 벡터와 센트로이드 사이의 거리를 누적한 값으로 군집의 품질을 평가한 바, 본 논문에서 제안한 방법과 종전 방법과의 차이는 거의 없었다. 결론적으로, 본 논문에서 제안한 방법에 의해, 보다 짧은 계산 시간으로 질적 하락 없는 군집을 수행할 수 있었다.

극치강수량의 시공간적 특성을 이용한 지역빈도분석 (Regionalization of Extreme Rainfall with Spatio-Temporal Pattern)

  • 이정주;권현한;김병식;윤석영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1429-1433
    • /
    • 2010
  • 수공구조물의 설계, 수자원 관리계획의 수립, 재해영향 검토 등을 수행할 때, 재현기간에 따른 확률개념의 강우량, 홍수량, 저수량 등을 산정하여 사용하게 되며, 보통 대상지역의 장기 수문관측 자료를 이용하여 수문사상의 확률분포를 산정한 후 재현기간을 연장하여 원하는 설계빈도에 해당하는 양을 추정하게 된다. 미계측지역 또는 관측자료의 보유기간이 짧은 지역의 경우는 지역빈도 분석 결과를 이용하게 된다. 지역빈도해석을 위해서는 강우자료들의 동질성을 파악하는 것이 가장 기본적인 과정이 되며 이를 위해 통계학적인 범주화분석이 선행되어야 한다. 지점 빈도분석의 수문학적 동질성 판별을 위해 L-moment 방법, K-means 방법에 의한 군집분석 등이 주로 사용되며 관측소 위치좌표를 이용한 공간보간법을 적용하여 시각화하고 있다. 강수량은 시공간적으로 변하는 수문변량으로서 강수량의 시간적인 특성 또한 강수량의 특성을 정의하는데 매우 중요한 요소이다. 이러한 점에서 본 연구를 통해 강수지점의 공간적인 좌표 및 강수량의 양적인 범주화에 초점을 맞춘 기존 지역빈도분석의 범주화 과정에 덧붙여 시간적인 영향을 고려할 수 있는 요소들을 결정하고 이를 활용할 수 있는 범주화 과정을 제시하고자 한다. 즉, 극치강수량의 발생 시기에 대한 정량적인 분석이 가능한 순환통계기법을 이용하여 관측 지점별 시간 통계량을 산정하고, 이를 극치강수량과 결합하여 시 공간적인 특성자료를 생성한 후 이를 이용한 군집화 해석 모형을 개발하는데 연구의 목적이 있다. 분석 과정에 있어서 시간속성의 정량화 및 일반화는 순환통계기법을 사용하였으며, 극치강수량과 발생시점의 속성자료는 각각의 평균과 표준편차를 이용하였다. K-means 알고리즘을 이용해 결합자료를 군집화 하고, L-moment 방법으로 지역화 결과에 대한 검증을 수행하였다. 속성 결합 자료의 군집화 효과는 모의데이터 실험을 통해 확인하였으며, 우리 나라의 58개 기상관측소 자료를 이용하여 분석을 수행하였다. 예비해석 단계에서 100회의 군집분석을 통해 평균적인 centroid를 산정하고, 해당 값을 본 해석의 초기 centroid로 지정하여, 변동적인 클러스터링 경향을 안정화시켜 해석이 반복됨에 따라 군집화 결과가 달라지는 오류를 방지하였다. 또한 K-means 방법으로 계산된 군집별 공간거리 합의 크기에 따라 군집번호를 부여함으로써 군집의 번호순서대로 물리적인 연관성이 인접하도록 설정하였으며, 군집간의 경계선을 추출할 때 발생할 수 있는 오류를 방지하였다. 지역빈도분석 결과는 3차원 Spline 기법으로 도시하였다.

  • PDF

다중점 적합성 피드백방법을 이용한 영역기반 이미지 유사성 검색 (Region Based Image Similarity Search using Multi-point Relevance Feedback)

  • 김덕환;이주홍;송재원
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.857-866
    • /
    • 2006
  • 질의 이미지의 시각적 특징이 사용자의 상위 수준 개념을 잘 표현하지 못하기 때문에 이미지 검색 시스템의 성능은 보통 매우 낮다. 의미적으로 유사한 이미지들이 매우 다른 시각적 특징을 보일 수도 있으며 따라서 여러 개의 군집에 분산될 수 있다. 본 논문에서는 영역기반 이미지 검색과 군집-합병을 이용한 새로운 적합성 피드백 방법을 결합한 내용기반 이미지 검색 방법을 제안한다. 주요 목표는 의미적 차이를 줄이기 위해 의미적으로 관련된 군집들을 찾는 것이다. 제안된 방법은 영역기반 군집 과정과 군집-합병 과정으로 이루어진다. 적합한 이미지들의 모든 분할된 영역들을 의미적으로 관련된 계층적인 군집으로 구성한다. 잠재된 군집의 개수를 결정하고 근접한 군집들을 합병한 후 최종 군집의 대표점들로 다중 질의를 표현한다. 군집-합병 과정에서 군집의 개수를 찾고 고차원에서 특이점 문제를 해결하기 위하여 호텔링의 $T^2$ 대신에 v개의 주성분을 이용하는 $T_v^2$를 적용하였으며 $T^2$의 성능과 $T_v^2$의 성능의 차이가 없음을 보인다. 실험 결과는 제안된 방법이 내용기반 이미지 검색 시스템의 성능을 개선하는 데 효율적임을 보여준다.

휴리스틱 진화 알고리즘을 이용한 클러스터링 알고리즘 (A Clustering Algorithm based on Heuristic Evolution Algorithm)

  • 강명구;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.78-80
    • /
    • 2000
  • 클러스터링이란 주어진 데이터들을 유사한 성질을 가지는 군집으로 나누는 것으로 많은 분야에서 응용되고 있으며, 특히 최근 관심의 대상인 데이터 마이닝의 중요한 기술로서 활발히 응용되고 있다. 클러스터링에 있어서 기존의 알고리즘들은 지역적 최적해에 수렴하는 것과 사전에 클러스터 개수를 미리 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적해를 찾는 진화알고리즘을 사용하여 지역적 최적해에 수렴되는 문제점을 개선하였으며, 자동으로 적절한 클러스터 개수를 결정할 수 있게 하였다. 또한 진화알고리즘의 단점인 탐색공간의 확대에 따른 탐색시간의 증가는 휴리스틱 연산을 정의하여 개선하였다. 제안한 알고리즘의 성능 및 타당성을 보이기 위해 가우시안 분포 데이터를 사용하여 제안한 알고리즘의 성능이 우수함을 보였다.

  • PDF

k-means 군집화 기법을 이용한 베트남 스마트워터그리드 계측 데이터 기반 도시 물 사용 패턴 추정 (Estimation of urban drinking water consumption patterns based on smart water grid monitoring data by k-means clustering in Vietnam)

  • 구강민;한국헌;이규민;전경수;염경택
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.419-419
    • /
    • 2021
  • 수자원 관리 패러다임은 공급 위주에서 수요관리로 전환되고 있다. 가용한 수자원은 한정적이나 급속한 인구증가와 도시화로 인한 물 수요의 증가로 수요관리의 효율성이 중시되고 있기 때문이다. 기존 상수도시스템은 노후화로 가동효율이 점차 낮아지고 있으며, 인력으로 월 또는 격월로 소비자의 물 사용량을 검침해 실시간 관리가 불가능하여 수요와 공급의 불균형을 초래한다. 이러한 문제를 해결할 대안으로 IT 기술과 전통적인 물관리 기술을 접목한 Smart Water Grid는 양방향 통신장치를 이용해 실시간으로 소비자의 물 사용량을 모니터링한다. 물 사용 특성을 잘 파악하면 보다 정확한 물 수요 예측이 가능하다. 특히 소비자들의 시간별, 평일, 주말, 그리고 주별 물 사용 특성을 파악하면 미래 물 수요 예측에 도움이 된다. 예측된 물 수요량에 따라 물 공급 배분 계획을 수립하여 운영 효율성을 높일 수 있다. 물 수요예측 방법 중 k-mean 군집분석은 시간별 물 사용량을 이용해 서로 유사한 여러 개의 부분집합으로 할당하여 분류하는 Machine learing 방법으로 물 사용의 유사성을 파악할 수 있다. SWG 연구단은 2019년 Vietnam Hai Duong province에 SWG Pilot plant를 구축하고 27개의 Smart water meter를 설치하여 운영하고 있다. 이에 본 연구에서는 소비자의 물 사용 특성을 분석하기 위해 27개 SWM로부터 수신된 2019년 11월 14일부터 2020년 12월 3일까지 1시간 단위의 물 사용량 데이터를 수집하였다. 그리고 k-mean 군집 방법을 이용해 시간별, 평일, 주말, 그리고 주별 물 사용 특성을 분석하였다. 이 때 최적의 군집 개수 결정을 위해 Elbow 방법을 적용하였다. 분석 결과 각 소비자의 물 사용량 특성에 따라 평균 물 수요패턴 추정이 가능하며, 향후 물 수요 예측에 도움이 될 것으로 사료된다.

  • PDF

차분진화 기반의 Support Vector Clustering (A Differential Evolution based Support Vector Clustering)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제17권5호
    • /
    • pp.679-683
    • /
    • 2007
  • Vapnik의 통계적 학습이론은 분류, 회귀, 그리고 군집화를 위하여 SVM(support vector machine), SVR(support vector regression), 그리고 SVC(support vector clustering)의 3가지 학습 알고리즘을 포함한다. 이들 중에서 SVC는 가우시안 커널함수에 기반한 지지벡터를 이용하여 비교적 우수한 군집화 결과를 제공하고 있다. 하지만 SVM, SVR과 마찬가지로 SVC도 커널모수와 정규화상수에 대한 최적결정이 요구된다 하지만 대부분의 분석작업에서 사용자의 주관적 경험에 의존하거나 격자탐색과 같이 많은 컴퓨팅 시간을 요구하는 전략에 의존하고 있다. 본 논문에서는 SVC에서 사용되는 커널모수와 정규화상수의 효율적인 결정을 위하여 차분진화를 이용한 DESVC(differential evolution based SVC)를 제안한다 UCI Machine Learning repository의 학습데이터와 시뮬레이션 데이터 집합들을 이용한 실험을 통하여 기존의 기계학습 알고리즘과의 성능평가를 수행한다.

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.

GPCR 분류에서 ART1 군집화를 위한 퍼지기반 임계값 제어 기법 (Fuzzy-based Threshold Controlling Method for ART1 Clustering in GPCR Classification)

  • 조규철;마용범;이종식
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권6호
    • /
    • pp.167-175
    • /
    • 2007
  • 퍼지이론은 생명정보공학에서 지식을 표현하는데 활용되고 제어시스템 모델을 이해하는데 활용되어 왔다. 본 논문에서는 생명정보학의 응용 프로그램에서 중요한 데이터 분류에 초점을 맞추었다. 최적의 임계값 유도를 위한 GPCR 분류에서 기존의 순차기반 임계값 제어기법은 임계값 결정범위와 최적의 임계값 유도 시간의 문제점을 보였고, 이진기반 임계값 제어기법은 임계값 결정 초기에 시스템의 안정성에 대한 단점이 있었다. 이를 보완하기 위해 우리는 ART1 군집화를 위한 퍼지기반 임계값제어기법을 제안한다. 제안된 방법의 성능을 평가하기 위해 ART1 군집화를 위한 퍼지기반 임계값 제어기법을 구현하여 기존의 순차기반 임계값 제어기법과 이진기반 임계값 제어기법과의 인식률에 대한 구동시간의 변화, 임계값의 변화에 따른 시스템의 구동시간을 측정하였다. 퍼지기반 임계값제어 기법은 GPCR 데이터 분류에서 인식률과 구동시간에 대한 정보를 통해 분류 임계값을 조정하여 높은 인식률과 낮은 구동시간을 지속적으로 유도하여 안정적이고 효과적인 분류 시스템을 만들 수 있었다.

  • PDF

평활된 주기도를 이용한 강수량자료의 군집화 (Classification of Precipitation Data Based on Smoothed Periodogram)

  • 박만식;김희영
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.547-560
    • /
    • 2008
  • 스펙트럼 밀도함수(spectral density function)는 시계열 자료가 정상성(stationarity)을 만족하는 경우에 주파수 영역(frrqllrnFr domain)에서 시계열 자료의 자기공분산함수(auto-covariance function)을 결정짓는 함수이고, 평활된 주기도(smoothed periodogram)는 스펙트럼 밀도함수의 일치 추정량(consistent estimator)이 됨이 잘 알려져 있다. 본 연구에서는 시계열 자료를 평활된 주기도를 이용하여 군집화하는 방법을 소개한다. 최근 김희영과 박만식 (2007)의 연구에 의하면 이 거리는 정상시계열들을 효율적으로 분류하고 있음을 알 수 있다. 본 연구는 시계열 자료를 분류하는데 사용된 기존의 거리들을 간략히 소개하고, 우리나라 22개 지역에서 1987년 1월부터 2007년 12월까지 측정한 월별 강수량 자료를 대상으로 평활된 주기도 거리를 이용하여 지역을 군집화한다.