• 제목/요약/키워드: 혼합 군집분석

검색결과 121건 처리시간 0.034초

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

정규분포기반 두각 혼합모형의 순환적 적합을 이용한 군집분석에서의 변수선택 (Variable Selection in Clustering by Recursive Fit of Normal Distribution-based Salient Mixture Model)

  • 김승구
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.821-834
    • /
    • 2013
  • Law 등 (2004)은 군집분석에서 변수선택을 위해 정규분포기반 "두각 혼합모형(salient mixture model)"의 사용을 제안하였다. 본 논문에서는 이 모형의 적합 상의 문제점과 변수선택의 결함을 지적하고 그 대안을 제시한다. 모의자료와 실자료를 바탕으로 제안된 방법이 기존의 방법보다 유용함을 보였다.

클러스터 확률 모형에 의한 지역화와 코풀라에 의한 가뭄빈도분석 (Regionalization using cluster probability model and copula based drought frequency analysis)

  • 무하마드 아잠;최현수;김형산;황주하;맹승진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.46-46
    • /
    • 2017
  • 지역가뭄빈도분석의 분위산정에 대한 신뢰성은 수문학적으로 균일한 지역으로 구분하기 위해 사용된 장기간의 과거 자료와 분석절차에 의해 결정된다. 그러나 극심한 가뭄은 매우 드물게 발생하며 신뢰 할 수 있는 지역빈도분석을 위한 지속기간이 충분치 않는 경우가 많이 발생한다. 이 외에도 우리나라의 복잡한 지형적 및 기후적 특징은 동질한 지역으로 구분하기 위한 통계적인 처리방법이 필요하였다. 본 연구에서 적용한 지역빈도분석은 여러 지역의 다양한 변수인 수문기상 특성을 분석하여 동질한 지역을 확인하고, 주요 가뭄변수(지속 시간 및 심각도)를 통합 적용하여 각각의 동질한 지역 분위를 추정함으로써 동질한 지역을 구분하는 해결책을 제시하였다. 본 연구에서는 가우시안 혼합 모형(Gaussian Mixture Model)을 기반으로 기반 군집분석 방법을 적용하여 최적의 동질한 지역을 구분하고 그 결과를 우도비검정 및 다른 유효성 검사 지수를 이용해서 확인하였다. 가우시안 혼합 모델에서 산정했던 매개변수를 방향저감 공간으로 표현하기 위해서 가우시안 혼합 모델방향 저감(GMMDR)방법을 적용하였다. 이 변수는 가뭄빈도분석을 위해 다양한 분포와 코풀라(copula) 적합도를 이용하여 추정 비교하였다. 그 결과 우리나라를 4개의 동질한 지역으로 나누게 되었다. 가우시안과 Frank copula를 이용한 Pearson type III(PE3) 분포는 우리나라의 가뭄 기간과 심각도의 공동 분포를 추정하는데 적합한 것으로 나타났다.

  • PDF

이분산 상황 하에서 정규혼합모형 기반 군집분석의 변수선택 (Variable Selection in Normal Mixture Model Based Clustering under Heteroscedasticity)

  • 김승구
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1213-1224
    • /
    • 2011
  • 관측치의 개수보다 변량의 개수가 더 많은 다변수 상황에서 정규혼합모형을 이용하여 군집분석을 하기 위해서는 비정보적인 변수들을 제거하는 과정이 필수적으로 요구된다. 이와 같은 변수선택과 군집의 동시 처리를 위한 기존 연구의 대부분은 군집별 등분산 가정 하에서 이루어져 왔으며, 비정보적인 변수를 제거하기 위해 주로 벌점화 우도 기법이 이용되었다. 본 연구에서는 약간 변형된 정규혼합모형을 기반으로 비현실적인 등분산 가정을 탈피하면서 효율적으로 비정보적인 변수를 제거하는 새로운 방법을 제공한다. 이 모형에 대한 타당성을 설명하였고, 모수 추정을 위한 EM 알고리즘을 유도하였다. 그리고 모의실험 및 실자료 실험을 통해 제안된 방법의 유효성을 보였다.

정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구 (Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval)

  • ;강대현;박한샘;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

도시철도 출·도착데이터를 이용한 승객이동 패턴 분석 (Analysis of Passenger Movement Patterns Using Subway OD Data)

  • 백의영;조재희;김동건
    • 한국융합학회논문지
    • /
    • 제10권12호
    • /
    • pp.315-325
    • /
    • 2019
  • 본 연구의 목적은 누구나 쉽게 지하철 OD 이동패턴 정보를 분석할 수 있는 데이터마트를 설계하고 구축하는 것이다. 서울 열린데이터광장에서 받은 2017년도 데이터를 원천 데이터로 이용하였다. 다차원모델을 설계하였고, 가우시안 혼합 군집분석과 Tableau를 이용한 다차원 분석을 실시하였다. 흥미로운 사실은 교외지역과 서울 간 이동은 전체 이동량의 23%에 해당하며, 수원역의 이용객은 서울보다 교외로의 이동이 매우 크며, 반면 판교역은 이동량의 대부분이 서울로의 이동이다. 가우시안 혼합 군집결과 8개의 OD구간 군집을 발견하였고, 구간 거리와 승객 수에 의해 각 군집의 특징을 네이밍하였다.

혼합형태 심볼릭 데이터의 군집분석방법 (A Divisive Clustering for Mixed Feature-Type Symbolic Data)

  • 김재직
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1147-1161
    • /
    • 2015
  • 오늘날 데이터는 p-차원의 공간에서 점들로써 표현되는 전통적인 형태를 벗어나 시그널(signal), 함수, 이미지(image), 모양(shape) 등과 같은 다양한 형태의 자료들이 데이터로써 고려되고 분석되고있다. 그러한 종류의 새로운 종류의 데이터 중 하나로 심볼릭 데이터(symbolic data)를 고려할 수 있다. 심볼릭 데이터는 구간(interval), 히스토그램(histogram), 목록(list), 통계표, 분포, 또는 모형 등과 같은 다양한 형태들을 가질 수 있다. 지금까지의 연구가 주로 심볼릭 데이터의 각각의 형태별 자료를 고려했다면, 본 연구에서는 이를 확장하여 수집된 히스토그램과 멀티모달의 혼합된 형태로 이루어진 자료에 대한 계층 분할적 군집분석방법을 소개하고 이를 업종별 산업재해자료의 분석을 위해 이용한다.

군집분석을 이용한 양파 감성사전 구축 (Construction of Onion Sentiment Dictionary using Cluster Analysis)

  • 오승원;김민수
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2917-2932
    • /
    • 2018
  • 우리나라 식생활에 밀접한 관련을 가지고 있는 채소인 양파의 수급불균형 해결을 위한 생산량 예측 모형 개발의 노력이 많은 연구를 통해 이뤄지고 있다. 하지만 양파의 수확기와 저장 가능성을 고려해 봤을 때 생산량 예측만으로는 수급불균형 해결이 어렵다. 따라서 본 논문에서는 양파의 생산량 정보와 가격의 다양한 요인이 포함되어 있으며 일상에서 쉽게 접할 수 있는 인터넷 기사를 이용하여 가격 예측을 위한 감성사전을 구축하고자 한다. 양파 기사는 2012년부터 2016년까지의 데이터를 사용하였고 도매시장 가격을 통한 문서구분을 통해 4가지 TF-IDF를 비교하여 적합한 TF-IDF를 사용하였다. 분석을 위하여 분할적 군집분석 중 k-means 군집, 밀도기반군집(DBSCAN; density based spatial cluster applications with noise), 가우시안혼합분포군집(GMM; Gaussian mixture model) 군집을 통하여 가격에 대한 긍정/부정 단어를 구분한 결과 GMM 군집이 의미 있는 긍정, 부정, 무정의 3개의 사전으로 구성되었다. 구축된 사전의 합리성을 비교하기 위하여 가격 상승 기사와 가격 하락 기사의 분류에 로지스틱 회귀분석을 적용한 결과 85.7%의 정확도로 구축된 사전의 합리성을 확인할 수 있었다.

인공지능을 활용한 합류부에서 수질의 공간혼합 특성 분석 (Analysis of spatial mixing characteristics of water quality at the confluence using artificial intelligence)

  • 이서경;김동수;김경동;김영도;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.482-482
    • /
    • 2022
  • 하천의 합류부에서는 수질이 다른 유체가 혼합하여 합류 전과 다른 특성을 보인다. 하천의 합류부에서 수질을 효율적으로 관리하기 위해서는 수질의 공간적인 혼합 특성을 규명하는 것이 중요하다. 합류부에서 수질의 공간적인 혼합 특성을 분석하기 위해 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기 조직화 지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하였다. 세 가지 기법을 비교하여 어떤 알고리즘이 합류부의 수질 변화 특성을 더 뚜렷하게 나타내는지 분석하였다. 수질 변화 비교 인자들은 pH, chlorophyll, DO, Turbidity 등이 있고, 수질 인자들은 YSI를 활용해 측정하였다. 자료의 측정 지역은 낙동강과 황강이 합류하는 지역이며, 보트에 YSI 장비를 부착하고 횡단하여 측정하였다. 측정한 데이터를 R 프로그램을 통해 세 가지 기법을 적용시켜 수질 변화 비교를 분석한다. 토폴로지 데이터 분석(topological data analysis, TDA)은 거대하고 복잡한 데이터로부터 유의미한 정보를 추출하는 데 사용하고, 자기조직화지도(Self-Organizing Map, SOM) 기법은 차원 축소와 군집화를 동시에 수행한다. k-평균 알고리즘(K-means clustering algorithm) 기법은 주어진 데이터를 k개의 클러스터로 묶는 머신러닝 비지도학습에 속하는 알고리즘이다. 세 가지 방법들의 주목적은 클러스터링이다. 클러스터 분석(Cluster analysis)이란 주어진 데이터들의 특성을 고려해 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 데이터 마이닝의 한 방법이다. 군집화 방법들인 TDA, SOM, K-means를 이용해 합류 지역의 수질 특성들을 클러스터링하여 수질 패턴들을 분석해 하천 수질 오염을 방지할 수 있을 것이다. 본 연구에서는 토폴로지 데이터 분석(topological data analysis, TDA), 자기조직화지도(Self-Organizing Map, SOM), k-평균 알고리즘(K-means clustering algorithm) 세 가지 기법을 이용하여 합류부에서의 수질 특성을 비교하며 어떤 기법이 합류의 특성을 더욱 뚜렷하게 나타내는지 규명했다. 합류의 특성을 군집화 방법을 이용해 알게 된다면, 합류부의 수질 변화 패턴을 다른 합류 지역에서도 적용할 수 있을 것으로 기대된다.

  • PDF

드론기반 초분광 영상을 활용한 하천 합류부 부유사 혼합 분석 (Analysis of suspended sediment mixing in a river confluence using UAV-based hyperspectral imagery)

  • 권시윤;서일원;류시완
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.89-89
    • /
    • 2022
  • 하천 합류부에 지천이 유입되는 경우 복잡한 3차원적 흐름 구조를 발생시키고 이로 인해 유사혼합 및 지형 변화가 활발히 발생하게 된다. 특히, 하천 합류부에서 부유사 거동은 하천의 세굴과퇴적, 하천 지형 변화, 하천 생태계, 하천구조물 안정성 등에 직접적으로 영향을 미치기 때문에 이에 대한 정확한 분석이 하천 관리 및 재해 예방에 필수적인 요소이다. 기존의 하천 합류부 부유사 계측 자료들은 재래식 채취 방식으로 수행되어 시공간적 해상도가 매우 낮아서 실측 자료만으로 합류부에서 부유사 혼합을 분석하기에는 한계가 존재하기에 대하천의 부유사 혼합 거동 해석에 수치모형이 주로 활용되어 왔다. 본 연구에서는 하천 합류부에서 부유사 거동을 공간적으로 정밀하게 분석하기 위해 드론 기반초분광 영상을 활용하여 하천 합류부에 최적화된 부유사 계측 방법론을 제시하였다. 현장에서 계측한 초분광 자료와 부유사 농도간의 관계를 구축하기 위하여 기계학습모형인 랜덤포레스트(Random Forest) 회귀 모형과 합류부에서 분광 특성이 다른 두 하천의 특성을 정확하게 반영하기 위한 가우시안 혼합 모형 (Gaussian Mixture Model) 기반 초분광 군집화 기법을 결합하였다. 본 연구에서 구축한 방법론을 낙동강과 황강의 합류부에 적용한 결과, 초분광 군집을 통해 두하천 흐름의 경계층을 명확히 구별하였으며, 이를 바탕으로 지류와 본류에 대해 각각 분리된 회귀 모형을 구축하여 복잡한 합류부 근역 경계층에서의 부유사 거동을 보다 정확하게 재현하였다. 또한 나아가서 재현된 고해상도의 부유사 공간분포를 바탕으로 경계층에서 강한 두 흐름이 혼합되어 발생한 와류(Wake)가 부유사 혼합에 미치는 영향을 규명하였고, 하천 합류부에서 발생하는 전단층의 수평방향 대규모 와류가 부유사 혼합 양상에 지배적 영향을 미치는 것으로 확인하였다.

  • PDF