• Title/Summary/Keyword: 군집 자료

Search Result 1,192, Processing Time 0.026 seconds

Functional clustering for electricity demand data: A case study (시간단위 전력수요자료의 함수적 군집분석: 사례연구)

  • Yoon, Sanghoo;Choi, Youngjean
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.4
    • /
    • pp.885-894
    • /
    • 2015
  • It is necessary to forecast the electricity demand for reliable and effective operation of the power system. In this study, we try to categorize a functional data, the mean curve in accordance with the time of daily power demand pattern. The data were collected between January 1, 2009 and December 31, 2011. And it were converted to time series data consisting of seasonal components and error component through log transformation and removing trend. Functional clustering by Ma et al. (2006) are applied and parameters are estimated using EM algorithm and generalized cross validation. The number of clusters is determined by classifying holidays or weekdays. Monday, weekday (Tuesday to Friday), Saturday, Sunday or holiday and season are described the mean curve of daily power demand pattern.

Cluster Feature Selection using Entropy Weighting and SVD (엔트로피 가중치 및 SVD를 이용한 군집 특징 선택)

  • Lee, Young-Seok;Lee, Soo-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.248-257
    • /
    • 2002
  • Clustering is a method for grouping objects with similar properties into a same cluster. SVD(Singular Value Decomposition) is known as an efficient preprocessing method for clustering because of dimension reduction and noise elimination for a high dimensional and sparse data set like E-Commerce data set. However, it is hard to evaluate the worth of original attributes because of information loss of a converted data set by SVD. This research proposes a cluster feature selection method, called ENTROPY-SVD, to find important attributes for each cluster based on entropy weighting and SVD. Using SVD, one can take advantage of the latent structures in the association of attributes with similar objects and, using entropy weighting one can find highly dense attributes for each cluster. This paper also proposes a model-based collaborative filtering recommendation system with ENTROPY-SVD, called CFS-CF and evaluates its efficiency and utilization.

Comparison Study of Time Series Clustering Methods (시계열자료 눈집방법의 비교연구)

  • Hong, Han-Woom;Park, Min-Jeong;Cho, Sin-Sup
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.6
    • /
    • pp.1203-1214
    • /
    • 2009
  • In this paper we introduce the time series clustering methods in the time and frequency domains and discuss the merits or demerits of each method. We analyze 15 daily stock prices of KOSPI 200, and the nonparametric method using the wavelet shows the best clustering results. For the clustering of nonstationary time series using the spectral density, the EMD method remove the trend more effectively than the differencing.

Clustering of Time-Course Microarray Data Using Pharmacokinetic Parameter (약동학적 파라미터를 이용한 시간경로 마이크로어레이 자료의 군집분석)

  • Lee, Hyo-Jung;Kim, Peol-A;Park, Mi-Ra
    • The Korean Journal of Applied Statistics
    • /
    • v.24 no.4
    • /
    • pp.623-631
    • /
    • 2011
  • A major goal of time-course microarray data analysis is the detection of groups of genes that manifest similar expression patterns over time. The corresponding numerous cluster algorithms for clustering time-course microarray data have been developed. In this study, we proposed a clustering method based on the primary pharmacokinetic parameters in the pharmacokinetics study for assessment of pharmaceutical equivalents between two drug products. A real data and a simulation data was used to demonstrate the usefulness of the proposed method.

Comparison between at-site frequency analysis and regional frequency analysis at Gangwon Province (강원도에서의 지점빈도분석과 지역빈도분석의 비교)

  • Seo, Dong Il;Kim, Sang Ug;Jeon, Young Il;Han, Jae Wook
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.205-205
    • /
    • 2023
  • 지역 빈도 분석과 점 빈도 분석은 하천 기본계획 및 수공 구조물의 설계에 있어 재현기간 별 확률강우량을 산정하기 위한 방법이다. 점 빈도 분석은 자료의 수가 부족하여 높은 재현기간에 대한 확률강우량을 산정하기에 어려운 점이 있다. 2019년도부터 사용되고 있는 지역빈도분석 방법은 이러한 점을 보완해주고 있다. 지역빈도분석을 수행하기 위해서는 지역의 동질성을 확인하는 과정이 가장 중요한 과정이다. 이러한 동질성을 판단하기 위하여 K-means등의 군집분석과 L-moment 법 등을 사용하고 있다. 이러한 차이점으로 인해 두 방법 간의 정확성은 비교가 어려우나 서로 간의 장점, 단점과 결과 간의 차이를 기반으로 산간지역이 많은 강원도와 같은 지역에 대한 확률강우량 산정의 적절한 방법을 판단해보고자 본 연구를 진행하였다. 지역 빈도 분석은 강원도에 위치한 48개 관측소의 강우 자료 수집 후 고도, 위치, 지속시간 별 강우량을 변수로 지정하고 K-means 분석을 통해 6개의 군집으로 구분하여 수행되었다. 이질성 척도는 관측 자료와 500번의 모의 수행을 통해 결정하였다. 이후 분석된 군집이 동질한 경우 확률분포형에 적합시켜 확률강우량을 산정하였다. 점 빈도 분석은 지역 빈도 분석에서 결정된 군집에서의 최대 강우량과 최소 강우량 관측소의 자료를 이용하여 수행하였다. 본 연구에서는 점빈도분석과 지역빈도분석의 결과를 비교하였으며, 두 가지 분석 방법에 따른 차이의 발생원인 및 특성을 결론으로 제시하였다.

  • PDF

Classification of Precipitation Data Based on Smoothed Periodogram (평활된 주기도를 이용한 강수량자료의 군집화)

  • Park, Man-Sik;Kim, Hee-Young
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.3
    • /
    • pp.547-560
    • /
    • 2008
  • It is well known that spectral density function determines auto-covariance function of stationary time-series data and smoothed periodogram is a consistent estimator of spectral density function. Recently, Kim and Park (2007) showed that smoothed- periodogram based distances performs very well for the classification. In this paper, we introduce classification methods with smoothed periodogram and apply the approaches to the monthly precipitation measurements obtained from January, 1987 through December, 2007 at 22 locations in South Korea.

Development of Multiple Linear Regression Model to Predict Agricultural Reservoir Storage based on Naive Bayes Classification and Weather Forecast Data (나이브 베이즈 분류와 기상예보자료 기반의 농업용 저수지 저수율 전망을 위한 저수율 예측 다중선형 회귀모형 개발)

  • Kim, Jin Uk;Jung, Chung Gil;Lee, Ji Wan;Kim, Seong Joon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.112-112
    • /
    • 2018
  • 최근 이상기후로 인한 국부적인 혹은 광역적인 가뭄이 빈번하게 발생하고 있는 추세이며 발생횟수 뿐 아니라 가뭄 심도 및 지속기간이 과거보다 크게 증가하여 그에 따른 피해가 커질 것으로 예측되고 있다. 특히, 2014~2015년도의 유례없는 가뭄으로 인해 저수지 용수공급이 제한되면서 많은 농가들이 피해를 입었다. 본 연구의 목적은 전국 농업용 저수지를 대상으로 기상청 3개월 예보자료를 활용 할 수 있는 농업용 저수지 저수율 다중선형 회귀 모형을 개발하여 저수율 전망정보를 생산하는 것이다. 본 연구에서는 전국에 적용 가능한 저수율 다중선형 회귀 모형개발을 위해 5개의 기상요소(강수량, 최고기온, 최저기온, 평균기온, 평균풍속)와 관측 저수지 저수율을 활용했다. 기상자료는 2002년부터 2017년까지의 기상청 63개 지상관측소로부터 기상관측자료를 수집하였다. 본 연구에서는 저수율 전망 단계를 세 단계로 나누었다. 첫 번째 단계로 농어촌공사에서 전국 511개 용수구역을 대상으로 군집분석 및 의사결정나무 분석을 통해 제시한 65개 대표저수지를 대상으로 기상자료 및 관측 저수율 자료를 이용하여 다중선형 회귀분석을 실시하였다. 수집한 기상요소와 저수율을 독립변수로 하여 월별 회귀식을 산정한 결과 결정계수($R^2$)는 0.51~0.95로 나타났다. 두 번째 단계로 대표저수지의 회귀분석 결과를 전국의 저수지로 확대하기 위해 나이브 베이즈 분류법을 적용하여 전국 3098개의 저수지를 65의 군집으로 분류하고 각각의 군집에 해당되는 월별 회귀식을 산정하였다. 마지막으로 전국 저수지로 산정된 회귀식과 농업 가뭄 예측을 위해 기상청의 GS5(Global Seasonal Forecasting System 5) 3개월 예보자료를 수집하여 회귀식에 적용해 2017년 전국 저수지의 3개월 저수율 전망정보를 생산하였다. 본 연구의 전국 저수지 군집결과 기반의 저수율 전망기술은 2017년도 관측 저수율과 비교한 결과 유의한 상관성을 나타냈으며 이 결과는 추후 농업용 저수지의 물 공급 및 농업가뭄 전망 자료로서 이용이 가능할 것으로 판단된다.

  • PDF

Rank regression inferences on doubly interval-censored data (이중 구간 중도절단 자료에 대한 순위 기반 회귀 추정법 연구)

  • Seohyeon Park;Sangbum Choi
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.6
    • /
    • pp.769-782
    • /
    • 2024
  • In many biomedical fields, especially in studies of disease progressions, we frequently encounter two sequential events, both of which are often interval-censored due to regular examinations. Such a structure is called doubly interval-censoring (DIC), and our primary interest is the elapsed time between two consecutive events. In this paper, we propose a weighted rank regression approach for DIC data under the semiparametric accelerated failure time model. After transforming DIC data into simple interval-censored data where the true elapsed times may lie, we develop estimation procedures with a Gehan-type weight by gathering all comparable pairs of observed residuals from transformed data. Moreover, we generalize this approach with data-dependent weights and extend it to clustered DIC data, where the cluster size is potentially informative, using an inverse weighting strategy. An efficient technique for variance estimation as an alternative to resampling techniques is considered. We establish asymptotic properties and conduct numerical studies to demonstrate finite sample performances. Finally, we illustrate our method with a real dataset for clustered DIC data.

Analysis on the forest Community Structure of Daewon Valley in Chirisan national Park (지리산국립공원 대원사계곡의 삼림군집구조 분석)

  • 권전오
    • Korean Journal of Environment and Ecology
    • /
    • v.13 no.4
    • /
    • pp.354-366
    • /
    • 2000
  • 지리산국립공원 대원계곡의 삼림군집구조를 분석하여 국립공원관리의 기초자료를 제공하기 위하여 기조사지역(이경재 등, 1991)이외의 지역에 대해 39개 조사지(100m2)를 설정하고 식생조사를 실시하였다 Classification의 한 기법인 TWINSPAN을 사용하여 군집을 분리하였으며 그 결과 느릅나무-굴참나무군집(군집 I) 졸참나무-굴참나무군집(군집II) 졸참나무군집(군집III-V) 신갈나무군집(군집VI) 그리고 서어나무-노각나무군집(군집VII)의 7개 군집으로 나뉘었다 각 군집에 대해 우점도 종다양도 유사도 종수 및 개체수 그리고 흉고직경 등의 분석을 통해 군집의 종조서을 살펴본 결과 지리산 대원계곡의 삼림은 졸참나무 굴참나무 신갈나무 등의 참나무가 주류를 이루고 있었으며 점차 서어나무와 노각나무등으로 천이가 진행되어갈 것으로 판단되었다.

  • PDF

Plant Community Structure of Nojasan in Koje Island (거제도 노자산지역의 식물군집구조)

  • Lee, Kyong-Jaek;Cho, Woo;Lee, Soo-Dong
    • Korean Journal of Environment and Ecology
    • /
    • v.13 no.1
    • /
    • pp.78-88
    • /
    • 1999
  • 거제도 노자산지역의 식물군집구조를 파악하기 위해 43개 조사구(각 조사구당 10m$\times$10m)를 거제휴양림 임도 주변과 노자산 북사면에 설정하고 식생조사를 실시하였다. 식생조사자료를 이용 TWINSPAN에 의한 classification과 DCA에 의한 ordinationqnstjr을 실시하였다. TWINSPAN분석과 DCA분석 결과 소사나무군집(군집I), 소나무군집(군집II), 졸참나무군집(군집(III), 고로쇠나무, 느티나무, 비목나무, 까치박달 등을 우점종으로 하는 낙엽활엽수군집(군집IV)의 4개 군집으로 분리되었다. 식물군집구조 분석 결과 노자산지역의 식생은 소나무$\longrightarrow$졸참나무군집$\longrightarrow$낙엽활엽수군집으로 생태적 천이가 이루어질 것으로 판단되었으며, 소사나무군집은 해발고도가 높고 건조한 지역에 나타나는 토지극상으로 판단되었다.

  • PDF