• 제목/요약/키워드: Cluster and Outlier Analysis

검색결과 14건 처리시간 0.026초

Variable Selection and Outlier Detection for Automated K-means Clustering

  • Kim, Sung-Soo
    • Communications for Statistical Applications and Methods
    • /
    • 제22권1호
    • /
    • pp.55-67
    • /
    • 2015
  • An important problem in cluster analysis is the selection of variables that define cluster structure that also eliminate noisy variables that mask cluster structure; in addition, outlier detection is a fundamental task for cluster analysis. Here we provide an automated K-means clustering process combined with variable selection and outlier identification. The Automated K-means clustering procedure consists of three processes: (i) automatically calculating the cluster number and initial cluster center whenever a new variable is added, (ii) identifying outliers for each cluster depending on used variables, (iii) selecting variables defining cluster structure in a forward manner. To select variables, we applied VS-KM (variable-selection heuristic for K-means clustering) procedure (Brusco and Cradit, 2001). To identify outliers, we used a hybrid approach combining a clustering based approach and distance based approach. Simulation results indicate that the proposed automated K-means clustering procedure is effective to select variables and identify outliers. The implemented R program can be obtained at http://www.knou.ac.kr/~sskim/SVOKmeans.r.

앙상블 기법을 이용한 선박 메인엔진 빅데이터의 이상치 탐지 (Outlier detection of main engine data of a ship using ensemble method)

  • 김동현;이지환;이상봉;정봉규
    • 수산해양기술연구
    • /
    • 제56권4호
    • /
    • pp.384-394
    • /
    • 2020
  • This paper proposes an outlier detection model based on machine learning that can diagnose the presence or absence of major engine parts through unsupervised learning analysis of main engine big data of a ship. Engine big data of the ship was collected for more than seven months, and expert knowledge and correlation analysis were performed to select features that are closely related to the operation of the main engine. For unsupervised learning analysis, ensemble model wherein many predictive models are strategically combined to increase the model performance, is used for anomaly detection. As a result, the proposed model successfully detected the anomalous engine status from the normal status. To validate our approach, clustering analysis was conducted to find out the different patterns of anomalies the anomalous point. By examining distribution of each cluster, we could successfully find the patterns of anomalies.

K-means 알고리즘 기반 클러스터링 인덱스 비교 연구 (A Performance Comparison of Cluster Validity Indices based on K-means Algorithm)

  • 심요성;정지원;최인찬
    • Asia pacific journal of information systems
    • /
    • 제16권1호
    • /
    • pp.127-144
    • /
    • 2006
  • The K-means algorithm is widely used at the initial stage of data analysis in data mining process, partly because of its low time complexity and the simplicity of practical implementation. Cluster validity indices are used along with the algorithm in order to determine the number of clusters as well as the clustering results of datasets. In this paper, we present a performance comparison of sixteen indices, which are selected from forty indices in literature, while considering their applicability to nonhierarchical clustering algorithms. Data sets used in the experiment are generated based on multivariate normal distribution. In particular, four error types including standardization, outlier generation, error perturbation, and noise dimension addition are considered in the comparison. Through the experiment the effects of varying number of points, attributes, and clusters on the performance are analyzed. The result of the simulation experiment shows that Calinski and Harabasz index performs the best through the all datasets and that Davis and Bouldin index becomes a strong competitor as the number of points increases in dataset.

KTX 단기수요 예측을 위한 통행행태 분석 (Travel Behavior Analysis for Short-Term KTX Passenger Demand Forecasting)

  • 김한수;윤동희;이성덕
    • Communications for Statistical Applications and Methods
    • /
    • 제19권1호
    • /
    • pp.183-192
    • /
    • 2012
  • 본연구는 KTX의 단기수요예측 방향을 설정하기 위한 통행행태 분석이 목적이다. 분석결과는 첫째, 이상치 판단기준은 통행량 표준편차의 2배가 적정한 것으로 판단된다. 둘째, ANOVA 분석을 이용하여 요일별 통행량의 동질여부를 분석한 결과 주중(월~목)과 주말(금~일)로 구분되었다. 셋째, 통행빈도, 통행량균, 통행거리를 이용하여 철도역간 O/D에 대해 군집분석을 시행하였다.

COVID-19 전후 도시철도 승차인원 시계열 군집분석을 통한 역세권 군집별 대응방안 고찰 (A Study on the Response Plan by Station Area Cluster through Time Series Analysis of Urban Rail Riders Before and After COVID-19)

  • 리청시;정헌영
    • 대한토목학회논문집
    • /
    • 제43권3호
    • /
    • pp.363-370
    • /
    • 2023
  • COVID-19 (Coronavirus disease 2019) 확산으로 2020년 초부터 도시철도 등 대중교통수단의 이용량이 크게 변동하였다. 이에 본 연구에서는 COVID-19 이전과 COVID-19 확산 이후, 3년 동안 도시철도 역별 일별 시계열 자료를 수집하여 DTW (Dynamic Time Warping) 거리법을 통해 시계열 군집분석 유사도를 평가하여 군집 별 회귀 중앙치를 도출하고, COVID-19 등 여러 외부 사건이 이용객 수의 변동에 미치는 영향을 시계열 충격 탐지 함수(Outlier Detection)로 진단하였다. 또한 도시철도 역의 군집 별 이용 특성을 분석하고 또한 외부 충격에 따른 승객량의 변동을 파악하였다. 향후 COVID-19 재확산 시 이용량의 유지와 회복에 대한 방안을 검토하는 데 목적을 두었다.

다목적 표본조사를 위한 다변량 층화 : 어업비계통생산량조사를 위한 표본설계 사례 (Multivariate Stratification Method for the Multipurpose Sample Survey : A Case Study of the Sample Design for Fisher Production Survey)

  • 박진우;김영원;이석훈;신지은
    • 한국조사연구학회지:조사연구
    • /
    • 제9권1호
    • /
    • pp.69-85
    • /
    • 2008
  • 층화는 표본설계 단계에서 예비정보를 활용하는 대표적인 방법으로 대부분의 전국 단위의 표본설계에서 널리 활용된다. 층화의 효율을 극대화시키기 위해서는 조사목적에 부합되는 적절한 층화변수를 선택하는 것이 매우 중요하다. 하나의 표본을 통해 여러 개의 관심변수를 동시에 조사하는 다목적조사에서 다변량 층화변수가 있을 때 층화 전략을 세우는 것은 매우 복잡한 양상을 띤다. 본 연구에서는 관심변수의 수가 매우 많은 다목적조사를 위한 층화전략을 다룬다. 층화를 위해 구체적으로 사용하는 통계적 도구는 요인분석과 군집분석 등의 다변량 통계기법인데, 먼저 요인분석을 통해 적절한 층화변수들을 선정한 후 그 변수들을 이용하여 군집분석을 통해 층화를 하는 전략을 소개한다. 본 연구에서는 구체적으로 해양수산부의 어업비계통생산량조사를 위한 표본설계에서의 층화과정을 다룬다.

  • PDF

ESTP 표지를 이용한 국내 소나무 집단의 유전변이 (Genetic Variation of Pinus densiflora Populations in South Korea Based on ESTP Markers)

  • 안지영;홍경낙;이제완;홍용표;강호덕
    • 한국자원식물학회지
    • /
    • 제28권2호
    • /
    • pp.279-289
    • /
    • 2015
  • 소나무의 유전다양성과 유전구조를 추정하기 위해 9개의 ESTP 표지를 13개 소나무 집단에 적용하였다. 소나무 집단의 유전다양성은 관찰된 대립유전자 수(A)가 2.2개, 유효 대립유전자 수(Ae)가 1.8개, 다형적 유전자좌 비율(P)이 98.8%, 이형접합도 관찰치(Ho)가 0.391, 이형접합도 기대치(He)가 0.402로 나타났다. 안강과 강릉 집단을 제외한 11개 집단이 하디-바인베르그 평형을 만족하였다. 집단간 유전분화도(FST)는 0.057으로, 동위효소나 nSSR 표지분석 결과보다 강하게 나타났다. 군집분석에서 집단의 유전적 거리와 지리적 분포간에 뚜렷한 연관성은 확인할 수 없었으며, 집단의 유전분화와 지리적 인접성도 상관이 없는 것으로 나타났다(Mantel 검증, r = 0.017, P = 0.344). 유전자좌에 대한 FST-outlier 분석을 실시한 결과, 빈도주의 방법에서는 FST 값이 신뢰하한 이하인 3개 유전자좌와 신뢰상한 이상인 3개 유전자좌가 특이값으로 추정되었고, 베이즈 방법에서는 3개 유전자좌들만 특이값으로 확인되었다. 두 방법에서 공히 특이값으로 판정된 3개 유전자좌(sams2+AluⅠ, sams2+RsaⅠ, PtNCS_p14A9+HaeⅢ)중 sams2 표지에서 유래된 2개 유전자좌는 balancing selection의 영향을 받는 것으로 추정되었다.

전력 부하 패턴 자동 예측을 위한 분류 기법 (Classification Methods for Automated Prediction of Power Load Patterns)

  • ;박진형;이헌규;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.26-30
    • /
    • 2008
  • Currently an automated methodology based on data mining techniques is presented for the prediction of customer load patterns in long duration load profiles. The proposed our approach consists of three stages: (i) data pre-processing: noise or outlier is removed and the continuous attribute-valued features are transformed to discrete values, (ii) cluster analysis: k-means clustering is used to create load pattern classes and the representative load profiles for each class and (iii) classification: we evaluated several supervised learning methods in order to select a suitable prediction method. According to the proposed methodology, power load measured from AMR (automatic meter reading) system, as well as customer indexes, were used as inputs for clustering. The output of clustering was the classification of representative load profiles (or classes). In order to evaluate the result of forecasting load patterns, the several classification methods were applied on a set of high voltage customers of the Korea power system and derived class labels from clustering and other features are used as input to produce classifiers. Lastly, the result of our experiments was presented.

  • PDF

AMR 데이터에서의 전력 부하 패턴 분류 (Power Load Pattern Classification from AMR Data)

  • ;박진형;이헌규;신진호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.231-234
    • /
    • 2008
  • Currently an automated methodology based on data mining techniques is presented for the prediction of customer load patterns in load demand data. The main aim of our work is to forecast customers' contract information from capacity of daily power consumption patterns. According to the result, we try to evaluate the contract information's suitability. The proposed our approach consists of three stages: (i) data preprocessing: noise or outlier is detected and removed (ii) cluster analysis: SOMs clustering is used to create load patterns and the representative load profiles and (iii) classification: we applied the K-NNs classifier in order to predict the customers' contract information base on power consumption patterns. According to the our proposed methodology, power load measured from AMR(automatic meter reading) system, as well as customer indexes, were used as inputs. The output was the classification of representative load profiles (or classes). Lastly, in order to evaluate KNN classification technique, the proposed methodology was applied on a set of high voltage customers of the Korea power system and the results of our experiments was presented.

국지적 공간자기상관통계를 이용한 도시녹지의 공간적 분포패턴에 관한 연구 (A Study on the Spatial Distribution Patterns of Urban Green Spaces Using Local Spatial Autocorrelation Statistics)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.25-45
    • /
    • 2020
  • 본 연구의 주된 목적은 녹지의 공간 분포 패턴을 식별하는데 있어 국지적 공간자기상관 기법들의 성능을 비교하고 분석하는 것이다. 이 연구목적을 달성하기 위해 본 연구는 위성영상분석기법과 공간자기상관기법들을 이용하였다. 분석의 결과 공간 특이치 군집을 갖는 LISA 군집지도가 도시녹지의 공간 분포 패턴을 식별하는 데 있어서 다른 분석기법들보다 우수함이 확인되었다. 본 연구는 기존의 연구들과는 다른 몇 가지 연구방법을 이용했다는 점에서 관련분야에 기여할 수 있다. 이러한 차별성과 유용성에도 불구하고 본 연구는 녹지의 공간적 분포패턴을 식별하는 있어서 저해상도 위성영상을 이용했다는 점과 식생지수들 중에서 NDVI만을 이용했다는 점에서 한계를 지닌다. 이러한 한계들은 향후연구에서 UAV영상을 이용하거나 또는 여러 가지 식생지수들을 동시에 이용한다면 극복될 수 있을 것이다.