• 제목/요약/키워드: Data Clustering

검색결과 2,725건 처리시간 0.034초

AMI로부터 측정된 전력사용데이터에 대한 군집 분석 (Clustering load patterns recorded from advanced metering infrastructure)

  • 안효정;임예지
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.969-977
    • /
    • 2021
  • 본 연구에서는 Hierarchical K-means 군집화 알고리즘을 이용해 서울의 A아파트 가구들의 전력 사용량 패턴을 군집화 하였다. 차원을 축소해주면서 패턴을 파악할 수 있는 Hierarchical K-means 군집화 알고리즘은 기존 K-means 군집화 알고리즘의 단점을 보완하여 최근 대용량 전력 사용량 데이터에 적용되고 있는 방법론이다. 본 연구에서는 여름 저녁 피크 시간대의 시간당 전력소비량 자료에 대해 군집화 알고리즘을 적용하였으며, 다양한 군집 개수와 level에 따라 얻어진 결과를 비교하였다. 결과를 통해 사용량에 따라 패턴이 군집화 됨을 확인하였으며, 군집화 유효성 지수들을 통해 이를 비교하였다.

혼합형 데이터에 대한 나무형 군집화 (Tree-structured Clustering for Mixed Data)

  • 양경숙;허명회
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.271-282
    • /
    • 2006
  • 본 논문에서는 범주형과 연속형 변수들이 혼합된 데이터에 적용할 수 있는 나무형 군집화 알고리즘을 제안하였다. 특히 혼합된 변수들이 공통의 의미를 갖도록 하기 위해 범주형 변수들을 전처리하는 방법을 고안하였다. 수치 예로서 SPSS의 신용(credit) 데이터와 독일신용자료(German credit data)에 알고리즘을 적용하고 그 결과를 검토하였다.

Data Correlation-Based Clustering Algorithm in Wireless Sensor Networks

  • Yeo, Myung-Ho;Seo, Dong-Min;Yoo, Jae-Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제3권3호
    • /
    • pp.331-343
    • /
    • 2009
  • Many types of sensor data exhibit strong correlation in both space and time. Both temporal and spatial suppressions provide opportunities for reducing the energy cost of sensor data collection. Unfortunately, existing clustering algorithms are difficult to utilize the spatial or temporal opportunities, because they just organize clusters based on the distribution of sensor nodes or the network topology but not on the correlation of sensor data. In this paper, we propose a novel clustering algorithm based on the correlation of sensor data. We modify the advertisement sub-phase and TDMA schedule scheme to organize clusters by adjacent sensor nodes which have similar readings. Also, we propose a spatio-temporal suppression scheme for our clustering algorithm. In order to show the superiority of our clustering algorithm, we compare it with the existing suppression algorithms in terms of the lifetime of the sensor network and the size of data which have been collected in the base station. As a result, our experimental results show that the size of data is reduced and the whole network lifetime is prolonged.

[Retracted]Hot Spot Analysis of Tourist Attractions Based on Stay Point Spatial Clustering

  • Liao, Yifan
    • Journal of Information Processing Systems
    • /
    • 제16권4호
    • /
    • pp.750-759
    • /
    • 2020
  • The wide application of various integrated location-based services (LBS social) and tourism application (app) has generated a large amount of trajectory space data. The trajectory data are used to identify popular tourist attractions with high density of tourists, and they are of great significance to smart service and emergency management of scenic spots. A hot spot analysis method is proposed, based on spatial clustering of trajectory stop points. The DBSCAN algorithm is studied with fast clustering speed, noise processing and clustering of arbitrary shapes in space. The shortage of parameters is manually selected, and an improved method is proposed to adaptively determine parameters based on statistical distribution characteristics of data. DBSCAN clustering analysis and contrast experiments are carried out for three different datasets of artificial synthetic two-dimensional dataset, four-dimensional Iris real dataset and scenic track retention point. The experiment results show that the method can automatically generate reasonable clustering division, and it is superior to traditional algorithms such as DBSCAN and k-means. Finally, based on the spatial clustering results of the trajectory stay points, the Getis-Ord Gi* hotspot analysis and mapping are conducted in ArcGIS software. The hot spots of different tourist attractions are classified according to the analysis results, and the distribution of popular scenic spots is determined with the actual heat of the scenic spots.

Bayesian Curve Clustering in Microarray

  • 이경은
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.39-42
    • /
    • 2006
  • We propose a Bayesian model-based approach using a mixture of Dirichlet processes model with discrete wavelet transform, for curve clustering in the microarray data with time-course gene expressions.

  • PDF

THE FUZZY CLUSTERING ALGORITHM AND SELF-ORGANIZING NEURAL NETWORKS TO IDENTIFY POTENTIALLY FAILING BANKS

  • 이기동
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 춘계학술대회
    • /
    • pp.485-493
    • /
    • 2005
  • Using 1991 FDIC financial statement data, we develop fuzzy clusters of the data set. We also identify the distinctive characteristics of the fuzzy clustering algorithm and compare the closest hard-partitioning result of the fuzzy clustering algorithm with the outcomes of two self-organizing neural networks. When nine clusters are used, our analysis shows that the fuzzy clustering method distinctly groups failed and extreme performance banks from control (healthy) banks. The experimental results also show that the fuzzy clustering method and the self-organizing neural networks are promising tools in identifying potentially failing banks.

  • PDF

FCM 클러스터링 알고리즘과 퍼지 결정트리를 이용한 상황인식 정보 서비스 (A Context-Aware Information Service using FCM Clustering Algorithm and Fuzzy Decision Tree)

  • 양석환;정목동
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.810-819
    • /
    • 2013
  • FCM 클러스터링 알고리즘은 대표적인 분할기반 군집화 알고리즘이며 다양한 분야에서 성공적으로 적용되어 왔다. 그러나 FCM 클러스터링 알고리즘은 잡음 및 지역 데이터에 대한 높은 민감도, 직관적인 결과와 상이한 결과 도출 가능성이 높은 문제, 초기 원형과 클러스터 개수 설정 문제 등이 존재한다. 본 논문에서는 FCM 알고리즘의 결과를 해당 속성의 데이터 축에 사상하여 퍼지구간을 결정하고, 결정된 퍼지구간을 FDT에 적용함으로써 FCM 알고리즘이 가지는 문제 중 잡음 및 데이터에 대한 높은 민감도, 직관적인 결과와 상이한 결과 도출 가능성이 높은 문제를 개선하는 시스템을 제안한다. 또한 실제 교통데이터와 강수량 데이터를 이용한 실험을 통하여 제안 모델과 FCM 클러스터링 알고리즘을 비교한다. 실험 결과를 통해 제안 모델은 잡음 및 데이터에 대한 민감도를 완화시킴으로써 보다 안정적인 결과를 제공하며, FCM 클러스터링 알고리즘을 적용한 시스템보다 직관적인 결과와의 일치율을 높여줌을 알 수 있다.

DBSCAN을 이용한 등부표 위치 데이터 Clustering 연구(I) (A Study on Data Clustering of Light Buoy Using DBSCAN(I))

  • 최광영;김소라;박상원;송재욱
    • 한국항해항만학회지
    • /
    • 제47권4호
    • /
    • pp.231-238
    • /
    • 2023
  • 등부표는 조류, 바람 등 외력에 영향을 받아 위치가 항상 유동적이고 위치는 항로표지용 AIS 또는 RTU를 통해 확인할 수 있다. 위치 확인이 가능한 등부표의 최근 5년간(2017~2021년) 위치 데이터 분석 결과 위치 오류 데이터는 평균 15.4%로 나타났으며 항해 안전사고예방 및 관리를 위해서는 위치 오류 데이터를 검출하고 정제된 위치 데이터 획득이 필요하다. 본 연구에서는 항로표지용 AIS 또는 RTU를 통해 획득한 위치 데이터를 DBSCAN Clustering하여 위치 오류 데이터를 검출하고 정제된 위치 데이터를 획득하고자 한다. 이를 위하여 위치 오류가 가장 많은 서해 해역 중 RTU가 설치된 군산항 1호 등부표의 21년도 위치 데이터를 Python library를 사용하여 DBSCAN Clustering 하였다. DBSCAN Clustering에 필요한 minPts는 2차원 데이터에 일반적으로 사용하는 값을 적용하였고 epsilon은 k-NN(최근접 이웃)알고리즘을 사용하여 값을 산출 및 적용하였다. DBSCAN Clustering 결과 minPts와 epsilon을 만족하지 못하는 위치 오류 데이터를 검출하였고 정제된 위치 데이터를 획득할 수 있었다. 본 연구는 항로표지용 AIS 또는 RTU가 설치된 등부표의 신뢰성 있는 위치 데이터를 획득할 수 있는 기초 자료로 활용할 수 있으며 항해 안전사고 예방에도 큰 도움이 될 것으로 판단된다.

Clustering Algorithm by Grid-based Sampling

  • Park, Hee-Chang;Ryu, Jee-Hyun;Lee, Sung-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.535-543
    • /
    • 2003
  • Cluster analysis has been widely used in many applications, such as pattern analysis or recognition, data analysis, image processing, market research on on-line or off-line and so on. Clustering can identify dense and sparse regions among data attributes or object attributes. But it requires many hours to get clusters that we want, because clustering is more primitive, explorative and we make many data an object of cluster analysis. In this paper we propose a new method of clustering using sample based on grid. It is more fast than any traditional clustering method and maintains its accuracy.

  • PDF

Mutual Fund 수익률의 비정상 함수형 시그널을 위한 다해상도 클러스터 계층구조 (Multi-scale Cluster Hierarchy for Non-stationary Functional Signals of Mutual Fund Returns)

  • 김대룡;정욱
    • 경영과학
    • /
    • 제24권2호
    • /
    • pp.57-72
    • /
    • 2007
  • Many Applications of scientific research have coupled with functional data signal clustering techniques to discover novel characteristics that can be used for the diagnoses of several issues. In this article we present an interpretable multi-scale cluster hierarchy framework for clustering functional data using its multi-aspect frequency information. The suggested method focuses on how to effectively select transformed features/variables in unsupervised manner so that finally reduce the data dimension and achieve the multi-purposed clustering. Specially, we apply our suggested method to mutual fund returns and make superior-performing funds group based on different aspects such as global patterns, seasonal variations, levels of noise, and their combinations. To promise our method producing a quality cluster hierarchy, we give some empirical results under the simulation study and a set of real life data. This research will contribute to financial market analysis and flexibly fit to other research fields with clustering purposes.