• Title/Summary/Keyword: 밀도기반군집

Search Result 41, Processing Time 0.023 seconds

Cluster Merging Using Density based Fuzzy C-Means algorithm (밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병)

  • 한진우;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.05a
    • /
    • pp.235-238
    • /
    • 2003
  • Fuzzy C-Means(FCM) 알고리즘은 초기 군집 중심의 개수와 위치에 따라 군집 결과의 성능차이가 많이 나타난다. 하지만 일반적인 경우에 군집 중심의 개수는 분석가의 주관에 의해 결정되고, 임의적으로 결정되기 때문에 원래 데이터의 구조와는 무관하게 수행되어 최적화된 군집화 수행을 실행하지 못하는 경우가 발생하게 된다. 따라서 본 논문에서는 원래의 데이터의 구조에 좀더 근접한 퍼지 군집화를 수행하기 위하여 격자를 바탕으로 한 데이터의 밀도를 이용한 FCM을 제안하고, 이러한 밀도 기반 FCM에 의해 결정된 군집의 합병 기법을 제안하였다. N-차원의 데이터 공간을 N-차원의 격자로 나누고, 초기 군집 중심의 개수와 위치는 각 격자의 밀도를 바탕으로 결정된다. 초기화 이후에 각 격자 내부에서 FCM을 이용하여 군집화를 수행하고, 계속해서 이웃 격자의 군집결과에 대하여 군집간의 유사도 측도를 이용하여 군집 합병을 수행함으로써 데이터의 자연적인 구조에 근접한 군집화를 수행하였다. 제안된 군집화 합병 기법의 향상된 성능은 UCI Machine Learning Repository 데이터를 이용하여 확인하였다.

  • PDF

Multi-hierarchical Density-based Clustering Method (다계층 밀도기반 군집화 기법)

  • Shin, Dong Mun;Jung, Suk Ho;Yi, Gyeong Min;Lee, Dong Gyu;Sohn, GyoYong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

밀도 기반 공간 군집체계를 반영한 해양사고 위험 예측 모델 개발에 관한 연구

  • 양지민;최충정;백연지;임광현;노유나
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2023.05a
    • /
    • pp.146-147
    • /
    • 2023
  • 해양사고는 도로교통과 달리 지속적으로 증가하고 있으며, 인명피해가 주로 발생하는 주요 사고의 치사율은 도로교통의 11.7배 이상이다. 해양사고는 외부 환경에 따라 사고 위치가 변하고 즉각적인 조치가 어려워 타 교통에 비해 대형 사고로 이어질 가능성이 매우 크다. 그러나 여전히 사고가 발생하고 난 후 대응하는 등 사후적 관리 단계에 무르고 있어 사고의 주요 요인을 사전에 식별·관리하는 선제적 관리단계로의 전환 필요성이 대두되고 있다. 따라서 본 연구에서는 해양사고 발생 지점 밀도 기반의 가변 공간 군집체계를 반영한 해양사고 예측모델을 개발하였다. 반복적인 공간 가산분석을 통해 밀도가 높을수록 작은 규모의 격자 체계를 가질 수 있도록 상세한 공간 군집체계를 구성하였으며, 단순 사고 위험도 예측뿐만 아닌 사고 인과관계를 설명할 수 있는 BN(Bayesian Network) 기반의 모형을 사용하여 해양사고 위험예측 모델을 개발하였다. 또한, Cost-of-Omission을 통해 해양사고 예측확률의 변화와 각 변수들의 영향력을 확인하였으며, 월별 해양사고예측 결과를 GIS를 활용하여 2D/3D 기반으로 시각화하였다.

  • PDF

Construction of Onion Sentiment Dictionary using Cluster Analysis (군집분석을 이용한 양파 감성사전 구축)

  • Oh, Seungwon;Kim, Min Soo
    • Journal of the Korean Data Analysis Society
    • /
    • v.20 no.6
    • /
    • pp.2917-2932
    • /
    • 2018
  • Many researches are accomplished as a result of the efforts of developing the production predicting model to solve the supply imbalance of onions which are vegetables very closely related to Korean food. But considering the possibility of storing onions, it is very difficult to solve the supply imbalance of onions only with predicting the production. So, this paper's purpose is trying to build a sentiment dictionary to predict the price of onions by using the internet articles which include the informations about the production of onions and various factors of the price, and these articles are very easy to access on our daily lives. Articles about onions are from 2012 to 2016, using TF-IDF for comparing with four kinds of TF-IDFs through the documents classification of wholesale prices of onions. As a result of classifying the positive/negative words for price by k-means clustering, DBSCAN (density based spatial cluster application with noise) clustering, GMM (Gaussian mixture model) clustering which are partitional clustering, GMM clustering is composed with three meaningful dictionaries. To compare the reasonability of these built dictionary, applying classified articles about the rise and drop of the price on logistic regression, and it shows 85.7% accuracy.

Visualizing Cluster Hierarchy Using Hierarchy Generation Framework (계층 발생 프레임워크를 이용한 군집 계층 시각화)

  • Shin, DongHwa;L'Yi, Sehi;Seo, Jinwook
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.6
    • /
    • pp.436-441
    • /
    • 2015
  • There are many types of clustering algorithms such as centroid, hierarchical, or density-based methods. Each algorithm has unique data grouping principles, which creates different varieties of clusters. Ordering Points To Identify the Clustering Structure (OPTICS) is a well-known density-based algorithm to analyze arbitrary shaped and varying density clusters, but the obtained clusters only correlate loosely. Hierarchical agglomerative clustering (HAC) reveals a hierarchical structure of clusters, but is unable to clearly find non-convex shaped clusters. In this paper, we provide a novel hierarchy generation framework and application which can aid users by combining the advantages of the two clustering methods.

Density-Based Estimation of POI Boundaries Using Geo-Tagged Tweets (공간 태그된 트윗을 사용한 밀도 기반 관심지점 경계선 추정)

  • Shin, Won-Yong;Vu, Dung D.
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.42 no.2
    • /
    • pp.453-459
    • /
    • 2017
  • Users tend to check in and post their statuses in location-based social networks (LBSNs) to describe that their interests are related to a point-of-interest (POI). While previous studies on discovering area-of-interests (AOIs) were conducted mostly on the basis of density-based clustering methods with the collection of geo-tagged photos from LBSNs, we focus on estimating a POI boundary, which corresponds to only one cluster containing its POI center. Using geo-tagged tweets recorded from Twitter users, this paper introduces a density-based low-complexity two-phase method to estimate a POI boundary by finding a suitable radius reachable from the POI center. We estimate a boundary of the POI as the convex hull of selected geo-tags through our two-phase density-based estimation, where each phase proceeds with different sizes of radius increment. It is shown that our method outperforms the conventional density-based clustering method in terms of computational complexity.

Crowd Density Estimation with Multi-class Adaboost in elevator (다중 클래스 아다부스트를 이용한 엘리베이터 내 군집 밀도 추정)

  • Kim, Dae-Hun;Lee, Young-Hyun;Ku, Bon-Hwa;Ko, Han-Seok
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.7
    • /
    • pp.45-52
    • /
    • 2012
  • In this paper, an crowd density in elevator estimation method based on multi-class Adaboost classifier is proposed. The SOM (Self-Organizing Map) based conventional methods have shown insufficient performance in practical scenarios and have weakness for low reproducibility. The proposed method estimates the crowd density using multi-class Adaboost classifier with texture features, namely, GLDM(Grey-Level Dependency Matrix) or GGDM(Grey-Gradient Dependency Matrix). In order to classify into multi-label, weak classifier which have better performance is generated by modifying a weight update equation of general Adaboost algorithm. The crowd density is classified into four categories depending on the number of persons in the crowd, which can be 0 person, 1-2 people, 3-4 people, and 5 or more people. The experimental results under indoor environment show the proposed method improves detection rate by about 20% compared to that of the conventional method.

Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm (개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병)

  • Han, Jin-Woo;Jun, Sung-Hae;Oh, Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.5
    • /
    • pp.517-524
    • /
    • 2004
  • The fuzzy set theory has been wide used in clustering of machine learning with data mining since fuzzy theory has been introduced in 1960s. In particular, fuzzy C-means algorithm is a popular fuzzy clustering algorithm up to date. An element is assigned to any cluster with each membership value using fuzzy C-means algorithm. This algorithm is affected from the location of initial cluster center and the proper cluster size like a general clustering algorithm as K-means algorithm. This setting up for initial clustering is subjective. So, we get improper results according to circumstances. In this paper, we propose a cluster merging using enhanced density based fuzzy C-means clustering algorithm for solving this problem. Our algorithm determines initial cluster size and center using the properties of training data. Proposed algorithm uses grid for deciding initial cluster center and size. For experiments, objective machine learning data are used for performance comparison between our algorithm and others.

A clutter reduction algorithm based on clustering for active sonar systems (능동소나 시스템을 위한 군집화 기반의 클러터 제거 기법)

  • Kwak, ChulHyun;Cheong, Myoung Jun;Ahn, Jae-Kyun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.2
    • /
    • pp.149-157
    • /
    • 2016
  • In this paper, we propose a new clutter reduction algorithm, which rejects heavy clutter density in shallow water environments, based on a clustering method. At first, it applies the density-based clustering to active sonar measurements by considering speed of targets, pulse repetition intervals, etc. We assume clustered measurements as target candidates and remove noise, which is a set of unclustered measurements. After clustering, we classify target and clutter measurements by the validation check method. We evaluate the performance of the proposed algorithm on synthetic data and sea-trial data. The results demonstrate that the proposed algorithm provides significantly better performances to reduce clutter than the conventional algorithm.

Nonparametric clustering of functional time series electricity consumption data (전기 사용량 시계열 함수 데이터에 대한 비모수적 군집화)

  • Kim, Jaehee
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.1
    • /
    • pp.149-160
    • /
    • 2019
  • The electricity consumption time series data of 'A' University from July 2016 to June 2017 is analyzed via nonparametric functional data clustering since the time series data can be regarded as realization of continuous functions with dependency structure. We use a Bouveyron and Jacques (Advances in Data Analysis and Classification, 5, 4, 281-300, 2011) method based on model-based functional clustering with an FEM algorithm that assumes a Gaussian distribution on functional principal components. Clusterwise analysis is provided with cluster mean functions, densities and cluster profiles.