• Title/Summary/Keyword: 데이터 군집화

Search Result 560, Processing Time 0.061 seconds

Improvements of K-modes Algorithm and ROCK Algorithm (K-모드 알고리즘과 ROCK 알고리즘의 개선)

  • 김보화;김규성
    • The Korean Journal of Applied Statistics
    • /
    • v.15 no.2
    • /
    • pp.381-393
    • /
    • 2002
  • K-modes algorithm and ROCK(RObust Clustering using linKs) algorithm we useful clustering methods for large categorical data. In the paper, we investigate these algorithms and propose improved algorithms of them to correct their weakness. A simulation study shows that the proposed algorithms could increase the performance of data clustering.

Clustered Hash Index-based Skyline Query (해시 색인 군집화 기반 스카이라인 질의)

  • Choi, Jong-Hyeok;Nasridinov, Aziz
    • Proceedings of The KACE
    • /
    • 2018.01a
    • /
    • pp.45-48
    • /
    • 2018
  • 스카이라인 질의는 지배라는 개념을 활용, 주어진 데이터로부터 데이터를 대표할 수 있는 데이터들을 탐색하기 때문에 사용자의 요청에 부합하는 최적의 결과를 탐색하거나 기업에서 의사결정을 이루기 위해 사용되는 등 넓은 활용을 보이고 있다. 하지만 스카이라인 질의는 데이터의 차원이 증가하는 경우 전체적인 성능의 감소와 함께 스카이라인으로 선택되는 데이터의 수가 급증하여 사용자에게 유용한 결과를 반환하지 못하게 된다. 이러한 문제를 해결하기 위해 최근에는 Top-k 질의 기반의 방식이나 군집화 기반의 기법을 적용한 방식의 스카이라인 질의들이 새롭게 제안되고 있지만 이들은 데이터의 편향이나 사용자로부터 입력된 k에 큰 영향을 받는 등 해당 질의 결과가 데이터들을 충분히 대표하거나 다양성을 만족시키지 못했다. 이러한 문제를 해결하기 위해 본 논문에서는 해시 색인 기법과 군집화 기법인 DBSCAN을 통해 주어진 데이터들을 충분히 대표함과 동시에 다양성을 만족할 수 있는 새로운 방식의 스카이라인인 CHI-SQ의 이론적 배경을 제안하고자 한다.

  • PDF

Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder (시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교)

  • Hwang, Woosung;Lim, Hyo-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

A Clustering Method using GHSOM for Processing Large Data (GHSOM을 이용한 대용량 데이터 처리의 군집화 방법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.393-396
    • /
    • 2002
  • 최근 대용량의 데이터베이스로부터 유용한 정보를 발견하고 데이터간에 존재하는 연관성을 탐색하고 분석하는 데이터 마이닝에 관한 많은 연구들이 진행되고 있다. 실제 응용분야에선 수집된 데이터는 시간이 지날수록 데이터의 양이 늘어나게 되고, 중복되는 속성과 잡음을 갖게 되어 마이닝 기법을 이용하는데 많은 시간과 비용이 소요된다. 또한 어느 속성이 중요한지 알 수 없어 중요한 속성이 중요하지 않은 속성에 의해 왜곡되거나 제대로 분석되지 않을 수 있다. 본 연구는 이러한 문제점들을 해결하기 위해 GHSOM을 이용한 계층적 신경망 군집화 방법을 제안한다. 제안하는 방법은 비리 군집의 개수를 정해줄 필요가 없고, 다양한 레벨의 군집들을 얻을 수 있는 계층적 군집화를 이루어낸다는 장점을 갖는다. 본 논문에서는 신경망 GHSOM의 구조와 특성에 대해 간략히 살펴보고 시스템 처리과정에 대해 설명한다.

  • PDF

Visualizing Cluster Hierarchy Using Hierarchy Generation Framework (계층 발생 프레임워크를 이용한 군집 계층 시각화)

  • Shin, DongHwa;L'Yi, Sehi;Seo, Jinwook
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.6
    • /
    • pp.436-441
    • /
    • 2015
  • There are many types of clustering algorithms such as centroid, hierarchical, or density-based methods. Each algorithm has unique data grouping principles, which creates different varieties of clusters. Ordering Points To Identify the Clustering Structure (OPTICS) is a well-known density-based algorithm to analyze arbitrary shaped and varying density clusters, but the obtained clusters only correlate loosely. Hierarchical agglomerative clustering (HAC) reveals a hierarchical structure of clusters, but is unable to clearly find non-convex shaped clusters. In this paper, we provide a novel hierarchy generation framework and application which can aid users by combining the advantages of the two clustering methods.

Deep Subspace clustering with attention mechanism (데이터 표현 강조 기법을 활용한 부분 공간 군집화)

  • Baek, Sang Won;Yoon, Sang Min
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.721-723
    • /
    • 2020
  • 부분 공간 군집화는 고차원 데이터에서 의미 있는 특징들을 선별 및 추출하여 저차원의 부분 공간에서 군집화 하는 것이다. 그러나 최근 딥러닝 활용한 부분 공간 군집화 연구들은 AutoEncoder을 기반으로 의미있는 특징을 선별하는 것이 아닌 특징 맵의 크기를 증가시켜서 네트워크의 표현 능력에 중점을 둔 연구되고 있다. 본 논문에서는 AutoEncdoer 네트워크에 Channel Attention 모델을 활용하여 Encoder와 Decoder에서 부분 공간 군집화를 위한 특징을 강조하는 네트워크를 제안한다. 본 논문에서 제안하는 네트워크는 고차원의 이미지에서 부분 공간 군집화를 위해 강조된 특징 맵을 추출하고 이를 이용해서 보다 향상된 성능을 보여주었다.

  • PDF

How to determine the number of clusters (군집수 결정 문제)

  • Yun, Bok-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2004.05a
    • /
    • pp.689-693
    • /
    • 2004
  • 주어진 데이터를 일정한 기준에 따라 여러 개 군집으로 분할할 때 대부분 경우는 군집수에 대한 사전 정보가 없이 군집화를 실시하게 된다. 적절한 군집수의 결정은 군집화 결과의 타당성에 전제가 되는 매우 중요한 문제이나 내재된 복잡성 때문에 실제 적용에 간편한 방법을 찾기 힘들고 더구나 다양한 형태의 데이터에 보편적으로 적합한 방법을 찾기는 더욱 어렵다. 본 연구에서는 기존의 제시된 군집수 결정방법 들의 아이디어 들을 소개하고 주어진 데이터의 종류에 관계없이 일반적으로 적용할 수 있는 새로운 군집수 결정기법을 제시한다. 대부분의 경우 군집수 결정은 군집화와 동시에 이루어지게 되므로 이것을 한꺼번에 처리하는 범용의 방법도 소개한다. 적용 예제들을 통한 타당성 검증도 이루어진다.

  • PDF

Detection of inappropriate advertising content on SNS using k-means clustering technique (k-평균 군집화 기법을 활용한 SNS의 부적절한 광고성 콘텐츠 탐지)

  • Lee, Dong-Hwan;Lim, Heui-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.570-573
    • /
    • 2021
  • 오늘날 SNS를 사용하는 사람들이 증가함에 따라, 생성되는 데이터도 많아지고 종류도 매우 다양해졌다. 하지만 유익한 정보만 존재하는 것이 아니라, 부정적, 반사회적, 사행성 등의 부적절한 콘텐츠가 공존한다. 때문에 사용자에 따라 적절한 콘텐츠를 필터링 할 필요성이 증가하고 있다. 따라서 본 연구에서는 SNS Instagram을 대상으로 콘텐츠의 해시태그를 수집하여 데이터화 했다. 또한 k-평균 군집화 기법을 적용하여, 유사한 특성의 콘텐츠들을 군집화하고, 각 군집은 실루엣 계수(Silhouette Coefficient)와 키워드 다양성(Keyword Diversity)을 계산하여 콘텐츠의 적절성을 판단하였다.

Clustering of Incomplete Data Using Autoencoder and fuzzy c-Means Algorithm (AutoEncoder와 FCM을 이용한 불완전한 데이터의 군집화)

  • 박동철;장병근
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.700-705
    • /
    • 2004
  • Clustering of incomplete data using the Autoencoder and the Fuzzy c-Means(PCM) is proposed in this paper. The Proposed algorithm, called Optimal Completion Autoencoder Fuzzy c-Means(OCAEFCM), utilizes the Autoencoder Neural Network (AENN) and the Gradiant-based FCM (GBFCM) for optimal completion of missing data and clustering of the reconstructed data. The proposed OCAEFCM is applied to the IRIS data and a data set from a financial institution to evaluate the performance. When compared with the existing Optimal Completion Strategy FCM (OCSFCM), the OCAEFCM shows 18%-20% improvement of performance over OCSFCM.

Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data (계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출)

  • 엄재홍;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF