• Title/Summary/Keyword: 군집화 기법

Search Result 498, Processing Time 0.042 seconds

A Hierarchical Representatives Clustering Technique for Data Mining (데이터 마이닝을 위한 계층적 대표값 군집화 기법)

  • 안병주;김은주;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.69-71
    • /
    • 2000
  • 군집화는 데이터 집합을 유사한 데이터 개체들의 군집들로 분할하여 데이터 속에 존재하는 의미 있는 정보를 얻는 과정이다. 대부분의 군집화 기법들은 비교적 적은 양의 데이터를 대상으로 한 것이고 다차원 대용량의 데이터 처리에 관한 문제는 다루지 않고 있어서 데이터 마이닝을 위한 군집화 기법으로는 부적절하다. 따라서 본 논문을 통해 대용량의 데이터에 적용할 수 있는 새로운 군집화 알고리즘인 계층적 대표값 군집화(HRC) 기법을 제안한다. HRC는 자기조직화지도와 계층적 군집화 기법을 접목한 하이브리드 방법으로 두 단계에 거쳐 군집화를 수행한다. 첫 번째 단계에서 자기조직화지도를 통해 데이터를 요약하고, 두 번째 단계에서 요약된 대표값 정보만을 가지고 계층적인 군집화를 수행한다. 또한, 두 번째 단계의 계층적 군집화 적용시 양질의 군집을 발견하기 위해 군집간의 유사도를 측정하는 새로운 척도를 고안하였다. 그리고 실험을 통해 HRC와 기존 군집화 알고리즘이 발견한 군집의 질을 비교하여 성능을 평가했다.

  • PDF

Validation-based Clustering Algorithm (유효성 기반 군집화 알고리즘)

  • ;R.S. Ramakrishna
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.19-21
    • /
    • 2003
  • 본 논문에서는 군집화의 가장 중요한 2가지 문제에 대한 새로운 해결책을 제시한다. 첫 번째 문제는 두 객체가 하나의 군집내에 포함될 수 있는지를 결정하는 유사 결정으로써, 이를 해결하기 위해 군집 유효화 지수에 기반한 유사 결정 기법을 제안한다. 이 기법은 정성적인 인지 과정을 정량적인 비교 결정 과정으로 바꾼다 이 기법은 본 논문에서 제안한 랜덤 군집화와 전체 군집화의 두 부분으로 구성된 유효성 기반 군집화 알고리즘의 핵심을 이루며. 기존의 않은 군집화 알고리즘에서 요구되는 복잡한 파라미터를 결정할 필요가 없어지도록 한다. 두 번째 문제는 최적 군집 수 (optimal number of clusters)를 찾는 것으로써, 이것 또한 앞에서 제안한 기법에 의해서 전체 군집화에서 찾을 수 있다. 마지막으로 제안한 기법과 군집화 알고리즘의 효용성 및 효율성을 보여주는 실험 결과가 제시된다.

  • PDF

Study on Application of Neural Network for Unsupervised Training of Remote Sensing Data (신경망을 이용한 원격탐사자료의 군집화 기법 연구)

  • 김광은;이태섭;채효석
    • Spatial Information Research
    • /
    • v.2 no.2
    • /
    • pp.175-188
    • /
    • 1994
  • A competitive learning network was proposed as unsupervised training method of remote sensing data, Its performance and computational re¬quirements were compared with conventional clustering techniques such as Se¬quential and K - Means. An airborne remote sensing data set was used to study the performance of these classifiers. The proposed algorithm required a little more computational time than the conventional techniques. However, the perform¬ance of competitive learning network algorithm was found to be slightly more than those of Sequential and K - Means clustering techniques.

  • PDF

Multi-hierarchical Density-based Clustering Method (다계층 밀도기반 군집화 기법)

  • Shin, Dong Mun;Jung, Suk Ho;Yi, Gyeong Min;Lee, Dong Gyu;Sohn, GyoYong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.797-798
    • /
    • 2009
  • 군집화는 대용량의 데이터로부터 유용한 정보를 추출하는 데에 적합한 데이터마이닝 기법들 중 하나이다. 군집화 기법은 주어진 데이터그룹 내에서 사전정보 없이 의미있는 지식을 발견할 수 있으므로 큰 어려움이 없이 실제 응용분야에 적용할 수 있다. 또한, 대용량 데이터를 다룰 때에 개별적인 데이터에 대한 접근 횟수를 줄이고, 알고리즘이 다루어야 할 데이터 구조의 크기를 줄일 수 있다. 본 논문에서는 밀도-기반 군집화 기법을 기반으로 하는 새로운 군집화 기법을 제안한다. 우리가 제안하는 군집화 기법은 반복적인 군집화 과정을 통하여 군집 내 주변 잡음을 제거하고 더 세밀하게 집단을 세분화하는 것이 가능하다. 또한, 군집을 표현하는 데에 계층구조로 나타내어 각 군집의 상관관계를 파악하는 데에 유리하다. 본 논문에서 제안하는 군집화 기법을 통하여 다양한 밀도를 가진 군집들을 효과적으로 분류할 수 있을 거라고 기대된다.

A Study On Predicting Stock Prices Of Hallyu Content Companies Using Two-Stage k-Means Clustering (2단계 k-평균 군집화를 활용한 한류컨텐츠 기업 주가 예측 연구)

  • Kim, Jeong-Woo
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.7
    • /
    • pp.169-179
    • /
    • 2021
  • This study shows that the two-stage k-means clustering method can improve prediction performance by predicting the stock price, To this end, this study introduces the two-stage k-means clustering algorithm and tests the prediction performance through comparison with various machine learning techniques. It selects the cluster close to the prediction target obtained from the k-means clustering, and reapplies the k-means clustering method to the cluster to search for a cluster closer to the actual value. As a result, the predicted value of this method is shown to be closer to the actual stock price than the predicted values of other machine learning techniques. Furthermore, it shows a relatively stable predicted value despite the use of a relatively small cluster. Accordingly, this method can simultaneously improve the accuracy and stability of prediction, and it can be considered as the new clustering method useful for small data. In the future, developing the two-stage k-means clustering is required for the large-scale data application.

A clutter reduction algorithm based on clustering for active sonar systems (능동소나 시스템을 위한 군집화 기반의 클러터 제거 기법)

  • Kwak, ChulHyun;Cheong, Myoung Jun;Ahn, Jae-Kyun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.2
    • /
    • pp.149-157
    • /
    • 2016
  • In this paper, we propose a new clutter reduction algorithm, which rejects heavy clutter density in shallow water environments, based on a clustering method. At first, it applies the density-based clustering to active sonar measurements by considering speed of targets, pulse repetition intervals, etc. We assume clustered measurements as target candidates and remove noise, which is a set of unclustered measurements. After clustering, we classify target and clutter measurements by the validation check method. We evaluate the performance of the proposed algorithm on synthetic data and sea-trial data. The results demonstrate that the proposed algorithm provides significantly better performances to reduce clutter than the conventional algorithm.

Comparison of Document Clustering Performance Using Various Dimension Reduction Methods (다양한 차원 축소 기법을 적용한 문서 군집화 성능 비교)

  • Cho, Heeryon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.437-438
    • /
    • 2018
  • 문서 군집화 성능을 높이기 위한 한 방법으로 차원 축소를 적용한 문서 벡터로 군집화를 실시하는 방법이 있다. 본 발표에서는 특이값 분해(SVD), 커널 주성분 분석(Kernel PCA), Doc2Vec 등의 차원 축소 기법을, K-평균 군집화(K-means clustering), 계층적 병합 군집화(hierarchical agglomerative clustering), 스펙트럼 군집화(spectral clustering)에 적용하고, 그 성능을 비교해 본다.

Automatic word clustering using total divergence to the average (평균점에 대한 불일치의 합을 이용한 자동 단어 군집화)

  • Lee, Ho;Seo, Hee-Chul;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.419-424
    • /
    • 1998
  • 본 논문에서는 단어들의 분포적 특성을 이용하여 자동으로 단어를 군집화(clustering) 하는 기법을 제시한다. 제안된 군집화 기법에서는 단어들 사이의 거리(distance)를 가상 공간상에 있는 두 단어의 평균점에 대한 불일치의 합(total divergence to the average)으로 측정하며 군집화 알고리즘으로는 최소 신장 트리(minimal spanning tree)를 이용한다. 본 논문에서는 이 기법에 대해 두 가지 실험을 수행한다. 첫 번째 실험은 코퍼스에서 상위 출현 빈도를 가지는 약 1,200 개의 명사들을 의미에 따라 군집화 하는 것이며 두 번째 실험은 이 논문에서 제시한 자동 군집화 방법의 성능을 객관적으로 평가하기 위한 것으로 가상 단어(pseudo word)에 대한 군집화이다. 실험 결과 이 방법은 가상 단어에 대해 약 91%의 군집화 정확도와(clustering precision)와 약 81%의 군집 순수도(cluster purity)를 나타내었다. 한편 두 번째 실험에서는 평균점에 대한 불일치의 합을 이용한 거리 측정에서 나타나는 문제점을 보완한 거리 측정 방법을 제시하였으며 이를 이용하여 가상 단어 군집화를 수행한 결과 군집화 정확도와 군집 순수도가 각각 약 96% 및 95%로 향상되었다.

  • PDF

Word Clustering Scheme for Twitter Sentiment Analysis Based on POS (트위터 감정 분석을 위한 POS 기반의 단어 군집화 기법)

  • Kim, Se-Jun;Lim, Hwan-Hee;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.31-32
    • /
    • 2019
  • 본 논문에서는 최근 빅데이터 활용 분야의 큰 이슈인 트위터 메시지의 효율적인 감정 분석을 위한 POS 기반의 단어 군집화 기법을 제안하였다. 기존에 군집화를 통한 다양한 텍스트 감정 분석 기법이 제시되어 왔으나, 군집화 된 기능과 분류 결과 간의 관련성에 대한 연구는 미흡하였다. 또한 모든 단어에 대한 감정 분석은 노이즈로 작용될 수 있는 단어로 인해 정확도가 감소할 수 있다. 본 논문에서는 이를 해결하기 위하여 Chi Square 기법을 통하여 분석 결과에 영향을 미치는 단어에 가중치를 부여함으로써 정확도를 향상시킨다.

  • PDF

Selecting Examples to Be Labeled for Semi-Supervised Clustering Using Cluster-Based Sampling (군집화 기법을 이용한 준감독 군집화의 훈련예제 선정)

  • 김종성;강재호;류광렬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.646-648
    • /
    • 2004
  • 기계학습의 군집화(clustering) 기법은 예제들 간의 유사성에 근거하여 주어진 예제들을 무리 짓는 방법이다. 준감독(semi-supervised) 군집화는 카테고리가 부여된(labeled) 소수의 예제들을 적극적으로 활용하여 군집형태가 보다 자연스럽게 형성되도록 유도하는 군집화 방법이다. 준감독 군집화 문제에서 예제에 카테고리를 부여하는 작업은 현실적으로 극히 제한적이거나 카테고리를 부여하는데 소요되는 비용이 상당하므로, 제한된 자원 내에서 군집화에 효용성이 높을 예제들을 선정하여 카테고리를 부여하는 것이 필요하다. 본 논문에서는 기존 연구에서 능동적 학습의 초기 훈련예제 선정을 위해 제안된 군집기반 훈련예제 선정 방법을 준감독 군집화에 적용하여 군집 결과의 질을 향상시키고자 한다. 군집화를 이용한 예제 선정 방법은 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 가정하에 전체 예제를 활용하여 선정하고자 하는 예제 수만큼 군집을 생성 한 후. 각 군집의 중심점에 가장 가까운 예제들을 대표 예제로 선정하여 훈련 집합을 구성하는 방법이다 본 논문에서는 문서를 대상으로 하는 준감독 군집화 실험을 통해, 카테고리를 부여할 예제를 임의로 선정한 경우에 비해 군집화를 이용한 훈련 예제들로 준감독 군집화를 수행한 경우가 보다 좋은 군집을 형성함을 확인하였다.

  • PDF