• 제목/요약/키워드: Feature clustering

검색결과 446건 처리시간 0.029초

중복을 허용한 계층적 클러스터링에 의한 복합 개념 탐지 방법 (Hierarchical Overlapping Clustering to Detect Complex Concepts)

  • 홍수정;최중민
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.111-125
    • /
    • 2011
  • 클러스터링(Clustering)은 유사한 문서나 데이터를 묶어 군집화해주는 프로세스이다. 클러스터링은 문서들을 대표하는 개념별로 그룹화함으로써 사용자가 자신이 원하는 주제의 문서를 찾기 위해 모든 문서를 검사할 필요가 없도록 도와준다. 이를 위해 유사한 문서를 찾아 그룹화하고, 이 그룹의 대표되는 개념을 도출하여 표현해주는 기법이 요구된다. 이 상황에서 문제점으로 대두되는 것이 복합 개념(Complex Concept)의 탐지이다. 복합 개념은 서로 다른 개념의 여러 클러스터에 속하는 중복 개념이다. 기존의 클러스터링 방법으로는 문서를 클러스터링할 때 동일한 레벨에 있는 서로 다른 개념의 클러스터에 속하는 중복된 복합 개념의 클러스터를 찾아서 표현할 수가 없었고, 또한 복합 개념과 각 단순 개념(Simple Concept) 사이의 의미적 계층 관계를 제대로 검증하기가 어려웠다. 본 논문에서는 기존 클러스터링 방법의 문제점을 해결하여 복합 개념을 쉽게 찾아 표현하는 방법을 제안한다. 기존의 계층적 클러스터링 알고리즘을 변형하여 동일 레벨에서 중복을 허용하는 계층적 클러스터링(Hierarchical Overlapping Clustering, HOC) 알고리즘을 개발하였다. HOC 알고리즘은 문서를 클러스터링하여 그 결과를 트리가 아닌 개념 중복이 가능한 Lattice 계층 구조로 표현함으로써 이를 통해 여러 개념이 중복된 복합 개념을 탐지할 수 있었다. HOC 알고리즘을 이용해 생성된 각 클러스터의 개념이 제대로 된 의미적인 계층 관계로 표현되었는지는 특징 선택(Feature Selection) 방법을 적용하여 검증하였다.

λ-퍼지측도를 사용한 질적, 양적혼합품질특성을 가진 부품의 군집화 (The Clustering of Parts with Qualitative and Quantitative Quality Properties using λ-Fuzzy Measure)

  • 김정만;이상도
    • 품질경영학회지
    • /
    • 제24권1호
    • /
    • pp.126-136
    • /
    • 1996
  • In multi-item production system, GT(Group Technology) is used effectively in order to cluster various parts into groups. GT is based on clustering parts which have similar features, and these features are classified into two properties, namely crisp(quantitative) feature and fuzzy(qualitative) feature. Especially, many difficult problems are often faced that have to evaluate the properties of parts with the crisp and fuzzy feature together. As the basis of determining the similarity of inter-parts, in this method, one aggregate value is calculated on each part. However, because the above aggregate value is only gained from simple additive weighted sum, there is one problem in this method that has been handled the combination effect of inter-parts. For these reasons, in this paper, a proposed method is suggested for representing combination effect in order to cluster parts that have crisp and fuzzy properties into groups using ${\lambda}$-fuzzy measure and fuzzy integral.

  • PDF

클러스터 중심 결정 방법에 따른 문서 클러스터링 성능 분석 (Analysis of Document Clustering Varing Cluster Centroid Decisions)

  • 오형진;변동률;이신원;박순철;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.99-102
    • /
    • 2002
  • K-means clustering algorithm is a very popular clustering technique, which is used in the field of information retrieval. In this paper, We deal with the problem of K-means Algorithm from the view of creating the centroids and suggest a method reflecting document feature and considering the context of each document to determine the new centroids during the process of forming new centroids. For experiment, We used the automatic document summarizer to summarize the Reuter21578 newslire test dataset and achieved 20% improved results to the recall metrics.

  • PDF

Word Embedding기반 Twitter 해시 태그 클러스터링 (Twitter Hashtags Clustering with Word Embedding)

  • 티엔윙안;양형정
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.179-180
    • /
    • 2019
  • Nowadays, clustering algorithm is considered as a promising solution for lacking human-labeled and massive data of social media sites in numerous machine learning tasks. Many researchers propose disaster event detection systems have ability to determine special local events, such as missing people, public transport damage by clustering similar tweets and hashtags together. In this paper, we try to extend tweet hashtag feature definition by applying word embedding. The experimental results are described that word embedding achieve better performance than the reference method.

  • PDF

Wind Power Pattern Forecasting Based on Projected Clustering and Classification Methods

  • Lee, Heon Gyu;Piao, Minghao;Shin, Yong Ho
    • ETRI Journal
    • /
    • 제37권2호
    • /
    • pp.283-294
    • /
    • 2015
  • A model that precisely forecasts how much wind power is generated is critical for making decisions on power generation and infrastructure updates. Existing studies have estimated wind power from wind speed using forecasting models such as ANFIS, SMO, k-NN, and ANN. This study applies a projected clustering technique to identify wind power patterns of wind turbines; profiles the resulting characteristics; and defines hourly and daily power patterns using wind power data collected over a year-long period. A wind power pattern prediction stage uses a time interval feature that is essential for producing representative patterns through a projected clustering technique along with the existing temperature and wind direction from the classifier input. During this stage, this feature is applied to the wind speed, which is the most significant input of a forecasting model. As the test results show, nine hourly power patterns and seven daily power patterns are produced with respect to the Korean wind turbines used in this study. As a result of forecasting the hourly and daily power patterns using the temperature, wind direction, and time interval features for the wind speed, the ANFIS and SMO models show an excellent performance.

3D Radar Objects Tracking and Reflectivity Profiling

  • Kim, Yong Hyun;Lee, Hansoo;Kim, Sungshin
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권4호
    • /
    • pp.263-269
    • /
    • 2012
  • The ability to characterize feature objects from radar readings is often limited by simply looking at their still frame reflectivity, differential reflectivity and differential phase data. In many cases, time-series study of these objects' reflectivity profile is required to properly characterize features objects of interest. This paper introduces a novel technique to automatically track multiple 3D radar structures in C,S-band in real-time using Doppler radar and profile their characteristic reflectivity distribution in time series. The extraction of reflectivity profile from different radar cluster structures is done in three stages: 1. static frame (zone-linkage) clustering, 2. dynamic frame (evolution-linkage) clustering and 3. characterization of clusters through time series profile of reflectivity distribution. The two clustering schemes proposed here are applied on composite multi-layers CAPPI (Constant Altitude Plan Position Indicator) radar data which covers altitude range of 0.25 to 10 km and an area spanning over hundreds of thousands $km^2$. Discrete numerical simulations show the validity of the proposed technique and that fast and accurate profiling of time series reflectivity distribution for deformable 3D radar structures is achievable.

다차원 데이타 공간에서 시뭔스 데이타 세트를 위한 클러스터링 기법 (Clustering Technique for Sequence Data Sets in Multidimensional Data Space)

  • 이석룡;임동혁;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.655-664
    • /
    • 2001
  • 비디오 스트림이나 음성 아날로그 신호와 같은 연속된 데이타는 특징 공간(feature space)에서 다차원 데이타 시퀀스(multidimensional data sequence)로 모델링될 수 있다. 본 논문에서는 이러한 다차원 데 이타 시퀀스의 효과적인 클러스터링 기법에 대하여 연구한다. 각 시퀀스는 차후의 저장 및 유사성 검색 (similarity search)을 효율적으로 실행하기 위하여 소수 개의 하이퍼 사각형 (hyper-rectangle) 형태의 클러스터로 표현된다. 본 논문에서는 사전에 정의된 수준의 클러스터링 품질을 보장하는 선형 복잡도를 갖는 클러스터링 알고리즘을 제시하고, 다양한 비디오 데이타에 관한 실험을 통하여 알고리즘의 적합성을 보여준다.

  • PDF

Data Clustering Method Using a Modified Gaussian Kernel Metric and Kernel PCA

  • Lee, Hansung;Yoo, Jang-Hee;Park, Daihee
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.333-342
    • /
    • 2014
  • Most hyper-ellipsoidal clustering (HEC) approaches use the Mahalanobis distance as a distance metric. It has been proven that HEC, under this condition, cannot be realized since the cost function of partitional clustering is a constant. We demonstrate that HEC with a modified Gaussian kernel metric can be interpreted as a problem of finding condensed ellipsoidal clusters (with respect to the volumes and densities of the clusters) and propose a practical HEC algorithm that is able to efficiently handle clusters that are ellipsoidal in shape and that are of different size and density. We then try to refine the HEC algorithm by utilizing ellipsoids defined on the kernel feature space to deal with more complex-shaped clusters. The proposed methods lead to a significant improvement in the clustering results over K-means algorithm, fuzzy C-means algorithm, GMM-EM algorithm, and HEC algorithm based on minimum-volume ellipsoids using Mahalanobis distance.

Improvement of Self Organizing Maps using Gap Statistic and Probability Distribution

  • Jun, Sung-Hae
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권2호
    • /
    • pp.116-120
    • /
    • 2008
  • Clustering is a method for unsupervised learning. General clustering tools have been depended on statistical methods and machine learning algorithms. One of the popular clustering algorithms based on machine learning is the self organizing map(SOM). SOM is a neural networks model for clustering. SOM and extended SOM have been used in diverse classification and clustering fields such as data mining. But, SOM has had a problem determining optimal number of clusters. In this paper, we propose an improvement of SOM using gap statistic and probability distribution. The gap statistic was introduced to estimate the number of clusters in a dataset. We use gap statistic for settling the problem of SOM. Also, in our research, weights of feature nodes are updated by probability distribution. After complete updating according to prior and posterior distributions, the weights of SOM have probability distributions for optima clustering. To verify improved performance of our work, we make experiments compared with other learning algorithms using simulation data sets.

그래프 컷을 이용한 학습된 자기 조직화 맵의 자동 군집화 (Automatic Clustering on Trained Self-organizing Feature Maps via Graph Cuts)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권9호
    • /
    • pp.572-587
    • /
    • 2008
  • SOFM(Self-organizing Feature Map)은 고차원의 데이타를 군집화(clustering)하거나 시각화(visualization)하기 위해 많이 사용되고 있는 비교사 학습 신경망(unsupervised neural network)의 한 종류이며, 컴퓨터비전이나 패턴인식 분야에서 다양하게 활용되고 있다. 최근 SOFM이 실제 응용분야에 다양하게 활용되고 좋은 결과를 보이고 있지만, 학습된 SOFM의 뉴론(neuron)을 다시 군집화해야 하는 후처리가 필요하며, 대부분의 경우 수동으로 이루어지고 있다. 후처리를 자동으로 하기 위해 k-means와 같은 기존의 군집화 알고리즘을 많이 이용하지만, 이 방법은 특히 다양한 모양의 클래스를 가진 고차원의 데이타에서 만족스럽지 못한 결과를 보인다. 다양한 모양의 클래스에서 좋은 성능을 보이기 위해, 본 논문에서는 그래프 컷(graph cut)을 이용하여 학습된 SOFM을 자동으로 군집화하는 방법을 제안한다. 그래프 컷을 이용할 때 터미널(terminal)이라는 두 개의 추가적인 정점(vertex)이 필요하며, 터미널과 각 정점 사이의 가중치는 대부분 사용자에 의해 입력받은 사전정보를 기반으로 설정된다. 제안된 방법은 SOFM의 거리 매트릭스(distance matrix)를 기반으로 한 모드 탐색(mode-seeking)과 모드의 군집화를 통하여 자동으로 사전정보를 설정하며, 학습된 SOFM의 군집화를 자동으로 수행한다. 실험에서 효율성을 검증하기 위해 제안된 방법을 텍스처 분할(texture segmentation)에 적용하였다. 실험 결과에서 제안된 방법은 기존의 군집화 알고리즘을 이용한 방법보다 높은 정확도를 보였으며, 이는 그래프기반의 군집화를 통해 다양한 모양의 클러스터를 처리할 수 있기 때문이다.