• 제목/요약/키워드: Hierarchical clustering method

검색결과 270건 처리시간 0.032초

Data Pattern Estimation with Movement of the Center of Gravity

  • Ahn Tae-Chon;Jang Kyung-Won;Shin Dong-Du;Kang Hak-Soo;Yoon Yang-Woong
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제6권3호
    • /
    • pp.210-216
    • /
    • 2006
  • In the rule based modeling, data partitioning plays crucial role be cause partitioned sub data set implies particular information of the given data set or system. In this paper, we present an empirical study result of the data pattern estimation to find underlying data patterns of the given data. Presented method performs crisp type clustering with given n number of data samples by means of the sequential agglomerative hierarchical nested model (SAHN). In each sequence, the average value of the sum of all inter-distance between centroid and data point. In the sequel, compute the derivation of the weighted average distance to observe a pattern distribution. For the final step, after overall clustering process is completed, weighted average distance value is applied to estimate range of the number of clusters in given dataset. The proposed estimation method and its result are considered with the use of FCM demo data set in MATLAB fuzzy logic toolbox and Box and Jenkins's gas furnace data.

확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘 (A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.321-327
    • /
    • 2006
  • 최근 들어 상업적이거나 과학적인 데이터들의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 항목들 간의 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나 항목들 간의 순서적인 면을 고려한 클러스터링 연구는 많지 않다. 본 논문에서는 이들 시퀀스 데이터들 간의 유사도를 계산하는 방법과 클러스터링 방법을 연구한다. 특히 다양한 조건을 고려한 확장된 유사도 계산 방법을 제안한다. splice 데이터 셋을 이용하여 본 논문에서 제안하는 클러스터링 방법이 기존 방법 보다 우수하다는 것을 보여준다.

  • PDF

무선 멀티미디어 센서 네트워크에서 에너지 효율적인 협력 통신 방법 (An Energy-Aware Cooperative Communication Scheme for Wireless Multimedia Sensor Networks)

  • 김정오;김현덕;최원익
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.671-680
    • /
    • 2015
  • 무선 센서 네트워크에서 에너지 효율을 높이기 위해 클러스터링 방법이 제안되었다. 클러스터링 방법은 데이터를 수집하고 전달하는 계층 구조를 형성하고 있다. 그러나 대용량 데이터를 전송하는 무선 멀티미디어 센서 네트워크에서 기존의 무선 센서 네트워크의 클러스터링 기법은 과도한 데이터 전송에너지 소모량과 극도로 짧은 수명으로 인하여 적용하는 데에 어려움이 있다. 본 논문에서는 기존의 문제점을 해결하기 위하여 상황에 따른 협력 통신 기법을 적용한 대용량 데이터 전송 방법으로 EEAC를 제안하여 에너지 효율을 높였다. 실험결과 제안방법은 기존의 방법보다 에너지 효율이 약 2.5배 향상되었음을 보였다.

연관 태그의 군집화를 위한 클러스터링 기법 비교 연구 (A Comparative Study on Clustering Methods for Grouping Related Tags)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.399-416
    • /
    • 2009
  • 본 연구에서는 태그 공간에서 정보의 효율적 탐색을 위해 이용자에게 제공될 수 있는 연관 태그 클러스터의 생성을 위해 다양한 유사계수와 클러스터링 기법을 적용한 후 그 결과를 평가하고 비교 분석함으로써 연관 태그의 클러스터링에 가장 적합한 클러스터링 알고리즘을 확인하고자 하였다. Delicious에서 임의의 태그 10개를 대상으로 각각 300개의 문서에서 추출한 연관 태그를 대상으로 태그쌍 간의 연관성을 측정한 후 계층적 기법과 비계층적 기법을 적용하여 생성된 클러스터를 대상으로 클러스터 적합도를 측정한 결과, 일반적으로 용어 클러스터링에서 널리 활용되는 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 거의 모든 실험 대상에 대해 유사한 경향을 보이면서 가장 우수한 성능을 나타내는 것으로 나타났다. 연관 태그 클러스터는 정보관리 측면에서 유사한 합목적성을 갖는 태그끼리 군집을 이루면서 용어의 중의성을 해소함으로써 태그 공간에서의 이용자의 정보 탐색에 유용하게 활용될 것이다.

상황 지식을 이용한 비계층적 군집 기반 하이브리드 추천 (Non-hierarchical Clustering based Hybrid Recommendation using Context Knowledge)

  • 백지원;김민정;박찬홍;정호일;정경용
    • 융합신호처리학회논문지
    • /
    • 제20권3호
    • /
    • pp.138-144
    • /
    • 2019
  • 현대 사회에서 사람들은 시간적인 여유, 경제적인 문제 등에 따라 여행지에 대해 심각한 고민을 한다. 따라서 본 논문에서는 상황 지식을 이용한 비계층적 군집 기반 하이브리드 추천을 제안한다. 제안하는 방법은 사용자의 위치, 장소, 날씨 등의 상황에 따라 선호하는 여행지에 대한 지식을 추천받을 수 있는 개인화된 방법이다. 설문조사를 통해 수집된 데이터로부터 14개의 속성을 기반으로 유사한 특성을 가진 사용자들을 비계층적 군집 기반 하이브리드 추천을 이용하여 군집한다. 이는 암묵적 데이터와 명시적 데이터에 가중치를 부여하여 보다 정확한 추천을 한다. 이를 통해 사용자는 불필요한 시간을 소모하지 않고 선호하는 여행지를 추천받을 수 있다. 성능평가는 정확도, 재현율, F-measure를 이용한다. 평가 결과 정확도는 0.636, 재현율은 0.723, F-measure는 0.676으로 평가되었다.

K-평균 군집방법을 이요한 가중커널분류기 (Kernel Pattern Recognition using K-means Clustering Method)

  • 백장선;심정욱
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.447-455
    • /
    • 2000
  • 본 논문에서는 커널분류기에 요구되는 다량의 계산량과 자료저장공간을 감소시키도록 고안된 최적군집방법을 적용한 K-평균 가중커널분류기법이 제안되었다. 이 방법은 원래의 훈련표본보다 작은 수의 참고벡터들과 그들의 가중값을 들을 찾아 원래 커널분류 기준을 근사화하여 패턴을 인식하는 것이다. K-평균 가중커널분류기법은 가중파젠윈도우(WPW)분류기법을 개량한 것으로서 참고벡터들을 계산하기 위한 초기 부적절하게 군집된 관측값들을 최적으로 재군집화 함으로써 WPW기법의 단범을 극복하였다. 실제자료들에 제안된 방법을 적용한 결과 WPW분류기법보다 참고벡터들의 대표성과 자료축소면에서 월등히 향상된 결과를 확인하였다

  • PDF

효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석 (Gene Screening and Clustering of Yeast Microarray Gene Expression Data)

  • 이경아;김태훈;김재희
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1077-1094
    • /
    • 2011
  • 마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

비대칭적 유사도 기반의 심볼릭 객체의 계층적 클러스터링 (Hierarchical Clustering of Symbolic Objects based on Asymmetric Proximity)

  • 오승준;박찬웅
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.729-734
    • /
    • 2012
  • 패턴 인식, 데이터 분석, 침입 탐지, 이미지 처리, 바이오 인포매틱스 등과 같은 수많은 분야에서 클러스터링 분석이 사용되고 있다. 기존의 많은 연구들은 수치 데이터에만 기반을 두고 있다. 그러나 구간 데이터, 히스토그램, 심지어는 함수들을 값으로 갖는 변수들을 다루는 심볼릭 데이터 분석이 부상하고 있다. 본 논문에서는 이런 심볼릭 데이터들을 클러스터링하기 위하여 비대칭적 유사도를 제안한다. 또한 평균 유사도 값(ASV)에 기반한 클러스터링 방법도 개발한다. 제안하는 클러스터링의 결과는 기존 방법들과 다르며, 매우 고무적인 결과를 보여준다.

Comparison of the Performance of Clustering Analysis using Data Reduction Techniques to Identify Energy Use Patterns

  • Song, Kwonsik;Park, Moonseo;Lee, Hyun-Soo;Ahn, Joseph
    • 국제학술발표논문집
    • /
    • The 6th International Conference on Construction Engineering and Project Management
    • /
    • pp.559-563
    • /
    • 2015
  • Identification of energy use patterns in buildings has a great opportunity for energy saving. To find what energy use patterns exist, clustering analysis has been commonly used such as K-means and hierarchical clustering method. In case of high dimensional data such as energy use time-series, data reduction should be considered to avoid the curse of dimensionality. Principle Component Analysis, Autocorrelation Function, Discrete Fourier Transform and Discrete Wavelet Transform have been widely used to map the original data into the lower dimensional spaces. However, there still remains an ongoing issue since the performance of clustering analysis is dependent on data type, purpose and application. Therefore, we need to understand which data reduction techniques are suitable for energy use management. This research aims find the best clustering method using energy use data obtained from Seoul National University campus. The results of this research show that most experiments with data reduction techniques have a better performance. Also, the results obtained helps facility managers optimally control energy systems such as HVAC to reduce energy use in buildings.

  • PDF

데이터 클러스터링을 위한 혼합 시뮬레이티드 어닐링 (Hybrid Simulated Annealing for Data Clustering)

  • 김성수;백준영;강범수
    • 산업경영시스템학회지
    • /
    • 제40권2호
    • /
    • pp.92-98
    • /
    • 2017
  • Data clustering determines a group of patterns using similarity measure in a dataset and is one of the most important and difficult technique in data mining. Clustering can be formally considered as a particular kind of NP-hard grouping problem. K-means algorithm which is popular and efficient, is sensitive for initialization and has the possibility to be stuck in local optimum because of hill climbing clustering method. This method is also not computationally feasible in practice, especially for large datasets and large number of clusters. Therefore, we need a robust and efficient clustering algorithm to find the global optimum (not local optimum) especially when much data is collected from many IoT (Internet of Things) devices in these days. The objective of this paper is to propose new Hybrid Simulated Annealing (HSA) which is combined simulated annealing with K-means for non-hierarchical clustering of big data. Simulated annealing (SA) is useful for diversified search in large search space and K-means is useful for converged search in predetermined search space. Our proposed method can balance the intensification and diversification to find the global optimal solution in big data clustering. The performance of HSA is validated using Iris, Wine, Glass, and Vowel UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KSAK (K-means+SA+K-means) and SAK (SA+K-means) are better than KSA(K-means+SA), SA, and K-means in our simulations. Our method has significantly improved accuracy and efficiency to find the global optimal data clustering solution for complex, real time, and costly data mining process.