DOI QR코드

DOI QR Code

Multiview Data Clustering by using Adaptive Spectral Co-clustering

적응형 분광 군집 방법을 이용한 다중 특징 데이터 군집화

  • 손정우 (한국전자통신연구원 스마트미디어 플랫폼연구실) ;
  • 전준기 (한국전자통신연구원 스마트미디어 플랫폼연구실) ;
  • 이상윤 (한국전자통신연구원 스마트미디어 플랫폼연구실) ;
  • 김선중 (한국전자통신연구원 스마트미디어 플랫폼연구실)
  • Received : 2016.02.16
  • Accepted : 2016.04.15
  • Published : 2016.06.15

Abstract

In this paper, we introduced the adaptive spectral co-clustering, a spectral clustering for multiview data, especially data with more than three views. In the adaptive spectral co-clustering, the performance is improved by sharing information from diverse views. For the efficiency in information sharing, a co-training approach is adopted. In the co-training step, a set of parameters are estimated to make all views in data maximally independent, and then, information is shared with respect to estimated parameters. This co-training step increases the efficiency of information sharing comparing with ordinary feature concatenation and co-training methods that assume the independence among views. The adaptive spectral co-clustering was evaluated with synthetic dataset and multi lingual document dataset. The experimental results indicated the efficiency of the adaptive spectral co-clustering with the performances in every iterations and similarity matrix generated with information sharing.

본 논문에서는 다수의 특징, 특히 셋 이상의 특징을 가지는 데이터에 대한 분광 군집 방법인 적응형 분광 군집 방법을 소개하고, 적응형 분광 군집 방법의 성능을 시뮬레이션 데이터와 다중 언어 데이터를 이용하여 분석한다. 적응형 분광 군집 방법에서는 특징 간 서로 다른 정보들을 공유하여 데이터를 군집화함으로써 군집 성능을 높인다. 이때, 서로 다른 특징 간의 정보 공유를 효율적으로 하기 위해, 협업학습을 도입했다. 협업 학습에서는 각 특징이 서로 독립이 되도록 가중치를 학습하고, 학습된 가중치에 따라 정보를 전달한다. 이러한 과정을 통해 일반적인 특징 결합이나, 모든 특징 간 독립을 가정한 기존 협업학습 기반의 분광 군집에 비해 정보 공유의 효율성을 높인다. 실험에서는 시뮬레이션 데이터와 다중 언어문서 데이터를 이용하여 성능을 검증하였으며, 반복과정에서의 성능 변화와 정보 전달 결과 변화하는 모습을 제시함으로써 적응형 분광 군집 방법의 유의미한 성능 향상에 대해 분석하였다.

Keywords

Acknowledgement

Grant : 개방형 미디어 생태계 구축을 위한 시맨틱 클러스터 기반 시청상황 적응형 스마트방송 기술 개발

Supported by : 정보통신기술연구진흥센터

References

  1. J. Son, J. Jeon, S. Lee, and S. Kim, "Adaptive Spectral Co-clustering for Multiview Data," Proceedings of ICACT, pp. 447-450, 2016.
  2. C. Bishop, "Pattern Recognition and Machine Learning," Springer, 2007.
  3. Y. Ng, M. Jordan, and Y. Weiss, "On spectral clustering: Analysis and an algorithm," Advances in NIPS, Vol. 2, pp. 849-856, 2002.
  4. A. Blum and T. Mitchell, "Combining labeled and unlabeled data with co-training," Proc. of COLT, pp. 92-100, 1998.
  5. A. Kumar and H. Daume III, "A Co-training Approach for Multi-view Spectral Clustering," Proc. of ICML, pp. 393-400, 2011.
  6. M. Amini, N. Usunier, and C. Goutte, "Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization," Advances in NIPS 22, pp. 28-36, 2009.