DOI QR코드

DOI QR Code

Proposing the Methods for Accelerating Computational Time of Large-Scale Commute Time Embedding

대용량 컴뮤트 타임 임베딩을 위한 연산 속도 개선 방식 제안

  • Hahn, Hee-Il (Department of Information and Communications Engineering, Hankuk University of Foreign Studies)
  • 한희일 (한국외국어대학교 정보통신공학과)
  • Received : 2014.11.15
  • Accepted : 2015.01.29
  • Published : 2015.02.25

Abstract

Commute time embedding involves computing the spectral decomposition of the graph Laplacian. It requires the computational burden proportional to $o(n^3)$, not suitable for large scale dataset. Many methods have been proposed to accelerate the computational time, which usually employ the Nystr${\ddot{o}}$m methods to approximate the spectral decomposition of the reduced graph Laplacian. They suffer from the lost of information by dint of sampling process. This paper proposes to reduce the errors by approximating the spectral decomposition of the graph Laplacian using that of the affinity matrix. However, this can not be applied as the data size increases, because it also requires spectral decomposition. Another method called approximate commute time embedding is implemented, which does not require spectral decomposition. The performance of the proposed algorithms is analyzed by computing the commute time on the patch graph.

컴뮤트 타임 임베딩을 구현하려면 그래프 라플라시안 행렬의 고유값과 고유벡터를 구하여야 하는데, $o(n^3)$의 계산량이 요구되어 대용량 데이터에는 적용하기 어려운 문제가 있다. 이를 줄이기 위하여 표본화 과정을 통하여 크기가 줄어든 그래프 라플라시안 행렬에서 구한 다음, 원래의 고유값과 고유벡터를 근사화시키는 Nystr${\ddot{o}}$m 기법을 주로 채택한다. 이 과정에서 많은 오차가 발생하는데, 이를 개선하기 위하여 본 논문에서는 그래프 라플라시안 대신에 가중치 행렬을 표본화하고 이로부터 구한 고유값과 고유벡터를 그래프 라플라시안의 고유값과 고유벡터로 변환하는 기법을 이용하여 대용량 데이터로 구성된 스펙트럴 그래프를 근사적으로 컴뮤트 타임 임베딩하는 기법을 제안한다. 하지만, 이 방식도 스펙트럼 분해를 계산하여야 하므로 데이터의 크기가 증가하면 적용하기 어려운 문제가 발생한다. 이의 대안으로, 스펙트럼 분해를 계산하지 않고도 데이터 집합의 크기에 영향을 받지 않으면서 컴뮤트 타임을 근사적으로 계산하는 방식을 구현하고 이들의 특성을 실험적으로 분석한다.

Keywords

References

  1. D. Achlioptas, "Database-friendly random projections: Johnson-Lindenstrauss with binary coins,"Journal of Computer and System Sciences 66, pp. 671-687, 2003. https://doi.org/10.1016/S0022-0000(03)00025-4
  2. M. Belkin and P. Niyogi, "Laplacian eigenmaps for dimensionality reduction and data representation," Neural Computation15(6), pp.1373-1396, 2003. https://doi.org/10.1162/089976603321780317
  3. A. Choromanska, T. Jebara, H. Kim, M. Mohan, and C. Monteleoni, "Fast Spectral clustering via the Nystrom method," ALT2013, LNAI 8139, pp. 367-381, 2013.
  4. F. Chung, Spectral graph theory, American Mathematical Society, 1997.
  5. P. Drineas and M.W. Mahoney, "On the Nystrom method for approximating a Gram matrix for improved kernel-based learning," Journal of Machine Learning Research 6, pp. 2153-2175, 2005.
  6. H.I. Hahn, "Analysis of commute time embedding based on spectral graph," Journal of Korea Multimedia Society, Vol. 17, No. 1, pp. 34-42, 2013. https://doi.org/10.9717/kmms.2014.17.1.034
  7. H.I. Hahn, "A Study on classification of waveforms using manifold embedding based on commute time," Journal of the Institute of Electronics and Information Engineers, Vol. 51, No. 2, pp. 148-155, 2014. https://doi.org/10.5573/ieie.2014.51.2.148
  8. H. Qiu and E.R. Hancock, "Clustering and embedding using commute times," IEEE Trans. PAMI, Vol. 29, No. 11, Nov., 2007.
  9. S. T. Roweis and L.K. Saul, "Nonlinear dimensionality reduction by locally linear embedding," Science Vol.290, 2000.
  10. D. A. Spieman and N. Srivastava, "Graph sparsification by effective resistances," In Proceedings of the 40th Annual ACM Symposium on Theory of Computing, STOC'04, pp. 81-90, 2004.
  11. D.A. Spieman and S. Teng, "Nearly linear time algorithms for preconditioning and solving symmetric, diagonally dominant linear system," arXiv:cs/0607105v5 [cs.NA], 2012.
  12. J.B. Tenenbaum, V. deSilva, and J.C. Langford, "A global geometric framework for nonlinear dimensionality reduction," Science, Vol. 290, pp.2319-2323, 2000. https://doi.org/10.1126/science.290.5500.2319
  13. C.K.I. Williams and M. Seeger, "Using the Nystrom method to speed up kernel machines," In Annual Advances in Neural Information Processing Systems 13: Proceeding of the 2000 Conference, pp. 682-688, 2001.