DOI QR코드

DOI QR Code

구간형 자료의 주성분 분석에 관한 연구

On principal component analysis for interval-valued data

  • 최수진 (한국외국어대학교 통계학과) ;
  • 강기훈 (한국외국어대학교 통계학과)
  • Choi, Soojin (Department of Statistics, Hankuk University of Foreign Studies) ;
  • Kang, Kee-Hoon (Department of Statistics, Hankuk University of Foreign Studies)
  • 투고 : 2019.12.30
  • 심사 : 2020.01.07
  • 발행 : 2020.02.29

초록

심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

Interval-valued data, one type of symbolic data, are observed in the form of intervals rather than single values. Each interval-valued observation has an internal variation. Principal component analysis reduces the dimension of data by maximizing the variance of data. Therefore, the principal component analysis of the interval-valued data should account for the variance between observations as well as the variation within the observed intervals. In this paper, three principal component analysis methods for interval-valued data are summarized. In addition, a new method using a truncated normal distribution has been proposed instead of a uniform distribution in the conventional quantile method, because we believe think there is more information near the center point of the interval. Each method is compared using simulations and the relevant data set from the OECD. In the case of the quantile method, we draw a scatter plot of the principal component, and then identify the position and distribution of the quantiles by the arrow line representation method.

키워드

참고문헌

  1. Billard, L. (2008). Sample covariance functions for complex quantitative data. In Mizuta M. and Nakano J. (Eds), Proceedings of the International Association of Statistical Computing, 157-163, Yokohama.
  2. Billard, L. and Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining, Wiley, Chichester.
  3. Cazes, P., Chouakria, A., Diday, E., and Schektman, Y. (1997). Extension de l'analyse en composantes principales a des donnees de type intervalle, Revue de statistique appliquee, 45, 5-24.
  4. Chouakria, A. (1998). Extension des methodes d'analyse factorielles a des donnees de type intervalle, Ph.D. Dissertation, Universite Paris-Dauphine.
  5. Chouakria, A., Billard, L., and Diday, E. (2011). Principal component analysis for interval-valued observations, Statistical Analysis and Data Mining, 4, 229-246. https://doi.org/10.1002/sam.10118
  6. Ichino, M. (2011). The quantile method for symbolic principal component analysis, Statistical Analysis and Data Mining, 4, 184-198. https://doi.org/10.1002/sam.10111
  7. Lauro, N. C., Verde, R., and Irpino, A. (2008). Principal component analysis of symbolic data described by intervals. In Diday, E. and Noirhomme-Fraiture, M. (Eds), Symbolic Data Analysis and the SODAS Software, Wiley, Chichester, 279-311.
  8. Le-Rademacher, J. and Billard, L. (2012). Symbolic Covariance Principal Component Analysis and Visualization for Interval-Valued Data, Journal of Computational and Graphical Statistics, 21, 413-432. https://doi.org/10.1080/10618600.2012.679895
  9. Palumbo, F. and Lauro, N. C. (2003). A PCA for interval-valued data based on midpoints and radii. In Yanai, H., Okada, A., Shigemasu, K., Kano, Y. and Meulman, J. (Eds), New Developments in Psychometrics, 641-648.
  10. Wang, H., Chen, M., Shi, X., and Li, N. (2016). Principal component analysis for normal-distribution-valued symbolic data, IEEE Transactions on Cybernetics, 46, 356-365. https://doi.org/10.1109/TCYB.2014.2338079