k-최근접 이웃 정보를 활용한 베이지안 추론 분류

  • 발행 : 2014.10.31

초록

본 리뷰 논문에서는 많은 데이터 환경에서 얻어진 k-최근접 이웃들(k-nearest neighbors)의 이론적 성질로부터 어떻게 분류를 위한 알고리즘을 만들어낼 것인가에 대한 여러 가지 방법들을 설명한다. 많은 데이터 환경에서의 최근접 이웃 데이터의 정보는 다양한 기계학습 문제를 푸는데 아주 좋은 이론적인 성질을 가지고 있다. 하지만, 이런 이론적인 특성들이 데이터가 많지 않은 환경에서는 전혀 나타나지 않을 뿐 아니라 오히려 다른 다양한 알고리즘들에 비해 성능이 많이 뒤쳐지는 결과를 보여주고 있다. 본 리뷰 논문에서는 많은 데이터 환경 하에서 k-최근접 이웃들의 정보가 어떤 이론적인 특성을 가지는지 설명하고, 특별히 이런 특성들을 가지고 k-최근접 이웃을 이용한 분류 문제를 어떻게 베이지안 추론(Baysian inference) 문제로 수식화 할 수 있는지 보인다. 마지막으로 현재의 빅데이터 환경에서 실용적으로 사용할 수 있는 알고리즘들을 소개한다.

키워드

참고문헌

  1. Bogacz,R.,Brown,E.,Moehlis,J.,Holmes,P.,& Cohen,J. D. (2006) The physics of optimal decision making: A formal analysis of models of performance in two-alternative forced-choice tasks. Psychological Review, 113(4), 700-765 https://doi.org/10.1037/0033-295X.113.4.700
  2. Cover, T. (1967) Estimation by the nearest neighbor rule. IEEE Transactions on Information Theory, 14 (1), 50-55.
  3. Cover, T., & Hart, P. (1967) Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13 (1), 21-27. https://doi.org/10.1109/TIT.1967.1053964
  4. Dragalin, V. P., Tertakovsky, A. G., & Veeravalli, V. V. (1999) Multihypothesis sequential probability ratio tests. part i: asymptotic optimality. IEEE Transactions on Information Technology, 45, 2448-61. https://doi.org/10.1109/18.796383
  5. Leonenko,N.,Pronzato,L.,& Savani,V. (2008) A class of Renyi information estimators for multidimensional densities. Annals of Statistics, 36, 2153-2182. https://doi.org/10.1214/07-AOS539
  6. Noh, Y.K., Park, F.C., & Lee, D.D. (2012) Diffusion Decision Making for Adaptive k-Nearest Neighbor Classification, Advances in Neural Information Processing Systems 25
  7. Noh, Y.K., Park, F.C., & Lee, D.D. (2013) k-Nearest Neighbor Classification Algorithm for Multiple Choice Sequential Sampling, Proceedings of the Thirty-Fifth Annual Conference of the Cognitive Science Society
  8. Ougiaroglou, S., Nanopoulos, A., Papadopoulos, A. N., Manolopoulos, Y., & Welzer-Druzovec, T. (2007) Adaptive k-nearest-neighbor classification using a dynamic number of nearest neighbors. In Proceedings of the 11th east European conference on advances in databases and information systems (pp. 66-82).
  9. Smith, P. L., & Vickers, D. (1988) The accumulator model of two-choice discrimination. Journal of Mathematical Psychology, 32, 135-168. https://doi.org/10.1016/0022-2496(88)90043-0
  10. Usher, M., & McClelland, J.L. (2001) The time course of perceptual choice: the leaky, competing accumulator model. Psychological review, 108 (3), 550-592. https://doi.org/10.1037/0033-295X.108.3.550
  11. Vickers, D. (1970) Evidence for an accumulator model of psychophysical discrimination. Ergonomics, 13, 37-58. https://doi.org/10.1080/00140137008931117
  12. Wald, A., & Wolfowitz, J. (1948) Optimum character of the sequential probability ratio test. Annals of Mathematical Statistics, 19, 326-339. https://doi.org/10.1214/aoms/1177730197
  13. Wang, J., Neskovic, P., & Cooper, L. N. (2006) Neighborhood size selection in the k-nearestneighbor rule using statistical confidence. Pattern Recognition, 39 (3):417-423. https://doi.org/10.1016/j.patcog.2005.08.009