DOI QR코드

DOI QR Code

베이즈 리스크를 이용한 커널형 분류에서 평활모수의 선택

On Practical Choice of Smoothing Parameter in Nonparametric Classification

  • 김래상 (한국외국어대학교 대학원 통계학과) ;
  • 강기훈 (한국외국어대학교 정보통계학과)
  • Kim, Rae-Sang (Department of Statistics, Hankuk University of Foreign Studies) ;
  • Kang, Kee-Hoon (Department of Statistics, Hankuk University of Foreign Studies)
  • 발행 : 2008.03.30

초록

커널밀도함수의 추정을 이용한 분류 문제에서 평활모수(smoothing parameter, bandwidth)의 선택은 핵심적으로 중요한 역할을 한다. 본 논문에서는 분류에서 베이즈 리스크를 최적화하기 위한 평활모수의 선택이 각 개별 확률밀도함수를 추정하기 위한 최적의 평활모수와 어떤 관계가 있는지 살펴보았다. 실제 상황에서 사용할 수 있는 평활모수의 선택 방법으로 붓스트랩(bootstrap)과 교차확인법(cross-validation)을 이용하는 것을 비교한 결과, 붓스트랩 방법은 Hall과 Kang (2005)에서 밝혀진 이론적인 성질에 부합하는 반면 교차확인법은 그렇지 못함을 확인하였다. 또한, 각 방법으로 정한 평활모수를 사용하여 오분류율을 조사해 본 결과에서도 붓스트랩 방법이 우월함을 알 수 있었다.

Smoothing parameter or bandwidth plays a key role in nonparametric classification based on kernel density estimation. We consider choosing smoothing parameter in nonparametric classification, which optimize the Bayes risk. Hall and Kang (2005) clarified the theoretical properties of smoothing parameter in terms of minimizing Bayes risk and derived the optimal order of it. Bootstrap method was used in their exploring numerical properties. We compare cross-validation and bootstrap method numerically in terms of optimal order of bandwidth. Effects on misclassification rate are also examined. We confirm that bootstrap method is superior to cross-validation in both cases.

키워드

참고문헌

  1. Faraway, J. J. and Jhun, M. (1990). Bootstrap choice of bandwidth for density estima- tion. Journal of the American Statistical Association, 85, 1119-1122 https://doi.org/10.2307/2289609
  2. Hall, P. and Kang, K. H. (2005). Bandwidth choice for nonparametric classification. The Annals of Statistics, 33, 284-306 https://doi.org/10.1214/009053604000000959
  3. Jones, M. C., Marron, J. S. and Sheather, S. J. (1996). A brief survey of bandwidth selection for density estimation. Journal of the American Statistical Association, 91, 401-407 https://doi.org/10.2307/2291420
  4. Kim, W. C., Park, B. U. and Marron, J. S. (1994). Asymptotically best bandwidth selectors in kernel density estimation. Statistics & Probability Letters, 19, 119-127 https://doi.org/10.1016/0167-7152(94)90143-0
  5. Park, B. U. and Marron, J. S. (1990). Comparison of data-driven bandwidth selectors. Journal of the American Statistical Association, 85, 66-72 https://doi.org/10.2307/2289526
  6. Park, B. U. and Turlach, B. A (1992). Practical performance of several data driven bandwidth selectors (with discussion). Computational Statistics, 7, 251-270
  7. Sheather, S. J. and Jones, M. C. (1991). A reliable data-based bandwidth selection method for kernel density estimation. Journal of the Royal Statistical Society, Ser. B, 53, 683-690
  8. Wand, M. P. and Jones, M. C. (1995). Kernel Smoothing. Chapman & Hall/CRC, London