초록
커널밀도함수의 추정을 이용한 분류 문제에서 평활모수(smoothing parameter, bandwidth)의 선택은 핵심적으로 중요한 역할을 한다. 본 논문에서는 분류에서 베이즈 리스크를 최적화하기 위한 평활모수의 선택이 각 개별 확률밀도함수를 추정하기 위한 최적의 평활모수와 어떤 관계가 있는지 살펴보았다. 실제 상황에서 사용할 수 있는 평활모수의 선택 방법으로 붓스트랩(bootstrap)과 교차확인법(cross-validation)을 이용하는 것을 비교한 결과, 붓스트랩 방법은 Hall과 Kang (2005)에서 밝혀진 이론적인 성질에 부합하는 반면 교차확인법은 그렇지 못함을 확인하였다. 또한, 각 방법으로 정한 평활모수를 사용하여 오분류율을 조사해 본 결과에서도 붓스트랩 방법이 우월함을 알 수 있었다.
Smoothing parameter or bandwidth plays a key role in nonparametric classification based on kernel density estimation. We consider choosing smoothing parameter in nonparametric classification, which optimize the Bayes risk. Hall and Kang (2005) clarified the theoretical properties of smoothing parameter in terms of minimizing Bayes risk and derived the optimal order of it. Bootstrap method was used in their exploring numerical properties. We compare cross-validation and bootstrap method numerically in terms of optimal order of bandwidth. Effects on misclassification rate are also examined. We confirm that bootstrap method is superior to cross-validation in both cases.