스캔 통계량의 발전 과정과 응용에 대한 고찰

A review on the development of a scan statistic and its applications

  • 김병수 (연세대학교 응용통계학과) ;
  • 김기한 (서울특별시 중구 충무로4가 126-1 일흥빌딩 6층 누리기획 마케팅 전략연구소)
  • 발행 : 1993.03.01


관측치가 (0, T]의 구간에서 균일하게 분포한다는 가설에 대하여, 관측치의 집락화를 검정하는 과정에서 스캔 통계량을 사용할 수 있다. 본 논문에서는 스캔 통계량의 확률분포의 근사분포가 어떠한 이론적 배경으로 개선되어 왔는 지를 고찰하고, 실제로 응용된 예를 살펴보기로 한다. 광물 매장을 조사하기 위한 항공탐사, 두 개의 아미노산 염기서열(amino-acid sequence)을 비교하는 과정에서 스캔 통계량은 사용되어 왔다. 지놈(genome)의 連鎖(sequence)에서 돌연변이가 발생한 위치에 대하여 집락의 가능성을 검색하는 방법으로 스캔 통계량을 이용할 수 있음을 보이고, 이에 대한 구체적인 문제 구성은 추후 연구과제로 제시한다.

The primary objective of the paper is to review the development of approximations of the null distribution of a scan statistic and to show how these approximations were improved. Let $X_1, \cdots, X_N$ be a sequence of independent uniform random variables on an interval (0, t]. A can statistic is defined to be the maximum number of observations in a subinterval of length t $\leq$ T, when we continuously (or discretely) move the subinterval from 0 to T. A scan statistic is used to test whether certain events occur in a cluster aganist a null hypothesis of the uniformity. It is difficult to calculate the exact null distribution of a scan statistic. Several authors have suggested approximations of the null distribution of a scan statistic since Naus(1966). We conceive that a scan statistic can be used for detecting a "hot region" is defined to be a region at which the frequencies of mutations are relatively high. A "hot region" may be regarded as a generalized version of a hot spot. We leave it for a further study the concrete formulation of deteciton a "hot region" in a mutational spectrum.uot; in a mutational spectrum.
