초록
최근, 인터넷 기술의 급격한 발전으로 인하여 다수의 정보원들을 처리 대상으로 하는 인터넷 질 의의 사용이 점차 확대되고 있다. 인터넷 질의 처리를 위해서는 여러 정보원들에 분산된 전체 데이타분포를 함축적으로 표현한 통합 요약정보가 필요하다 본 논문에서는 웨이블릿 변환을 기반으로 한 통합 요약정보의 관리 및 이를 이용한 인터넷 질의 최적처리에 관하여 논의한다. 통합 요약정보의 구성을 위한 가장 단순한 방법은 각 정보원에 분산된 데이타분포들을 합병한 후, 이를 기반으로 퉁합 요약정보를 구성하는 것이다. 그러나 이 방법은 큰 용량의 데이타분포를 전송, 저장. 통합하는 비용이 매우 크므로 실용적이지 야다. 본 논문 에서는 이러한 문점을 극복하기 위하여 웨이블릿 변환을 기반으로 요약정보들을 합병함으로써 통합 요약 정보를 구성하는 새로운 방법과 이를 이용한 인터넷 질의 최적화 방안을 제시한다. 웨이블릿 요약정보는 합 병 조건을 만족하도록 변환되며. 합병 과정이 웨이블릿의 특성으로 인하여 매우 단순하다는 장점을 갖는다 본 논문에서는 제안된 방법으로 구성된 통합 요약정보의 오타 상한선을 정량적으로 유도한다. 제안된 방법에 대한 실험 결과에 의하면, 히스토그램 요약정보의 합병과 웨이블릿 요약정보의 합병을 비교한 선택률 추정 실험은 통합 히스토그램에 비해 퉁합 웨이블릿 요약정보가 1.6 ~ 5.5배 더 정확하다는 결과를 보였다 또한,56개개의 정보원이 참여하는 인터넷 top-N 질의를 처리할 때, 통합 요약정보를 사용하지 않는 방법과 비교하 여 이를 사용하는 경우 약 44배의 성능 개건 효과를 보였다.
As Internet technology evolves, there is growing need of Internet queries involving multiple information sources. Efficient processing of such queries necessitates the integrated summary data that compactly represents the data distribution of the entire database scattered over many information sources. This paper presents an efficient method of managing the integrated summary data based on the wavelet transform and addresses Internet query processing using the integrated summary data. The simplest method for creating the integrated summary data would be to summarize the integrated data sidtribution obtained by merging the data distributions in multiple information sources. However, this method suffers from the high cost of transmitting storing and merging a large amount of data distribution. To overcome the drawbacks, we propose a new wavelet transform based method that creates the integrated summary data by merging multiple summary data and effective method for optimizing Internet queries using it A wavelet transformed summary data is converted to satisfy conditions for merging. Moreover i the merging process is very simpe owing to the properties of the wavelet transform. we formally derive the upper bound of the error of the wavelet transformed intergrated summary data. Compared with the histogram-based integrated summary data the wavelet transformedintegrated summary data provesto be 1.6~5.5 time more accurate when used for selectivity estimation in experiments. In processing Internet top-N queries involving 56 information sources using the integrated summary data reduces the processing cost to 1/44 of the cost of not using it.