Search | Korea Science

홍석진;배진욱;심마로;이석호
- Proceedings of the Korean Information Science Society Conference
- /
- 1999.10a
- /
- pp.141-143
- /
- 1999
빙산 질의란 대용량의 데이터들에 대해 집단 함수를 수행하여 임계값 이상인 데이터를 결과로 반환하는 연산을 의미한다. 빙산 질의는 도메인의 크기가 대단히 큰 대용량의 데이터에 대해 적용되므로 집단 함수의 수행을 위한 카운터를 전부 메모리에 적재할 수 없는 상황이 발생한다. 지난 연구에서는 이러한 빙산 질의를 표본 추출과 해싱을 사용하여 수행하였다. 하지만 많은 수행시간을 필요로 하는 질의를 대용량의 데이터 전체에 대해 매번 수행하여야 하며, 결과를 얻기 위한 후보 수가 커질 수 있다는 문제점이 있다. 이 논문에서는 빙산 질의에 대한 저장뷰를 통해, 사용자의 질의 중 많은 부분을 차지하는 큰 임계값으로 구성된 질의에 대해서는 즉각적인 결과를 돌려주고, 빙산 질의 결과 후보의 수를 감소시키며, 별도의 표준 추출 과정을 생략할 수 있는 방법을 제시한다. 또한 빙산 질의 히스토그램을 통해 빙산 순위 질의를 수행하는 방법을 제시하여 사용자로 하여금 보다 직관적인 질의를 작성할 수 있도록 하였다.
PDF

Hong, Seok-Jin;Lee, Seok-Ho
- Journal of KIISE:Databases
- /
- v.27 no.4
- /
- pp.663-670
- /
- 2000
빙산 질의란 대용량의 데이터에 대해 집단 함수를 수행하여 특정 임계값 이상인 데이터를 결과로 반환하는 연산을 의미한다. 빙산 질의는 도메인의 크기가 대단히 큰 다차원, 대용량의 데이터에 대해 적용되므로 집단 함수의 수행을 위한 카운터를 전부 메모리에 적재할 수 없는 상황이 발생한다. 이 논문에서는 빙산 질의에 대한 저장뷰를 통해 효율적으로 빙산질의를 수행하는 방법을 제시하였다. 빙산 질의의 임계값이 저장뷰 내에 포함되는 경우에는 즉각적으로 결과를 돌려줄 수 있으며, 그렇지 않음 경우에도 표본추출 대신 저장뷰를 사용함으로써 빙산 질의 중간 단계의 후보 수를 크게 감소시키고, 질의 수행 시간 또한 단축시킬 수 있다. 또한 순위 빙산 질의를 수행하는 방법을 제시하여 사용자로 하여금 보다 직관적인 질의를 작성할 수 있도록 하였다.
PDF

Han, Sang-Gil;Yang, Woo-Sock;Lee, Won-Suk
- Journal of KIISE:Databases
- /
- v.36 no.3
- /
- pp.226-234
- /
- 2009
A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. Due to the characteristics of a data stream, it is impossible to save all the data elements of a data stream. Therefore it is necessary to define a new synopsis structure to store the summary information of a data stream. For this purpose, this paper proposes a cuboid prefix tree that can be effectively employed in evaluating an iceberg query over data streams. A cuboid prefix tree only stores those itemsets that consist of grouping attributes used in GROUP BY query. In addition, a cuboid prefix tree can compute multiple iceberg queries simultaneously by sharing their common sub-expressions. A cuboid prefix tree evaluates an iceberg query over an infinitely generated data stream while efficiently reducing memory usage and processing time, which is verified by a series of experiments.
PDF KSCI

Seo, Dae-Hong;Lee, Won-Suk
- Proceedings of the Korea Information Processing Society Conference
- /
- 2007.05a
- /
- pp.34-37
- /
- 2007
간 및 낮은 메모리 사용량을 요구한다. 이러한 데이터 스트림에서의 데이터 마이닝은 전체 데이터에 대한 분석 보다는 사용자가 관심을 갖는 영역에 대한 마이닝에 초점이 맞추어져 있어, 사용자 관심영역에 대한 분석 데이터 탐색을 필요로 한다. 이에 본 논문에서는 기존의 분석 데이터 탐색 기법인 빙산 질의 및 상위-k 질의에 대하여 알아보고, 이를 보완하기 위한 확률에 기반한 데이터 탐색법인 확률기반 빙산 질의를 제안한다.
PDF

배진욱;이석호
- Proceedings of the Korean Information Science Society Conference
- /
- 1999.10a
- /
- pp.126-128
- /
- 1999
평균 빙산 질의란 대용량의 데이터들에 의해 avg 집단 함수를 수행한 뒤 임계값 이상인 데이터들을 결과로 출력하는 연산을 의미한다. 이 때 데이터 도메인의 크기가 메모리에 생성할 수 있는 카운터의 수보다 크기 때문에 연산 처리가 어렵다. 지난 연구에서 빙산 질의에 대해 제안한 해시 카운터는 avg 연사의 경우 착오누락이 발생한다는 문제점이 존재한다. 그래서 이런 문제점들을 해결하며 효율적으로 연산을 수행하기 위해, 데이터베이스를 분할하며 카운터를 관리하는 '메모리 Full 분할', '후보 Full 분할'의 두 알고리즘을 제안한다. 실험결과 두 알고리즘은 메모리크기, 데이터 분포, 데이터 순서에 영향을 받았는데, 데이터들이 정렬이 되어 있거나 데이터분포가 정규분포를 이룰 때 우수한 성능을 보였다.
PDF