통합 검색 | Korea Science

한상길;양우석;이원석
- 한국정보과학회논문지:데이타베이스
- /
- 제36권3호
- /
- pp.226-234
- /
- 2009
무한한 데이터 스트림을 저장하는 것은 거의 불가능하기 때문에 데이터 스트림 환경에서 빙산질의를 수행하기 위해서는 새로운 데이터 구조와 알고리즘이 요구된다. 본 논문에서는 데이터 스트림 환경에서 빙산질의를 처리하기 위해 전위트리 구조에 기반한 규보이드 전위트리(Euboid prefix tree)를 제안한다. 큐보이드 전위트리는 빙산질의에 사용된 그룹항목으로 이루어진 항목집합만을 트리에서 관리하므로 전위트리보다 적은 메모리를 사용한다. 1-항목 관리를 통해서 빈발하지 않은 항목을 트랜잭션에서 제거함으로써 갱신 시 불필요하게 소요되는 시간을 줄일 수 있다. 또한 다중 빙산질의에서 공통적으로 사용된 그룹속성에 따라 노드를 공유함으로써 적은 메모리를 사용하여 효율적으로 다중 빙산질의를 처리할 수 있는 방법을 제안한다. 큐보이드 전위트리는 무한히 연속적으로 생성되는 데이터에 대하여 빙산질의를 처리하는데 있어서 메모리 사용량과 처리시간을 효과적으로 줄이며, 이를 여러 실험을 통해 확인하였다.
PDF KSCI

홍석진;배진욱;심마로;이석호
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
- /
- pp.141-143
- /
- 1999
빙산 질의란 대용량의 데이터들에 대해 집단 함수를 수행하여 임계값 이상인 데이터를 결과로 반환하는 연산을 의미한다. 빙산 질의는 도메인의 크기가 대단히 큰 대용량의 데이터에 대해 적용되므로 집단 함수의 수행을 위한 카운터를 전부 메모리에 적재할 수 없는 상황이 발생한다. 지난 연구에서는 이러한 빙산 질의를 표본 추출과 해싱을 사용하여 수행하였다. 하지만 많은 수행시간을 필요로 하는 질의를 대용량의 데이터 전체에 대해 매번 수행하여야 하며, 결과를 얻기 위한 후보 수가 커질 수 있다는 문제점이 있다. 이 논문에서는 빙산 질의에 대한 저장뷰를 통해, 사용자의 질의 중 많은 부분을 차지하는 큰 임계값으로 구성된 질의에 대해서는 즉각적인 결과를 돌려주고, 빙산 질의 결과 후보의 수를 감소시키며, 별도의 표준 추출 과정을 생략할 수 있는 방법을 제시한다. 또한 빙산 질의 히스토그램을 통해 빙산 순위 질의를 수행하는 방법을 제시하여 사용자로 하여금 보다 직관적인 질의를 작성할 수 있도록 하였다.
PDF

서대홍;이원석
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2007년도 춘계학술발표대회
- /
- pp.34-37
- /
- 2007
간 및 낮은 메모리 사용량을 요구한다. 이러한 데이터 스트림에서의 데이터 마이닝은 전체 데이터에 대한 분석 보다는 사용자가 관심을 갖는 영역에 대한 마이닝에 초점이 맞추어져 있어, 사용자 관심영역에 대한 분석 데이터 탐색을 필요로 한다. 이에 본 논문에서는 기존의 분석 데이터 탐색 기법인 빙산 질의 및 상위-k 질의에 대하여 알아보고, 이를 보완하기 위한 확률에 기반한 데이터 탐색법인 확률기반 빙산 질의를 제안한다.
PDF

배진욱;이석호
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
- /
- pp.126-128
- /
- 1999
평균 빙산 질의란 대용량의 데이터들에 의해 avg 집단 함수를 수행한 뒤 임계값 이상인 데이터들을 결과로 출력하는 연산을 의미한다. 이 때 데이터 도메인의 크기가 메모리에 생성할 수 있는 카운터의 수보다 크기 때문에 연산 처리가 어렵다. 지난 연구에서 빙산 질의에 대해 제안한 해시 카운터는 avg 연사의 경우 착오누락이 발생한다는 문제점이 존재한다. 그래서 이런 문제점들을 해결하며 효율적으로 연산을 수행하기 위해, 데이터베이스를 분할하며 카운터를 관리하는 '메모리 Full 분할', '후보 Full 분할'의 두 알고리즘을 제안한다. 실험결과 두 알고리즘은 메모리크기, 데이터 분포, 데이터 순서에 영향을 받았는데, 데이터들이 정렬이 되어 있거나 데이터분포가 정규분포를 이룰 때 우수한 성능을 보였다.
PDF

홍석진;이석호
- 한국정보과학회논문지:데이타베이스
- /
- 제27권4호
- /
- pp.663-670
- /
- 2000
빙산 질의란 대용량의 데이터에 대해 집단 함수를 수행하여 특정 임계값 이상인 데이터를 결과로 반환하는 연산을 의미한다. 빙산 질의는 도메인의 크기가 대단히 큰 다차원, 대용량의 데이터에 대해 적용되므로 집단 함수의 수행을 위한 카운터를 전부 메모리에 적재할 수 없는 상황이 발생한다. 이 논문에서는 빙산 질의에 대한 저장뷰를 통해 효율적으로 빙산질의를 수행하는 방법을 제시하였다. 빙산 질의의 임계값이 저장뷰 내에 포함되는 경우에는 즉각적으로 결과를 돌려줄 수 있으며, 그렇지 않음 경우에도 표본추출 대신 저장뷰를 사용함으로써 빙산 질의 중간 단계의 후보 수를 크게 감소시키고, 질의 수행 시간 또한 단축시킬 수 있다. 또한 순위 빙산 질의를 수행하는 방법을 제시하여 사용자로 하여금 보다 직관적인 질의를 작성할 수 있도록 하였다.
PDF