• 제목/요약/키워드: multi-dimensional databases

검색결과 54건 처리시간 0.03초

데이타 스트림에서 동적 데이타 큐브 (Dynamic Data Cubes Over Data Streams)

  • 서대홍;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.319-332
    • /
    • 2008
  • OLAP의 다차원 데이타 모델인 데이타 큐브는 많은 다차원 데이타 분석에 성공적으로 적용되었으며, 데이타 스트림 분석에도 적용하려는 많은 연구가 진행되고 있다. 데이타 스트림은 실시간에 지속적으로 방대하게 생성되며, 데이타의 분포적 특성이 빠르게 변한다는 특징을 가지며, 제한된 메모리 및 처리능력 때문에 한번만 검사하여 처리하는 것을 기본으로 한다. 때문에 데이타 스트림을 메모리에 모두 저장하는 것은 불가능하다. 또한 사용자는 모든 속성 값에 대하여 관심을 두기보다는 일정 지지율 이상을 가진 속성 값에 더욱 관심을 가지게 된다. 본 논문에서는 이러한 데이타 스트림 환경에서 데이타 큐브를 효과적으로 적용하기 위한 동적 데이타 큐브를 제안한다. 동적 데이타 큐브는 속성 값의 지지율에 따라 사용자 관심 영역을 지정하고, 속성 값을 동적으로 그룹화하여 관리한다. 이를 통해 메모리 및 처리시간을 절약하게 된다. 또한 동적으로 지지율이 높은 속성에 대한 분석 상세도를 높여주기 때문에 사용자의 관심영역을 효과적으로 보여준다. 마지막으로 실험을 통하여 제한된 메모리에서 동적 데이타 큐브가 효율적으로 동작함을 검증하였다.

히포크라테스 XML 데이터베이스: 모델 및 액세스 통제 방법 (Hippocratic XML Databases: A Model and Access Control Mechanism)

  • 이재길;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.684-698
    • /
    • 2004
  • 최근에 Agrawal 등이 제안한 히포크라테스 데이타베이스(Hippocratic database)는 관계형 데이타베이스에 프라이버시 보호 기능을 추가한 데이타베이스 모델이다 히포크라테스 데이타베이스는 관계형 데이타베이스에 기반한 모델이므로 최근에 널리 사용되는 XML 데이타베이스에 적용하기 위해서는 확장이 필요하다. 본 논문에서는 히포크라테스 데이타베이스 모델을 XML 데이타베이스에 적용할 수 있도록 확장한 히포크라데스 XML 데이타베이스(Hippocratic XML database) 모델과 이 모델에서의 효과적인 액세스 통제 방법을 제안한다. XML 데이타는 관계형 모델과 달리 트리 형태의 계층 구조를 가진다. 따라서, 히포크라테스 데이타베이스의 모델에서 제시한 개념들인 프라이버시 선호 및 정책, 프라이버시 권한, 데이타 레코드의 사용목적을 트리 형태의 계층 구조에 맞게 확장하며, 확장된 개념들을 정형적으로 정의한다. 다음으로, 본 모델의 액세스 통제 방법에 사용되는 새로운 방법인 다차원 인덱스를 사용한 권한 인덱스(authorization index)를 제안한다. 이 권한 인덱스는 최근접 질의(nearest neighbor search) 기법을 활용하여 가장 가까운 조상 엘리먼트에 부여된 권한에 의해 내포되는 권한을 효율적으로 찾을 수 있게 해준다. 합성 데이타와 실제 데이타를 사용하여 기존의 액세스 통제 방법과 질의 처리 시간을 비교하는 다양한 실험을 수행한 결과, 본 논문에서 제안한 액세스 통제 방법은 하향식(top-down) 액세스 통제 방법에 비하여 최대 13.6배, 상향식(bottom-up) 액세스 통제 방법에 비하여 최대 20.3배 성능을 향상시킴을 보였다. 본 논문의 주요 공헌은 1) 히포크라테스 데이타베이스 모델을 히포크라테스 XML 데이타베이스 모델로 확장하고 2) 제안한 모델 상에서 권한 인덱스와 최근접 질의 기법을 사용하는 효과적인 액세스 통제방법을 제안한 것이다.

염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조 (A DNA Index Structure using Frequency and Position Information of Genetic Alphabet)

  • 김우철;박상현;원정임;김상욱;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.263-275
    • /
    • 2005
  • 대규모 DNA 데이타베이스를 대상으로 원하는 서열을 빠르게 검색하기 위해 인덱싱 기법을 많이 사용하고 있다. 그러나 대부분의 인덱싱 기법은 원래 데이타베이스보다 더 큰 저장공간을 사용하고 DBMS와의 밀 결합이 어렵다는 문제점을 가지고 있다. 본 논문에서는 완전 매치, 와일드카드 매치, k-미스매치와 같은 근사 매치 질의 처리를 위해 작은 공간을 사용하는 디스크 기반의 효율적인 인덱싱 기법과 질의 처리 기법을 제안한다 인덱싱을 위해서 DNA 염기서열에 일정 크기의 슬라이딩 윈도우를 위치시킨 후, 윈도우 내에서 각 문자의 출현 빈도를 이용해 서명을 추출해서 R*-트리와 같은 다차원 공간 인덱스에 저장한다. 특히 윈도우 내의 각 위치에 따라서 가중치를 줌으로써 서명들이 인덱스 공간에 집중되는 현상을 억제한다. 제안된 질의 처리방법은 질의 시퀀스를 다차원 사각형으로 변환하고 그 사각형과 중첩되는 서명들을 인덱스로부터 찾아낸다 제안된 방법을 실제 생물학자들이 사용하는 데이타를 이용해 실험한 결과 서픽스 트리 기반의 방법에 비해서 완전 매치인 경우 3배 이상, 와일드카드 매치인 경우 2배 이상, k-미스매치인 경우 수십 배 이상의 성능향상을 보였다.

다단계 퓨전기법을 이용한 비유사도 기반 식별기의 최적화 (On Optimizing Dissimilarity-Based Classifier Using Multi-level Fusion Strategies)

  • 김상운;로버트 듀인
    • 전자공학회논문지CI
    • /
    • 제45권5호
    • /
    • pp.15-24
    • /
    • 2008
  • 얼굴인식 등과 같은 고차원 식별문제에서는 샘플패턴의 수가 패턴의 차원보다 작아지게 된다. 이러한 상황에서 차원을 축소하기위해 선형판별분석법을 적용할 경우, 희소성(Small Sample Size: SSS)문제가 발생한다. 최근, SSS 문제를 해결하기 위하여 비유사도에 기반 한 식별법(Dissimilarity-Based Classification: DBC)을 이용하는 방법이 검토되었다. DBC에서는 특징 벡터 대신에 학습 샘플들로부터 추출한 프로토타입들과의 비유사도를 측정하여 입력 패턴을 식별하는 방법이다. 본 논문에서는 비유사도 표현단계와 DBC 학습단계에서 퓨전기법을 중복 적용하는 다단계 퓨전기법(Multi-level Fusion Strategies: MFS)으로 DBCs를 최적화시키는 방법을 제안한다. 제안 방법을 벤취마크 얼굴영상 데이터베이스를 대상으로 실험한 결과, 식별률을 향상시킬 수 있음을 확인하였다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

이미지 시퀀스 데이터베이스에서 우선순위 큐와 접미어 트리를 이용한 효율적인 유사 서브시퀀스 검색의 설계 (A Design for Efficient Similar Subsequence Search with a Priority Queue and Suffix Tree in Image Sequence Databases)

  • 김인범
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권4호
    • /
    • pp.613-624
    • /
    • 2003
  • 본 논문은 우선순위 큐와 접미어 트리로 색인 구조를 생성한 후. 이미지 시퀀스 데이터베이스에서 다차원 타임 워핑 거리 함수를 이용하여 유사한 이미지 서브시퀀스를 신속하고 정확하게 검색할 수 있는 방법을 제안한다. 본 논문에서 제안된 방법은 사전에 정의된 중요도에 따라 선별된 이미지 시퀀스로 구성된 우선순위 큐 색인의 이미지 서브시퀀스에 대한 유사성 거리 계산을 첫 단계로 시행하여 유사한 서브시퀀스집합을 얻고 만족할 결과를 얻지 못했을 경우에는 두 번째 단계로 나머지 유사 서브시퀀스에 대해 디스크 기반의 접미어 트리를 색인 구조체로 하여 유사한 서브시퀀스를 검색하는 것이다. 하한 거리 함수를 활용하여 질의 이미지 시퀀스와 유사한 이미지 서브시퀀스를 검색하는 과정에서 생성 가능한 오류를 방지 하면서 동시에 비 유사 이미지 서브시퀀스를 제거하도록 한다.

  • PDF

타임 워핑을 지원하는 효율적인 서브시퀀스 매칭 기법 (A Subsequence Matching Technique that Supports Time Warping Efficiently)

  • 박상현;김상욱;조준서;이헌길
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.167-179
    • /
    • 2001
  • This paper discusses an index-based subsequence matching that supports time warping in large sequence databases. Time warping enables finding sequences with similar patterns even when they are of different lengths. In earlier work, we suggested an efficient method for whole matching under time warping. This method constructs a multidimensional index on a set of feature vectors, which are invariant to time warping, from data sequences. For filtering at feature space, it also applies a lower-bound function, which consistently underestimates the time warping distance as well as satisfies the triangular inequality. In this paper, we incorporate the prefix-querying approach based on sliding windows into the earlier approach. For indexing, we extract a feature vector from every subsequence inside a sliding window and construct a multi-dimensional index using a feature vector as indexing attributes. For query precessing, we perform a series of index searches using the feature vectors of qualifying query prefixes. Our approach provides effective and scalable subsequence matching even with a large volume of a database. We also prove that our approach does not incur false dismissal. To verily the superiority of our method, we perform extensive experiments. The results reseal that our method achieves significant speedup with real-world S&P 500 stock data and with very large synthetic data.

  • PDF

An Efficient Grid Method for Continuous Skyline Computation over Dynamic Data Set

  • Li, He;Jang, Su-Min;Yoo, Kwan-Hee;Yoo, Jae-Soo
    • International Journal of Contents
    • /
    • 제6권1호
    • /
    • pp.47-52
    • /
    • 2010
  • Skyline queries are an important new search capability for multi-dimensional databases. Most of the previous works have focused on processing skyline queries over static data set. However, most of the real applications deal with the dynamic data set. Since dynamic data set constantly changes as time passes, the continuous skyline computation over dynamic data set becomes ever more complicated. In this paper, we propose a multiple layer grids method for continuous skyline computation (MLGCS) that maintains multiple layer grids to manage the dynamic data set. The proposed method divides the work space into multiple layer grids and creates the skyline influence region in the grid of each layer. In the continuous environment, the continuous skyline queries are only handled when the updating data points are in the skyline influence region of each layer grid. Experiments based on various data distributions show that our proposed method outperforms the existing methods.

다차원 연관 분석을 이용한 인터넷 이용자의 특징 분석 (Analysis of Internet User Features using Multi-dimensional Association Analysis)

  • 이수은;정용규
    • 서비스연구
    • /
    • 제1권1호
    • /
    • pp.61-69
    • /
    • 2011
  • 데이터 마이닝은 대용량의 데이터베이스로부터 기존에 알려지지 않은, 즉 단순한 질의어로 추출할 수 없는 형태의 '유용한' 정보를 찾아내고 이를 바탕으로 데이터에 대한 통찰(insight)을 얻는 것으로 정의할 수 있다. 본 논문에서는 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내기 위하여 인터넷을 이용하는 이용자의 특징을 분석하기 위해 시도되었다. 즉 인터넷 사용자에 대한 일반적인 통계 정보 데이터에 연관성 분석을 적용하여 인터넷 사용 시간에 영향을 미치는 인터넷 이용자의 특징을 분석하였다. 실험을 통하여 데이터로부터의 연관 규칙을 추출 해내었으며, 최적의 결과를 도출하기위한 데이터 전처리 및 알고리즘을 적용하여 웹 마이닝을 위한 인터넷 사용자의 특징을 분석한 결과 그 유용성을 확인할 수 있었다.

  • PDF

다차원 공간에서 거리조인 질의처리를 위한 R-트리의 효율적 접근 (Efficient Accesses of R-Trees for Distance Join Query Processing in Multi-Dimensional Space)

  • 신효섭;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.72-78
    • /
    • 2002
  • 거리조인은 R-트리를 사용하여 두 공간 데이터 집합 사이의 데이터쌍을 거리 상 가까운 순으로 검색하는 공간조인이다. 거리조인은 R-트리를 하향식으로 순회하면서 생성되는 노드쌍들을 거리값 순으로 우선순위 큐에 저장한다. 본 논문에서는 거리조인 처리시 우선순위 큐 안에서 동점자 노드쌍들의 우선 순위 정책이 알고리즘의 성능을 많이 좌우할 수 있음을 보여주고, 이를 위한 최적화된 2차 우선 순위 기법을 제안한다. 실험을 통하여, 제안한 기법이 다른 기법에 비하여 항상 좋은 성능을 나타냄을 보여준다.