• 제목/요약/키워드: multi-dimensional databases

검색결과 54건 처리시간 0.027초

확률적 다차원 연속패턴의 생성을 위한 효율적인 마이닝 알고리즘 (An Efficient Mining Algorithm for Generating Probabilistic Multidimensional Sequential Patterns)

  • 이창환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.75-84
    • /
    • 2005
  • 연속패턴은 다양한 분야에서 사용되는 데이타 마이닝 기법의 한 종류이다. 하지만 현재의 연속 패턴 방법은 한개의 속성내에서의 패턴만을 감지할 수 있으며 속성간의 패턴을 생성할 수 없다. 다차원의 연속패턴은 일차원에 비하여 훤씬 유용한 정보를 제공할 수 있다. 본 연구에서는 Hellinger 엔트로피 함수를 사용하여 다차원의 연속패턴을 생성하는 방법을 게시한다 기존의 연속패턴방법과 달리 본 방법에서는 각 연속패턴의 중요도를 자동으로 계산할 수 있다. 또한 계산의 복잡도를 감소시키기 위한 다수의 법칙이 개발되었으며 다수의 실험 결과를 제시하였다.

CIR-Tree를 위한 효율적인 대량적재 알고리즘의 설계 및 구현 (Design and Implementation of an Efficient Bulk Loading Algorithm for CIR-Tree)

  • 피준일;송석일;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.193-206
    • /
    • 2002
  • 이 논문에서는 고차원 색인 구조인 CIR-트리를 위한 효율적인 벌크로딩 알고리즘을 설계하고 구현한다. 벌크로딩 기법은 대량의 고차원 데이타가 색인 구성 시 함께 주어지는 경우 색인의 구성을 빠르게 하고 구축한 색인의 검색 성능을 향상시킨다. CIR-트리는 반드시 필요한 차원만 이용해서 비단말 노드의 엔트리를 구성하기 때문에 엔트리 크기가 일정하지 않다. 이 특성은 비단말 노드의 분기율을 높이고 탐색 성능을 향상시키는 효과가 있다. 기존에 다차원 및 고차원 색인구조를 위한 벌크로딩 기법이 제안되었지만 이러한 CIR-트리의 특징을 제대로 살릴 수 있는 방법은 없다. 이 논문에서는 기존의 벌크로딩 알고리즘을 개선하면서 CIR-트리의 특징을 효과적으로 색인 구성에 반영할 수 있는 알고리즘을 제안한다. 또한 이를 BADA-III의 하부 저장 시스템인 MiDAS-III에서 구현하고 다양한 실험을 통해 그 성능을 입증한다.

Z-인덱스 기반 MOLAP 큐브 저장 구조 (A Z-Index based MOLAP Cube Storage Scheme)

  • 김명;임윤선
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP(multi-dimensional online analytical processing)은 데이타의 다차원적 분석 기술로서, 이는 질의 처리 속도를 높이기 위해 데이타를 큐브(cube)라고 불리는 다차원 배열에 저장하고 배열 인덱스를 사용하여 데이타를 엑세스한다. 큐브는 다양한 방식으로 디스크에 저장될 수 있으며 이 때 사용되는 방식에 따라 MOLAP의 주요 연산인 슬라이스와 다이스 연산 속도가 크게 영향을 받는다. 이러한 연산들을 효율적으로 처리하기 위해 다차원 배열을 작은 크기의 청크로 나누고 이 들 중에서 희박한 청크들을 압축하여 저장하는 기법이 [1]에 제안되어 있다. 이 방식에서는 청크들을 행우선 순서로 디스크에 저장한다. 본 연구에서는 청크들을 밀도와 인접도 기준으로 배치시킴으로써 슬라이스와 다이스 연산 속도를 향상시키는 방법을 제시한다. 청크 밀도를 이용하여 청크들을 디스크 블록 경계에 가능한 한 맞추었고, Z 인덱싱을 사하여 인접한 저밀도 청크들을 군집화 함으로써 디스크 I/O의 속도를 높였다. 제안한 큐브 저장 방식은 일반적 비즈니스 데이타의 분석에 흔히 사용되는 3~5차원의 큐브 저장에 효율적이라는 것을 실험적으로 보였다.

데이타와 질의의 이원성을 이용한 데이타스트림에서의 연속질의 처리 (Continuous Query Processing in Data Streams Using Duality of Data and Queries)

  • 임효상;이재길;이민재;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권3호
    • /
    • pp.310-326
    • /
    • 2006
  • 본 논문은 데이타스트림 환경에서 연속질의를 효율적으로 처리하는 방법을 다룬다. 먼저, 기존의 질의 처리 방법을 데이타 엘리먼트와 질의 중에서 어느 것을 먼저 선택하고 수행을 시작하느냐에 따라서, 서로 이원적인 두 가지 방법인 데이타-이니셔티브(data-initiative)와 질의-이니셔티브(query-initiative)로 분류한다. 이러한 분류는 기존의 질의 처리 연구에서 데이타와 질의를 서로 다르게(asymmetrically) 취급하였다는 것에 기인한다. 기존의 연속질의 처리에서는 이원적인 질의 처리 방법 중에서 데이타-이니셔티브 방법만이 사용되었기 때문에, 질의-이니셔티브 방법에서 얻을 수 있는 성능 상의 이점이 간과되었다. 이러한 문제를 해결하기 위해, 데이타와 질의를 동등하게(symmetrically) 볼 수 있다는 점에 착안한다. 본 논문에서는 데이타와 질의의 이원성 모델(Duality Model of Data and Queries)을 제안하고 이 모델에 기반하여 연속질의 처리 문제를 다차원 공간에서의 공간조인 문제로 변환하는 새로운 관점을 제시한다. 그리고, 공간조인 기반 연속질의 처리 알고리즘인 Spatial Join CQ를 제안한다. Spatial Join CQ는 다차원 공간상에 영역으로 표현된 데이타 엘리먼트들의 집합과 질의들의 집합으로부터 서로 겹치는 쌍을 찾음으로써 연속질의를 처리한다. 제안하는 알고리즘은 대칭적인(symmetric) 연산인 공간조인으로 겹치는 영역들을 찾아냄으로써 서로 이원적인 두 가지 질의 처리 방법의 효과를 동시에 얻는다. 성능 평가 결과, 제시하는 알고리즘은 기존의 방법에 비해서 단순 선택 연속질의는 최대 36배, 슬라이딩 윈도우 조인 연속질의는 최대 7배의 성능 향상을 보였다.

빅데이터 분석 시스템 구현을 위한 데이터 구조의 복잡성에 따른 MongoDB 환경 구성 연구 (Study of MongoDB Architecture by Data Complexity for Big Data Analysis System)

  • 이협건;김영운;이진우;이승현
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.354-361
    • /
    • 2023
  • 빅데이터 분석 시스템들은 다양한 형태의 방대한 데이터를 저장 및 처리, 분석을 위해 MongoDB와 같은 NoSQL 데이터베이스를 적용한다. MongoDB는 환경 구성에 따라 분산 처리 및 데이터 복제를 통해 확장성과 빠른 데이터 처리 속도를 제공한다. 본 논문에서는 구현하는 빅데이터 분석 시스템에 적합한 MongoDB 환경 구성에 대해 연구한다. 성능 평가를 위한 환경은 크게 싱글 노드와 다중 노드 환경으로 구성하였으며, 다중 노드 환경은 데이터 노드의 수를 2대에서 3대까지 확장하여 각 환경별 성능을 측정하였다. 분석 결과, 3차원 이상의 복잡한 데이터 구조의 데이터 처리 속도는 싱글 노드 환경이 2개의 데이터 노드 환경에 비해 약 5.75% 빠르게 처리하지만,3개의 데이터 노드 환경은 싱글 노드 환경에 비해 약 25.15% 이상 빠르게 처리한다. 그러나 데이터 구조가 단순한 1차원 데이터 구조는 다중 노드 환경이 싱글 노드 환경에 비해 약 28.63% 빠르게 처리한다. 향후 본 연구를 기반으로 다양한 데이터 구조 및 방대한 양의 데이터를 통한 실질적인 검증이 필요하다.

시퀀스 데이타베이스에서 타임 워핑을 지원하는 효과적인 유살 검색 기법 (An Effective Similarity Search Technique supporting Time Warping in Sequence Databases)

  • 김상욱;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.643-654
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이타베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각(false dismissal) 없이 다차원인덱스를 사용할 수 없었다. 이러한 기법들은 전체 데이타베이스를 스캔해야 하므로 대형 데이타베이스에서는 심각한 성능 저하의 문제를 가진다. 서픽스 트리를 사용하는 또 다른 기법은 큰 트리로 인한 성능상의 문제를 갖는다 본 논문에서는 타임 워핑을 지원하는 효과적인 유사 검색 기법을 제안한다. 제안된 기법의 주요 목표는 착오 기각 없이 대형 데이타베이스에서도 좋은 검색 성능을 보장하는 것이다. 이러한 목표를 위하여 본 연구에서는 삼각형 부등식을 만족하는 타임 워핑 거리의 새로운 하한 거리 함수 $D_{tw-Ib}를 고안한다. D_{tw-Ib}$는 각 시퀀스로부터 타임 워핑과 무관한 4-터플 특성 벡터를 추출한 다. 제안된 기법에서는 이러한 4-터플 특성 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 기반으로 유사 검색을 효율적으로 처리한다. 본 논문에서는 제안된 기법에서 착오 기각이 발생하지 않음을 증명한다. 또한, 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 의하면 제안된 기법은 기존의 기법들과 비교하여 실제 S&P 500 주식 데이타에 대하여 43배, 대형 생성 데이타에 대하여 720배가지 의 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

2-계층 그리드 블록을 이용한 효과적인 맵리듀스 기반 스카이라인 질의 처리 기법 (An Efficient MapReduce-based Skyline Query Processing Method with Two-level Grid Blocks)

  • 유형철;정성원
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.613-620
    • /
    • 2017
  • 스카이라인 질의는 사용자들의 다양한 기준을 만족하는 데이터를 찾기 때문에 의사 결정 문제 등에서 폭넓게 사용되고 있다. 최근의 스카이라인 질의는 대용량 데이터베이스 처리를 위해 맵리듀스 프레임워크를 사용하는 연구들이 많이 진행되었으며 특히 맵리듀스에 기존의 색인 구조를 적용하는 방식으로 연구가 활발히 진행되고 있다. 스카이라인의 특징 중 하나는 원점에서 가까운 데이터일수록 더 많은 영역을 지배한다는 점이다. 하지만 기존의 색인 구조는 이와 같은 스카이라인의 특징을 반영하지 못하는 단점이 있었다. 본 논문에서는 그리드의 셀들을 스카이라인의 특징을 고려하여 묶는 그리드 블록 구조와 원점과 가까운 데이터가 없을 때도 사용 가능한 2계층 그리드 블록 구조, 그리고 2계층 그리드 블록 구조를 사용한 효율적인 스카이라인 질의 기법을 제안하였다.

지식활동의 관계식별을 위한 연계형 분류체계에 관한 연구 - 연구-기술-산업과 연구-전공-취업 연계 - (A New Model for Connecting the Classification Systems of Knowledge Activities - Linking Research-Technology-Industry and Research-Major-Job -)

  • 설성수;송충한;노환진
    • 기술혁신학회지
    • /
    • 제10권3호
    • /
    • pp.531-554
    • /
    • 2007
  • 본고는 그간 독립적으로 존재해 왔던 학문분류 연구분류 기술분류 산업분류 전공분류 및 취업 분류와 같은 지식활동과 관련된 분류체계를 상호 연계시켜 종합적으로 보는 새로운 모형을 제시하고 그를 구체적으로 구현하는 방법을 다룬 것이다. 중 분야 이상의 의미를 갖는 학문분류와 소 분야 이하의 의미를 갖는 연구분류를 통합시킨 학문/연구분류는, 자체가 연구분야와 적용분야로 구성되는 2차원형이지만, 한편으로는 다양한 기술분류와 산업분류로 연계되고, 다른 한편으로는 전공(교육)분류와 취업분류로 연계된다. 연계시키는 방법은 두 개 이상의 분류체계를 동시에 기재하도록 하고, 그러한 기재를 허용하는 정보시스템과 데이터베이스를 갖추고, 필요에 따라 몇 개의 분류체계를 선택하여 동시에 사용하면 된다. 본고는 새로운 분류체계를 보이고자 한 것이지만 기본적인 의도는 분류체계를 넘어선다. 지식사회의 기본적인 활동인 지식활동을 종합적으로 파악하기 위한 수단을 강구하고자 한 것이다.

  • PDF

범위 모자이크 질의의 효율적인 수행 (Efficient Execution of Range Mosaic Queries)

  • 홍석진;배진욱;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.487-497
    • /
    • 2005
  • 질의 영역에 대한 단일 값의 통계 정보를 반환하는 범위 집계 질의와는 달리, 범위 모자이크 질의는 질의 영역 내의 데이타 분포를 모자이크 형태로 반환한다. 즉, 범위 모자이크 질의는 질의 영역을 다차원 격자로 나눈 후, 나뉜 각 영역에 대해 집계값을 구해서 결과로 반환하는 질의이다 이 논문에서는 범위 모자이크 질의와, 범위 모자이크 질의를 SQL문으로 표현하기 위한 mosaic-by 연산자를 제안한다. 그리고 이 논문에서는 집계 R-트리를 이용한 범위 모자이크 질의의 효율적인 수행 알고리즘을 소개한다. 알고리즘은 모든 모자이크 셀의 집계값을 한 번의 트리 순회만으로 계산하며, 집계 R-트리의 집계값을 이용하여 질의 영역 내의 모든 노드를 접근하지 않고도 작은 수의 노드 접근만으로 질의를 수행할 수 있다. 실험 결과를 통해 제안된 알고리즘이 생성된 데이타와 실제 데이타 모두에 대해 좋은 성능을 보이는 것을 알 수 있다.

심장이식 수혜자의 삶의 질 관련 요인에 대한 메타분석 (A Meta-Analysis on Factors Related to Quality of Life in Heart Transplant Recipients)

  • 장미라;임세라;최모나
    • 임상간호연구
    • /
    • 제25권3호
    • /
    • pp.251-264
    • /
    • 2019
  • Purpose: This study was a systematic review and meta-analysis to explore the factors related to quality of life in heart transplant recipients. Methods: To identify studies that suggested the factors related to the quality of life in heart transplant recipients, we searched the articles published from 1974 to November 2018 using Six databases, PubMed, CINAHL, EMBASE, Cochrane, KMBASE and RISS. A total of 22 studies were selected out of 5,234 for the systematic review and meta-analysis on the basis of the PRISMA flow. The quality of study was assessed by assessment tool form the NIH and meta-analysis was performed using the 'R 3.5.2' version to analyze the correlated effect sizes. Results: Factors related to quality of life in heart transplant recipients were categorized into six domains based on the health-related quality of life model introduced by Ferrans: individual, environmental, biological function, symptoms, functional status, and general health perception. In the meta-analysis, 34 factors were used and 17 factors having significant effect sizes were as follows: self-efficacy, demoralization, perceived control, current occupational status, age, marital status, health promotion life style in the individual characteristics; stress in environmental characteristics; physical function status, creatinine level, left ventricular ejection fraction (LVEF) in biological function; anxiety, depression, symptom frequency and distress in symptoms domain; coping, self-care compliance in functional status. Conclusion: The findings indicate that the multi-dimensional factors influencing the quality of life in heart transplant recipients and provide the evidence for developing effective interventions for improving the quality of life of recipients.