• 제목/요약/키워드: 데이터 논문

검색결과 41,540건 처리시간 0.057초

XMDR을 이용한 분산 DB의 동기화 에이전트 (A Synchronizing Agent in Distributed Database using XMDR)

  • 국윤규;정계동;최영근
    • 정보처리학회논문지A
    • /
    • 제12A권1호
    • /
    • pp.31-40
    • /
    • 2005
  • 본 논문에서는 분산되어 있는 데이터의 상호운용성을 보장하기 위하여 XMDR(XML Metadata Registry)을 제안하고, 이를 이용한 데이터 동기화 에이전트 시스템에 대하여 기술한다. XMDR은 데이터의 공유 및 교환에 있어 데이터 이질성 문제를 해결하기 위하여 사용된다. 데이터 이질성은 주로 동일한 정보에 대하여 서로 다르게 정의하거나 표현이 불일치되어 발생한다. 따라서 MDR 명세를 바탕으로 동기화 하려는 데이터 요소들을 분석하고, 이를 바탕으로 XML로 정의한 XMDR을 이용하여 해결할 수 있다. 본 논문에서 제안한 동기화 에이전트 시스템은 분산 데이터의 동기화 진행에 있어서, 데이터 상호운용을 위한 XMDR을 이용하여 데이터 이질성을 해결할 수 있으며, 또한 시스템 수와 동기화 요청빈도수 증가에 따른 에러 빈도수 감소를 통해 보다 신뢰성 있는 동기화 에이전트를 제공한다.

데이터웨어하우스에서 단순화된 격자를 이용한 데이터큐크의 실체뷰 선택 (Materialized View Selection for Datacube using Simplified Lattice in Datawarehouse)

  • 장지숙;서은주;이전영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.604-612
    • /
    • 1999
  • 데이터웨어하우스는 데이터분석을 위한 특수 목적의 데이터베이스로, 주로 데이터분석을 위한 질의(이하 OLAP 질의)가 던져진다. 그런데 OLAP질의는 수백만개의 레코드를 가지 테이블에 대해 하나 이상의 aggregation 함수와 group-by 연산자가 포함되므로, 질의 처리 시간은 수 분에서 수 시간이 걸린다. 이를 개선하기위하여 데이터 큐브를 구현함에 있어서의 문제는 디스크 공간이 한정되어 있기 때문에 평균 질의 처리 시간이 훨씬 짧아진다하더라도 모든 셀들을 실체화할수 없다. 따라서 한정된 디스크 공간을 최대한 활용하면서 가능한 빠른 평균 질의 처리 시간을 얻을 수 있도록 데이터 큐브의 일부만을 실체화 시켜야한다. 본 논문의 주제와 관련된 연구로는 Harinarayan[4] 이 제안한 greedy 알고리즘이 있다. 이 알고리즘은 1) 데이터 큐브를 격자구조로 표현한후, 2) 격자의 위에서부터 아래로 차례로 뷰들을 방문하면서 방문한 뷰가 실체화되 경우 데이터 큐브에 주는 이익을 계산한다. 3) 그 중 가장 이익이 큰 것을 선택한다. 3) 그중 가장 이익이 큰 것을 선택한다. 2)와 3)의 과정은 k개의 뷰를 선택할 경우, k번 반복된다. 이 알고리즘의 운영 시간은 데이터 큐브를 구성하는 뷰의 개수가 n개이고 그 중에서 k개를 실체화할 경우에 O(kn2)이다. 본 논문에서는 운영 시간을 향상시킨 수정된 greedy 알고리즘을 제안한다. 알고리즘 내부에서 실체화할 뷰를 선택할 때 격자를 단순화시킨 트리를 사용함으로써, 알고리즘 운영시간을 O(kn2)에서 O(kn)으로 향상시켰다.

SQL을 이용한 메모리 데이터 조작 (Manipulation of Memory Data Using SQL)

  • 나영국;우원석
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.597-610
    • /
    • 2011
  • 데이터베이스 응용 프로그램 개발에서 데이터는 메모리 공간과 디스크 공간에 공존한다. 메모리 공간의 데이터를 조작하기 위하여 일반 프로그래밍 언어를 사용하고 디스크 공간의 데이터 조작을 위하여 SQL을 사용한다. 특히 메모리 데이터를 조작하기 위해 사용되는 절차적 언어는 SQL등의 선언적 언어보다 작성 및 유지보수가 어렵다. 이에 본 논문은 특수한 형태 즉, 트리 구조의 메모리 데이터는 선언적 언어인 SQL로 조작이 가능함을 보인다. 특히 UI (user interface)의 모델 데이터는 트리 구조로 표현 될 수 있기 때문에 예외적인 계산을 제외하고는 대부분의 메모리 데이터 조작은 SQL로 가능하다. 예외적인 계산은 도움 클래스 (helper class)로 처리하면 된다. 본 논문이 제시하는 SQL 메모리 데이터 조작은 예외적인 계산이 적은 데이터베이스 응용 프로그램 개발에 특히 적합하다.

효율적인 빅 데이터 마이닝을 위한 iSSD 기반 협업 처리 방안 (iSSD-Based Collaborative Processing for Big Data Mining)

  • 조용연;김상욱;배덕호
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.460-470
    • /
    • 2017
  • 본 논문은 intelligent SSD (iSSD)를 통해 빅 데이터 마이닝을 효과적으로 처리하기 위한 방안에 대해서 소개한다. iSSD는 데이터 전송 비용을 줄이고 데이터가 저장된 장소와 가장 가까운 곳에서 데이터를 처리하기 위해, SSD 내부에 데이터 처리 능력을 부여한 장치이다. 본 논문에서는 먼저, iSSD의 등장 배경 및 효율적인 데이터 처리를 위한 iSSD 구조에 대해 소개한다. 더 나아가, iSSD를 이용하여 데이터 마이닝 알고리즘들을 빠르게 수행하는 방안을 소개한다. 끝으로, iSSD 뿐만 아니라 호스트 CPU, GPU 등 이질 (heterogeneous) 컴퓨팅 자원을 함께 활용하여 데이터 마이닝 알고리즘의 성능을 크게 향상시키는 협업 방안을 소개한다.

시변 볼륨 데이터의 압축과 가시화 기법 (Compression and Visualization Techniques for Time-Varying Volume Data)

  • 손봉수
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.85-93
    • /
    • 2007
  • 본 논문에서는 시간에 따라서 변하는 삼차원 볼륨의 집합인 볼륨 비디오 데이터의 압축 기법을 제안하고 각각의 프레임을 실시간으로 압축 해제하며 가시화하는 방법을 설명하였다. 시변 볼륨 데이터는 한 프레임의 크기 조차도 매우 크기 때문에 그 크기를 줄이는 압축 기법을 수행할 필요가 있다. 그리고 실행 과정에서 일어나는 압축 해제는 시변 볼륨 데이터를 실시간으로 가시화 하는데 있어 병목 현상의 원인이 될 수 있다. 우리는 실행중의 압축 해제 속도와 데이터의 압축률을 높이기 위하여 삼차원 볼륨 데이터를 작은 블록으로 분해하고 충분히 많이 변하는 블록들을 갱신하는 방법을 제안하였다. 이 방법을 구현한 결과 본 논문에서 제안된 압축 및 압축 해제 기법이 압축 해제 속도와 압축에서 복원된 데이터의 정확성, 그리고 압축률의 정도를 조절하여 대용량 시변 볼륨데이터의 대화형 가시화를 가능하게 함을 알 수 있다.

  • PDF

XMDR 데이터 허브 기반의 Proxy 데이터베이스를 이용한 데이터 상호운용 프레임워크 (Data Interoperability Framework based on XMDR Data Hub using Proxy DataBase)

  • 문석재;정계동;최영근
    • 한국정보통신학회논문지
    • /
    • 제12권8호
    • /
    • pp.1463-1472
    • /
    • 2008
  • 본 논문에서는 XMDR(eXtended Meta-Data Resistry) 데이터 허브 기반의 Proxy Database를 이용하여 Legacy Database간의 데이터 상호운용이 가능한 프레임워크를 제안한다. 협 업 환경에서는 Legacy Database간의 상호운용을 하는데 있어서 데이터의 구조, 의미, 형식상의 이질적인 문제들이 발생한다. 또한 실시간으로 변화하는 데이터를 종류와 형식에 관계없이 지속적으로 일관성을 유지하기가 어렵다. 본 논문에서는 XMDR 데이터 허브를 이용하여 Legacy DB간의 데이터 통합 및 상호운용에서 발생할 수 있는 이 질적인 문제를 해결한다. Proxy Database를 이용하여 상호운용하고자 하는 데이터들이 종류와 형식에 상관없이 호환이 가능하고, 지속적으로 정확한 정보를 실시간으로 일관성 있게 제공하는 프레임워크를 제안한다.

구간데이터분석을 위한 형식개념분석기반의 분류 (A FCA-based Classification Approach for Analysis of Interval Data)

  • 황석형;김응희
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.19-30
    • /
    • 2012
  • 다양한 정보기기와 소셜네트워크시스템, 그리고, 클라우드컴퓨팅환경 등과 같은 인터넷기반의 인프라를 토대로 분산화되고 공유가능한 데이터가 폭발적으로 증가하고 있다. 최근에는 데이터에 내재되어 있는 유용한 정보와 지식을 추출하고 분석 및 분류하기 위한 데이터분석 및 마이닝기법으로서, 이진데이터 또는 다치데이터에 관한 형식개념분석기법에 관한 연구가 활발하게 진행되어 다양한 분야에서 성공적으로 활용되고 있다. 그러나, 각 속성들이 구간값을 갖는 형태로 이루어진 구간데이터의 분석에 대한 형식개념분석에 관한 연구는 많이 수행되지 못하였다. 본 논문에서는, 구간데이터를 분석하기 위하여 형식개념분석기법을 기반으로 하는 새로운 분류기법을 제안한다. 또한, 구간데이터의 이진화, 개념추출 및 개념계층구조 구축 등, 본 논문에서 제안한 새로운 분류기법을 지원하기 위한 도구(iFCA)의 구축에 관하여 소개하고, 마지막으로, 몇가지 실세계의 데이터를 대상으로 한 실험결과를 토대로, 본 논문에서 제안하는 분류기법의 유용성에 대해서 설명한다.

근적외선 분광 데이터 예측 모형을 위한 데이터 마이닝 기법의 성능비교 (Performance Comparison of Data Mining Approaches for Prediction Models of Near Infrared Spectroscopy Data)

  • 백승현
    • 대한안전경영과학회지
    • /
    • 제15권4호
    • /
    • pp.311-315
    • /
    • 2013
  • 본 논문에서는 주성분 회귀법과 부분최소자승 회귀법을 비교하여 보여준다. 이 비교의 목적은 선형형태를 보유한 근적외선 분광 데이터의 분석에 사용할 수 있는 적합한 예측 방법을 찾기 위해서이다. 두 가지 데이터 마이닝 방법론인 주성분 회귀법과 부분최소자승 회귀법이 비교되어 질 것이다. 본 논문에서는 부분최소자승 회귀법은 주성분 회귀법과 비교했을 때 약간 나은 예측능력을 가진 결과를 보여준다. 주성분 회귀법에서 50개의 주성분이 모델을 생성하기 위해서 사용지만 부분최소자승 회귀법에서는 12개의 잠재요소가 사용되었다. 평균제곱오차가 예측능력을 측정하는 도구로 사용되었다. 본 논문의 근적외선 분광데이터 분석에 따르면 부분최소자승회귀법이 선형경향을 가진 데이터의 예측에 가장 적합한 모델로 판명되었다.

DEhBT: hB-tree를 이용한 다차원 데이타 분할 기법 (DEhBT:A Multidimensional Data Partitioning Scheme using hB-tree)

  • 김동연;오영배;최동훈;한상영;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 1999
  • 본 논문에서는 병렬 DBMS를 사용하는 데이터 웨어하우스의 성능을 개선하기 위한 새로운 다차원 데이터 분할 기법을 제안한다. 데이터 웨어하우스는 많은 양의 데이터를 저장하는 대용량 데이터베이스이며 분석적인 정보를 얻기 위한 다차원 범위 질의가 대부분을 차지한다. 단일 차원분할 기법으로는 다차원 질의를 효과적으로 처리하기 어렵고 기존의 다차원 분할 기법은 임의의 알 수 없는 분포를 가진 데이터에 대해 균등한 분할을 보장하기 어렵다. 본 논문에서는 hB-tree 구조를 이용하여 균등한 분할을 보장하는 다차원 분할 기법을 제안하고 그 성능을 측정하기 위한 시뮬레이터 결과를 보인다. 시뮬레이션에서 hB-tree 분할 기법은 균등 분포뿐만 아니라 비균등 분포 데이터 집합에 대해서도 균등한 분할을 보인다.

데이터 마이닝의 지도학습 기법 성능향상을 위한 불일치 패턴 모델 (Inconsistent Pattern Model for Improving the Performance of Supervised Learning in Data Mining)

  • 허준;김종우
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2007년도 추계학술대회 및 정기총회
    • /
    • pp.288-305
    • /
    • 2007
  • 본 논문은 데이터 마이닝의 기법 중 가장 잘 알려진 지도학습 기법의 성능 향상을 위한 새로운 Hybrid 및 Combined 기법인 불일치 패턴 모델(오차 패턴 모델)에 대한 연구 논문이다. 불일치 패턴 모델이란 2개 이상의 기법 중 향후 더 레코드별로 더 잘 맞출 수 있는 기법을 메타 분류하는 불일치 패턴 모델을 개발하여, 최종적으로는 기존의 기법보다 더 좋은 분류 정확도 및 예측 향상율을 기대하기 위한 기법을 의미한다. 본 논문에서는 의사 결정나무 추론 기법인 C5.0과 C&RT 그리고 신경망 분석, 그리고 로지스틱 회귀분석과 같은 대표적인 데이터 마이닝의 지도학습 기법을 이용하여 불일치 패턴 모델을 생성하여 보고, 이들이 기존 단일 기법과 기존의 Combined 모델인 Bagging, Boosting 그리고 Stacking 기법보다 성능이 우수함을 23개의 실제 데이터 및 공신력 있는 공개 데이터를 이용하여 증명하여 보였다. 또한 데이터의 특성에 따라서 불일치 패턴 모델의 성능의 변화 및 더 우수해 지는지를 알아보기 위한 연구포 같이 수행을 하여 본 모델의 활용성을 높이고자 하였다.

  • PDF