• 제목/요약/키워드: heterogeneous databases

검색결과 125건 처리시간 0.019초

PrimeFilter: 소수 인덱싱 기법에 기반한 효율적 XML 데이타 필터링 (PrimeFilter: An Efficient XML Data Filtering based on Prime Number Indexing)

  • 김재훈;김상욱;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권5호
    • /
    • pp.421-431
    • /
    • 2008
  • 최근 이질적인 시스템 사이에서의 정보교환의 표준으로 널리 사용되는 XML을 사용하는 Publish/Subscribe 시스템의 스트리밍 XML 데이타 필터링 기법이 활발히 연구되었다. 스트리밍 XML 데이타 필터링 기법은 사용자가 등록한 질의에 대해서 신속한 질의-데이타 매칭을 목적으로 하기 때문에 효율적인 질의 처리 메커니즘이 요구된다. 현재까지 대부분의 연구는 질의 경로 표현식의 부분적인 공유를 꾀하거나 프레디킷을 효율적으로 처리함으로써 질의 처리의 시간적, 공간적 효율을 목적으로 하였다. 하지만 만약 질의간의 포함 관계를 알 수 있다면 질의 처리시에 가장 하위의 질의가 매칭되면 그 질의를 포함하고 있는 상위의 질의들은 별도의 처리 과정 없이 매칭됨을 알 수 있게 된다. 이러한 질의 포함 관계를 이용한 질의 처리 방식은 XML 스트리밍 데이타를 처리하는 또 하나의 효율적 방식이 될 수 있다. 본 논문에서는 소수 인덱싱 기법과 목표 질의 노드 중심의 포함 관계 설정에 기반하여 효율적인 스트리밍 XML 데이타 필터링을 수행하는 새로운 방법을 소개한다. 그리고 몇 가지 실험을 통하여 기존 방법과의 비교 분석 및 효율성을 보인다. 비록 각각의 실험은 서로 다른 실험 요소에 대하여 수행되었지만, 모두 제안 방법이 기존의 방법보다 두 배 이상 더 나은 성능을 가짐을 보여 주었다.

데이터 품질을 고려한 국가R&D정보 데이터베이스의 통합 사례 연구 - NTIS 데이터베이스 통합 사례 (A Data Cleansing Strategy for Improving Data Quality of National R&D Information - Case Study of NTIS)

  • 신성호;윤영준;양명석;김진만;손강렬
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.119-130
    • /
    • 2011
  • 데이터 품질관리 관점에서 볼 때, 데이터의 품질은 품질정책, 품질조직, 업무프로세스, 업무규칙 등 여러 요인에 의해 영향을 받는다. 이중에서도 업무규칙은 실제 데이터를 조작하는 행위의 지침이 되는 것으로써 데이터 품질에 직접적인 영향을 미친다. 여러 기관의 데이터베이스를 통합하여 단일의 데이터베이스를 구축하는 경우에는 더 신중하게 업무규칙을 수립할 필요가 있다. 분산된 데이터베이스 내에 있는 데이터를 단일의 데이터베이스로 통합한다는 것은 단순히 데이터의 통합만을 의미하는 것이 아니라 상이한 스키마, 코드 체계, 데이터 표준 등을 사전에 고려해야 함을 의미한다. 이런 요소들을 고려하더라도 데이터 자체는 형식, 단위, 표현 등에 따라서 다양한 모습을 가진다. 결국 데이터베이스의 구조적인 문제와 데이터 자체의 의미적인 문제가 데이터베이스 통합과 통합된 데이터베이스 내 데이터의 품질 제고를 위한 선결 과제라 할 수 있다. 이러한 문제들을 해결하기 위해서는 먼저 통합 시 통합 모델의 설계가 필요하고, 통합된 데이터베이스의 데이터에 대한 정제가 필요하다. 범부처적으로 분산되어 있는 국가R&D정보를 수집하여 서비스하는 국가과학기술종합정보서비스(NTIS)도 여러 기관에 존재하는 데이터베이스를 연계 통합하여 단일의 데이터베이스를 구축하였다. NTIS의 사례를 통해 체계적인 통합 모델 수립과 정제에 의해 통합된 데이터베이스의 데이터는 그렇지 않은 데이터보다 정확도 측면에서 품질이 제고되었음이 입증되었다.

Ontology를 이용한 이종 메타데이터 검색 시스템의 설계 및 구현 (A Design and Implementation of Heterogeneous Metadata Searching System using Ontology)

  • 최현종;김태영
    • 정보교육학회논문지
    • /
    • 제8권3호
    • /
    • pp.353-360
    • /
    • 2004
  • 웹은 이제 더 이상 무의미한 정보의 바다가 아니라, 의미있는 정보를 사용자에게 정확하게 전해줄 수 있는 새로운 Semantic Web 시대를 맞이하고 있다. 그 출발점이 XML과 메타데이터였다면 웹의 자원을 연결시켜 주는 RDF를 거쳐, 이제는 의미와 논리가 Ontology를 통해 자리 잡고 있다. 현재 국내의 많은 웹 교육 자료들이 한국교육학술정보원의 메타데이터형식(KEM)에 메타데이터가 구축되었다. 따라서 우리나라도 이제는 의미와 논리의 형식을 연구해야 될 시기가 되었다. 하지만, 국내의 많은 연구자들은 KEM보다 DublinCore의 DC와 SCORM의 LOM의 연구에 더 적극적이다. 따라서 현재는 의미와 추론의 연구보다 세 개의 서로 다른 메타데이터를 엮어서로 공유하고 통합할 수 있는 방법의 연구가 선행되어져야 한다. 이에 본 연구는 세 메타데이터 형식을 통합해주는 Ontology를 설계해 보고, 프로토타입 검색 시스템을 구현해 보았다. 연구 결과 세 메타데이터의 많은 요소들이 서로 같은 요소 이름과 의미를 가지고 있었고, 몇 개의 요소들은 서로 같은 의미이지만 다른 요소 이름을 가지고 있었다. Ontology를 설계할 때 이렇게 동일한 의미를 가진 다른 이름의 요소들은 일대일 매핑 기법을 적용하여 설계하였다. 본 연구에서 설계한 Ontology가 세 가지 다른 형식의 메타데이터를 통합하는 통합 스키마로 활용될 수 있음을 확인하였다. 더불어 검색 결과를 좀 더 다양하게 동의, 반의, 계층, 연관 관계까지 제공하기 위해서는 좀 더 정교한 속성 설계가 필요하였다.

  • PDF

프리픽스 매취 조인을 이용한 XML 문서에 대한 분기 경로 질의 처리 (Branching Path Query Processing for XML Documents using the Prefix Match Join)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.452-472
    • /
    • 2005
  • 본 논문에서는 정보 검색(Information Retrieval, IR) 기술과 새로운 인스턴스 조인 기술을 이용하여 방대하고도 이질적인 XML 문서들에 대한 부분 매취 질의(Partial Match Query)를 처리하는 새로운 방법으로, XIR-Branching을 제안한다. 부분 매취 질의는 경로 표현식에 조상-후손 관계성(descendent-or-self axis) "//"를 가지는 질의로 정의되며, 선형 경로 표현식(Linear Path Expression, LPE)과 분기 경로 표현식(Branching Path Expression, BPE)으로 구분된다 일반적 형식의 부분 매취 질의는 분기하는 경로들을 만드는 분기 조건들을 가진다. XIR-Branching의 목적은 이질적인 스키마들을 가진 방대한 문서들에 주어지는 부분 매취 질의를 효과적으로 지원하는 것이다. XIR-Branching은 관계형 테이블을 사용하는 전통적인 스키마-레벨 방법들(XRel, XParent, XIR-Linear[21])에 그 기초를 두고, 역 인덱스(inverted index) 기술과 새롭게 소개하는 인스턴스-레벨 조인 기술인 프리픽스 매취 조인(Prefix Match Join)을 사용하여 질의 처리 효율성과 확장성을 향상시킨다. 전자는 LPE를 처리하기 위한 기술로 XIR-Linear[21]에서 사용한 방법이다. 후자는 BPE를 처리하기 위한 기술로 본 논문에서 새롭게 제안하는 기술이며, 전통적인 방법에서 사용하는 포함 관계 조인(containment join) 보다 효과적인 방법으로 결과 노드(result node)를 찾는다. 기존 연구인 XR-Linear는 역 인덱스를 사용하여 LPE 처리에 우수한 성능을 보이고 있지만, BPE 처리 방법을 다루지 않았다. 그러나. 더욱 구체적이고 일반적인 질의를 위해서는 BPE도 처리할 수 있어야 한다. 본 논문에서는 BPE까지 다룰 수 있는 새로운 방법으로 기존의 XIR-Linear를 확장한 XIR-Branching을 제안한다. 제안하는 방법은 스키마-레벨 방법으로 질의 대상 후보 집합을 크게 줄인 후, 인스턴스-레벨 조인 방법인 프리픽스 매취 조인으로 최종 결과 집합을 효과적으로 구하는 방법이다. XIR-Branching의 우수성을 보이기 위해 기존 BP포 처리 방법인 XRei, XParent와 비교 분석을 수행한다. 마지막으로, 성능 평가를 통하여 XIR-Branching이 기존 방법들에 비해 수십에서 수백배 효과적이고 확장성 또한 뛰어남을 보인다.

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.