• 제목/요약/키워드: Relational schema

검색결과 145건 처리시간 0.026초

정보 검색 기술을 이용한 대규모 이질적인 XML 문서에 대한 효율적인 선형 경로 질의 처리 (Efficient Linear Path Query Processing using Information Retrieval Techniques for Large-Scale Heterogeneous XML Documents)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.540-552
    • /
    • 2004
  • 본 논문에서는 대규모 이질 XML 문서들에 대한 부분 매치 질의를 효과적으로 처리하는 새로운 방법 XIR-Linear를 제안한다. XPath 질의는 XML 문서를 표현하는 트리 구조에 대한 경로 표현식 (path expression)으로 쓰여진다. 주요한 형태의 XPath 질의는 부분 매치 질의(partial match query)이다. XIR-Linear의 목적은 이질적인 스키마들을 가진 대규모 문서들에 대한 부분 매치 질의를 효과적으로 지원하는 것이다. XIR-Linear는 관계형 테이블을 이용한 스키마-레벨 방법에 기반을 두고, 역 인덱스 (inverted index) 기술을 사용하여 XPath 질의 처리의 효율성을 획기적으로 향상시킨다. 본 방법은 레이블 경로(label path)를 덱스트로 간주하고 레이블 경로 내의 레이블(label)들을 텍스트 내에 있는 키워드(keyword)로 간주한 후, 레이블들을 정보 검색 기술을 이용하여 인덱스 함으로써 전통적인 방법들에서 사용된 스트링 매치(string match) 보다 효율적인 방법으로 질의와 매치되는 레이블 경로들을 찾을 수 있도록 하였다. 성능 평가에서는 인터넷에서 수집한 XML 문서들을 사용하여 기존의 관계형 테이블을 이용하는 XRel, XParent와 비교 실험함으로써, 제안한 방법의 효율성을 입증한다. 실험을 통해 XIR-Linear가 실험 범위 내에서 XRel 이나 XParent에 비해 수십 배 이상 좋은 성능을 보이며, XML 문서 수의 증가함에 따라 더욱 우수하다는 것을 보인다.

비유일 외래키 조합 복합키 기반의 사실테이블 모델링과 MDX 쿼리문 작성법 (A Nonunique Composite Foreign Key-Based Approach to Fact Table Modeling and MDX Query Composing)

  • 유한주;이덕성;최인수
    • 한국컴퓨터정보학회지
    • /
    • 제14권2호
    • /
    • pp.185-197
    • /
    • 2006
  • 스타 스키마는 중앙에 사실테이블이 있고 이 주변에 여러 개의 차원테이블이 감싸고 있는 형태로 되어있다. 사실테이블에서의 각 행은 여러 외래키로 구성된 하나의 복합키와 이 복합키와 관련된 여러 측정값으로 구성된다. 복합키의 구성원인 각 외래키는 각 하나씩의 차원테이블과 관련을 맺고 있다. 그런데 문제가 되는 것은 OLAP 스키마에서는 사실테이블에서의 복합키와 측정값이 1 : 1의 관계를 맺고 있는 것으로 되어있는데 비해서 실제의 애플리케이션 특히 금융 애플리케이션에 있어서는 복합키와 측정값이 1 : N의 관계를 맺게 된다는 점이다. 따라서 1 : N의 관계를 1 : 1로 만들기 위해서 예를 들면 SQL 데이터베이스에서 미리 필요한 처리를 한 다음 이 선처리 결과를 OLAP 데이터베이스에 입력하는 방법을 취하게 되는데, 이 방법에도 여러 문제가 있는 것으로 알려져 있다. 특히 어떤 경우에는 결과값이 틀리게 나오기도 한다. 본 연구에서는 1 : N의 관계를 사실테이블에 유지를 하면서도 어떠한 선처리도 하지 않고 정확한 결과값을 산출할 수 있는 사실테이블의 모델링과 MDX 쿼리문 작성법을 제안하고 있다.

  • PDF

비유일 외래키 조합 복합키 기반의 사실테이블 모델링과 MDX 쿼리문 작성법 (A Nonunique Composite Foreign Key-Based Approach to Fact Table Modeling and MDX Query Composing)

  • 유한주;이덕성;최인수
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.177-188
    • /
    • 2007
  • 스타 스키마는 중앙에 사실테이블이 있고 이 주변에 여러 개의 차원테이블이 감싸고 있는 형태로 되어있다. 사실테이블에서의 각 행은 여러 외래키로 구성된 하나의 복합키와 이 복합키와 관련된 여러 측정값으로 구성된다 복합키의 구성원인 각 외래키는 각 하나씩의 차원테이블과 관련을 맺고 있다. 그런데 문제가 되는 것은 OLAP 스키마에서는 사실테이블에서의 복합키와 측정값이 1 : 1의 관계를 맺고 있는 것으로 되어있는데 비해서 실제의 애플리케이션 특히 금융 애플리케이션에 있어서는 복합키와 측정값이 1 : N의 관계를 맺게 된다는 점이다. 따라서 1 : N의 관계를 1 : 1로 만들기 위해서 예를 들면 SQL 데이터베이스에서 미리 필요한 처리를 한 다음 이 선처리 결과를 OLAP 데이터베이스에 입력하는 방법을 취하게 되는데, 이 방법에도 여러 문제가 있는 것으로 알려져 있다. 특히 어떤 경우에는 결과 값이 틀리게 나오기도 한다. 본 연구에서는 1 : N의 관계를 사실테이블에 유지를 하면서도 어떠한 선처리도 하지 않고 정확한 결과값을 산출할 수 있는 사실테이블의 모델링과 MDX 쿼리문 작성법을 제안하고 있다.

  • PDF

프리픽스 매취 조인을 이용한 XML 문서에 대한 분기 경로 질의 처리 (Branching Path Query Processing for XML Documents using the Prefix Match Join)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권4호
    • /
    • pp.452-472
    • /
    • 2005
  • 본 논문에서는 정보 검색(Information Retrieval, IR) 기술과 새로운 인스턴스 조인 기술을 이용하여 방대하고도 이질적인 XML 문서들에 대한 부분 매취 질의(Partial Match Query)를 처리하는 새로운 방법으로, XIR-Branching을 제안한다. 부분 매취 질의는 경로 표현식에 조상-후손 관계성(descendent-or-self axis) "//"를 가지는 질의로 정의되며, 선형 경로 표현식(Linear Path Expression, LPE)과 분기 경로 표현식(Branching Path Expression, BPE)으로 구분된다 일반적 형식의 부분 매취 질의는 분기하는 경로들을 만드는 분기 조건들을 가진다. XIR-Branching의 목적은 이질적인 스키마들을 가진 방대한 문서들에 주어지는 부분 매취 질의를 효과적으로 지원하는 것이다. XIR-Branching은 관계형 테이블을 사용하는 전통적인 스키마-레벨 방법들(XRel, XParent, XIR-Linear[21])에 그 기초를 두고, 역 인덱스(inverted index) 기술과 새롭게 소개하는 인스턴스-레벨 조인 기술인 프리픽스 매취 조인(Prefix Match Join)을 사용하여 질의 처리 효율성과 확장성을 향상시킨다. 전자는 LPE를 처리하기 위한 기술로 XIR-Linear[21]에서 사용한 방법이다. 후자는 BPE를 처리하기 위한 기술로 본 논문에서 새롭게 제안하는 기술이며, 전통적인 방법에서 사용하는 포함 관계 조인(containment join) 보다 효과적인 방법으로 결과 노드(result node)를 찾는다. 기존 연구인 XR-Linear는 역 인덱스를 사용하여 LPE 처리에 우수한 성능을 보이고 있지만, BPE 처리 방법을 다루지 않았다. 그러나. 더욱 구체적이고 일반적인 질의를 위해서는 BPE도 처리할 수 있어야 한다. 본 논문에서는 BPE까지 다룰 수 있는 새로운 방법으로 기존의 XIR-Linear를 확장한 XIR-Branching을 제안한다. 제안하는 방법은 스키마-레벨 방법으로 질의 대상 후보 집합을 크게 줄인 후, 인스턴스-레벨 조인 방법인 프리픽스 매취 조인으로 최종 결과 집합을 효과적으로 구하는 방법이다. XIR-Branching의 우수성을 보이기 위해 기존 BP포 처리 방법인 XRei, XParent와 비교 분석을 수행한다. 마지막으로, 성능 평가를 통하여 XIR-Branching이 기존 방법들에 비해 수십에서 수백배 효과적이고 확장성 또한 뛰어남을 보인다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.