• 제목/요약/키워드: Retrieval of XML Documents

검색결과 106건 처리시간 0.022초

효율적인 검색을 위한 Tree 형태의 XML 문서 구조 모델 (XML Structured Model of Tree-type for Efficient Retrieval)

  • 김영란
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.27-32
    • /
    • 2004
  • XML 문서가 DTD를 포함하지 않거나 여러 곳에서 XML문서를 모았을 때, 그 구조는 비정규적일 수 있다. 비정규적인 구조를 가지는 문서들에 대해 정확한 구조적 질의를 작성하는 것은 어려운 일이다. 이 논문에서는 XML 문서의 효율적인 관리와 검색을 위한 XML 문서 모델과 구조적 검색 방법을 제안한다. 이를 위해 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 정보를 갖는 고정된 크기의 LETID를 사용하고, 구조 정보 검색을 위한 부모 및 자식 엘리먼트 검색 알고리즘을 제시하였다. 제안된 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현할 수 있을 뿐만 아니라. 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다. 또한, 특정 엘리먼트의 부모. 자식, 형제에 대한 다양한 구조 검색을 효율적으로 지원할 수 있는 효과가 기대된다.

  • PDF

XML 정보검색의 효율적 전처리를 위한 문서여과 알고리즘 (Document Filtering Algorithm for Efficient Preprocessing of XML Information Retrieval)

  • 공용해;김명숙
    • 한국산학기술학회논문지
    • /
    • 제6권1호
    • /
    • pp.1-11
    • /
    • 2005
  • 본 논문은 다수의 XML문서들을 대상으로 하는 XML 정보검색에서, XML의 효율적 질의검색을 위한 전처리 방법을 제안한다. 기존의 전처리 방법은 질의의 키워드에 대하여 XML 문서를 파싱하거나, 질의와 XML 문서로부터 생성된 시그너처 정보를 비교하여 XML 문서를 여과한다. 그러나 이러한 방법은 질의에 종속적이며 다량의 XML 문서들이 존재할 경우 매우 비효율적이다. 이를 위하여, 본 연구는 온톨로지를 사용하여 서로 다른 구조와 속성을 갖지만 동일 영역의 정보를 포함하고 있는 XML 문서에 적용 가능한 포괄적 DTD를 생성하고, 이를 이용하여 검색 영역에 포함되지 않는 불필요한 XML문서를 여과한다. 예제 XML 문서를 적용하여 제안한 문서여과 알고리즘의 성능을 테스트한다.

  • PDF

XML 문서의 효율적인 검색과 관리를 위한 SCOF 모델 (Service-centric Object Fragmentation Model for Efficient Retrieval and Management of XML Documents)

  • 정창후
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.595-598
    • /
    • 2007
  • XML 문서가 기하급수적으로 증가하면서 XML 문서를 처리하는 방법론에 대한 많은 논의가 있어왔다. 본 논문에서는 두 가지 중요한 목적을 가지고 XML 정보 검색 및 관리 시스템을 개발하는데, 첫 번째는 질의에 적합한 내용을 쉽고 빠르게 검색해서 제공하는 것이고, 두 번째는 시스템의 부담을 최소화하면서 효율적이고 안정적인 관리 기능을 제공하는 것이다. 이렇게 실용적인 시스템을 개발하는 핵심 기술은 XML 문서를 어떻게 효과적으로 분할하여 구조적으로 서비스하는가에 달려 있다. 이러한 목적을 달성하기 위하여 본 논문에서는 SCOF(Service-centric Object Fragmentation) 모델을 제안한다. SCOF 모델은 XML 데이터베이스 관리자에 의해서 정의되는 변환 규칙(conversion rule)을 이용하여 문서를 분할하는 준분할(semi-decomposition) 저장 방식이다. SCOF 모델을 사용한 키워드 기반 검색은 전형적인 XML 질의 언어처럼 문서의 특정 엘리먼트나 속성 값을 이용하여 검색을 수행할 수 있다. 비록 이러한 접근법이 XML 문서 컬렉션에 대한 관리자의 지식을 필요로 한다고 하더라도, 개별 문서의 크기나 전체 문서의 양에 상관없이 검색과 관리를 효율적으로 수행할 수 있기 때문에 실용적인 시스템을 구축할 수 있다는 장점이 있다.

  • PDF

MIRAGE-III 디지털도서관에서 가상문서 검색 서버의 설계 및 구현 (Design and Implementation of a Retrieval Server for Virtual Documents in the MIRAGE-III Digital Library)

  • 이용배;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권2호
    • /
    • pp.219-230
    • /
    • 2002
  • 인터넷이용의 급증에 따라 지식정보화사회 전반의 작업들이 분산환경의 디지털도서관에 저장되어 있는 멀티미디어 컨텐츠를 쉽고 신속하게 찾아 새로운 정보를 생성 또는 공유하는 작업을 통해 이루어진다. 이를 위해 핵심적으로 연구해야 할 부분은 원격지에 흩어져 있는 정보를 효과적으로 연결시켜서 의미있고 일관된 형태로 보여지도록 하는 것이다. 이 목적을 달성하기 위해 디지털도서관에서는 물리적으로 홑어져 있는 정보들이 논리적으로 일관되게 표현될 수 있는 가상공간을 제공해야 하며 가상공간에서 정보가 표현되었을 때 사용자가 원하는 정보를 신속하게 수집하여 제시할 수 있어야 한다. 가상문서(Virtual Document)란 특정 저장장소에 저장되어 존재하던 물리적 문서(Physical Document)들을 대상으로 사용자에게 필요한 일부분 또는 전체를 동적으로 연결하여 통합한 문서를 의미한다. MIRAGE-III 디지털도서관에서는 일반 텍스트문서와 XML로 기술된 구조화된 가상문서를 대상으로 내용기반 검색을 수행한다. 이 시스템에서는 XML 문서구조를 기반으로 부분문서의 검색이 가능하며 문서의 속성 및 계층구조에 대한 검색과 문서간의 링크관계를 이용한 검색도 가능하다. 본 논문에서는 MIRAGE-III 디지털도서관에서의 질의어처리기 및 검색기를 설계하고 구현한 방법론에 대하여 기술한다.

XML 문서 검색을 위한 구조 기반 클러스터링 (Structure-based Clustering for XML Document Retrieval)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1357-1366
    • /
    • 2004
  • 웹에서 효율적인 정보 관리와 데이터 교환을 위해 XML의 중요성이 증가함에 따라 XML의 구조 통합과 구조 검색에 대한 연구가 진행되고 있다. 구조가 정의되어 있는 XML 문서의 구조 검색은 스키마 또는 DTD를 통해 가능하다 그러나 DTD나 스키마가 정의되어 있지 않은 XML 문서에 대한 검색은 기존의 검색 방법을 적용할 수 없다. 그러므로 이 논문에서는 구조 정보가 주어지지 않은 많은 양의 XML 문서를 대상으로 구조를 빠르게 검색하기 위한 기반 연구로써 새로운 클러스터링 기법을 제안한다. 먼저 각 문서로부터 빈발한 구조의 특성을 추출한다. 그리고 추출된 빈발 구조를 문서의 대표 구조로 하여 유사 구조기반의 클러스터링을 수행한다. 이것은 서로 다른 구조의 전체 문서를 대상으로 검색하는 것보다 신속하게 구조 검색을 할 수 있도록 한다. 또한 유사한 구조들로 그룹화되어 있는 클러스터들을 기반으로 XML 문서에 대한 구조 검색을 수행한다. 아울러 구조 검색의 적용 방법을 기술하고, 그에 대한 결과의 예를 보여 제안 기법의 효율성을 증명한다.

링크 질의를 통한 XML 문서의 검색 기법 (Retrieval Scheme of XML Documents Using Link Queries)

  • 문찬호;강현철
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.313-326
    • /
    • 2001
  • Web 문서를 기술하기 위해 차세대 표준으로 제안된 XML은 Web 기반의 여러 응용 분야에서 널리 사용되고 있으며, Web 상의 XML 문서들은 서로 하이퍼링크를 통해 연결되어 있다. 현재까지 대부분의 XML 관련 연구들은 XML 문서의 효율적인 저장, 관리 및 검색을 위한 XML 저장 시스템을 대상으로 하고 있으며, XML 링크를 지원하는 질의어의 개발이나 링크를 활용한 XML 검색 시스템의 개발에 대한 연구는 미흡하다. 본 논문에서는, XML 링크 질의 표현을 위한 XML 질의어의 확장과 링크 질의 처리 기법을 제시한다. 링크 질의는 하나의 XML 문서(질의 문서)와 질의 문서 내의 링크로 참조되는 XML 문서(참조 문서)들의 내용을 검색하는 것이다. 참조 문서의 검색을 위해서 현재는, 참조 문서에 대한 질의를 수작업으로 생성, 처리, 그리고 그 결과의 리턴을 반복적으로 수행하는 방법이 사용되고 있다. 본 논문의 링크 질의 처리 목적은 한번의 질의 입력을 통해 추가적인 수작업 없이 참조 문서(들)에 대한 검색 결과까지 얻을 수 있는 기능을 제공하는 것이다. 기존 수작업 기반과 본 논문의 링크 질의 처리의 성능을 비교, 분석한 결과, 참조 문서로의 링크가 많을수록 수작업 기반에 비하여 질의 처리 시간이 줄어들고, 질의 문서가 저장된 사이트에 참조 문서가 많이 있을수록, 질의 처리 시간이 줄어들었다.

  • PDF

XML 문서의 공통 구조를 이용한 클러스터링 기법 (A Clustering Technique using Common Structures of XML Documents)

  • 황정희;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권6호
    • /
    • pp.650-661
    • /
    • 2005
  • 인터넷의 성장으로 인해 반구조적인 문서의 표준인 XML 문서의 사용이 증가하고 있고 이에 따라 XML 문서의 통합과 검색을 위한 연구가 많이 진행되고 있다. 효율적인 문서의 통합과 검색을 위한 기초 작업은 유사 구조의 XML 문서를 클러스터링 하는 것이다. 기존 연구의 XML 문서 클러스터링에서는 문서간의 구조적 유사도를 이용하여 클러스터를 생성한다. 그러나 이러한 방법은 문서간의 구조적 유사성외 정확한 측정 기준을 만들기 어렵고, 반복적인 유사도의 비교로 인해 처리 속도가 느리다는 단점이 있다. 이러한 문제점을 개선하기 위하여 이 논문에서는 많은 데이타에도 유연하게 적용할 수 있는 트랜잭션 데이타를 위한 클러스터링 알고리즘을 적용하는 새로운 클러스터링 방법을 제안한다. 이 논문에서 제안하는 클러스터링 방법은 하나의 DTD나 XML 스키마를 공유하는 문서 집합이 아닌 스키마가 없는 다양한 구조의 XML 문서들을 대상으로 공통 구조를 이용한다. 공통 구조를 이용하기 위하여 XML 문서의 트리 모델에서 구조를 분리하여 빈발 구조를 추출하고 이를 기반으로 클러스터링을 수행한다. 아울러, 기존 연구와의 비교 및 실험을 통해 제안 기법의 효율성을 보인다.

XML 문서에 포함된 구조 정보의 표현과 검색 (Representing and retrieving the Structured Information of XML Documents)

  • 조윤기;조정길;이병렬;구연설
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.361-366
    • /
    • 2001
  • 웹의 발전으로 인터넷 상의 정보 양이 증가하면서 XML을 이용하여 이들 정보를 효율적으로 저장하고 검색하기 위한 많은 연구들이 진행되고 있다. 이 논문에서는 XML 문서의 효율적인 관리와 구조 검색을 위해 구조 정보 표현과 검색 메카니즘을 제안한다. 기존의 방법은 특정 엘리먼트의 부모, 자식, 형제 엘리먼트에 대한 다양한 구조 검색을 효율적으로 지원하지 못한다. 이 논문에서는 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 부모 노드와 현재 노드의 계층 정보, 형제 노드 및 동일한 형제 노드의 순서 정보를 갖는 고정된 크기의 LETID를 제안한다. 또한, 구조 정보를 검색하기 위해 내용 색인, 구조 색인 그리고 애트리뷰트 색인 모델과 구조 정보 검색 알고리즘을 제안한다. 제안한 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현 할 수 있을 뿐 아니라 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다.

  • PDF

UNISQL/X를 이용한XML 문서 저장 시스템 설계 및 구현 (Design and Implementation of XML Documents Storage System using UNISQL/X)

  • 안병태;김현아
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.38-44
    • /
    • 2001
  • 최근 인터넷의 발전으로 인하여 정보교환을 위한 표준으로 XML에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 객체관계 데이터베이스인 uniSQL/X를 이용한 XML 문서 저장 시스템 설계하고 구현하였다. 관계 데이터베이스와 객체지향 데이터베이스의 장점을 수용한 객체관계 데이터베이스(Object-Relational Database : ORDB)를 이용하여 XML 문서 저장 모델을 설계하여 XML 문서의 구조적인 정보를 효과적으로 표현할 수 있다. XML 문서의 빈번한 수정이 용이하도록 분할저장 방식을 사용하였고, DTD에 관계없이 XML 문서를 저장할 수 있도록 DTD 독립적인 모델을 제안하였다. 또한 데이터의 중복문제를 해결함으로써 검색 속도가 향상되었다

  • PDF

메타정보 인터페이스를 이용한 이질 구조 분석 XML문서 통합 검색 (Integrated Information Retrieval with Metadata Interface for Heterogeneous Distributed XML Documents)

  • 류성준;황재문;김태훈;남영광
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권11호
    • /
    • pp.1505-1518
    • /
    • 2004
  • 본 논문은 구조적, 의미론적 이질성을 가진 분산 XML 문서의 통합 검색을 위해 반자동으로 생성된 인터페이스를 통해 각 지역 문서에 대한 질의를 생성하여 검색하는 방법을 제안한다. 본 시스템에서는 데이타 통합을 위한 메타데이타 인터페이스인 DDXMI(Distributed Documents XML Metadata Interface)를 정의하고, 분산 데이타에 대한 DTD를 입력으로 받아 사용자로 하여금 전역 DTD와 각 지역 DTD 간의 의미 차이를 극복하기 위한 사용자 인터페이스 생성 방법을 제안하였다. 전역 DTD와 지역 DTD의 특성을 고려하여 인덱스 매핑과 그에 필요한 함수 이름의 매핑 정보를 기반으로 DDXMI가 자동으로 생성된다. XML 질의 언어인 Quilt를 사용하여 생성된 DDXMI를 통해 각 지역 문서에 적합한 질의를 생성, 수행한다 사용자는 검색 대상 문서의 스키마와 통합스키마의 구조를 잘 알고 있다고 가정하였다. XML로 만들어진 석박사 논문, 논문지, 연구보고서에 대한 소규모, 중규모 전역 DTD를 만들어 실제로 질의를 생성하여 검색 결과를 검증할 수 있도록 하였다. 본 시스템은 JavaCC와 Java 서블릿을 이용하여 개발하였다.