• 제목/요약/키워드: Large XML Documents

검색결과 60건 처리시간 0.019초

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF

XML 기반의 대용량 유사 문서 편집기/변환기 구현 (Implementation of an XML-Based Editor/Transformer for Large Volume of Similar Documents)

  • 황인준
    • 한국전자거래학회지
    • /
    • 제9권1호
    • /
    • pp.21-38
    • /
    • 2004
  • 최근 웹이 보편화되면서 웹은 이제 거대한 정보의 보고로서 중요한 의미를 가지게 되었다. 현재 웹 상에 존재하는 많은 문서들은 HTML로 작성되어 있다. HTML은 간단하고 배우기가 쉬운 반면, 고정된 태그 등으로 정보 검색에 있어서 비효율적이다. 이러한 단점을 보완하기 위해 XML이 제안되어 현재 다양한 응용에 활용되고 있다. XML은 HTML에 비해 구조적이고 또한 정보의 의미를 적절하게 표현할 수 있어 정보 검색에 있어서 훨씬 효과적이다. 이러한 추세에 맞추어 본 논문에서는 XML 문서를 다양하고 효과적으로 생성하고 관리하는 XML 문서 관리기를 제안한다. 시스템의 특징으로는 첫째, 문서의 양식을 반영하는 폼을 제공하여 XML을 잘 모르는 일반 사용자도 쉽게 새로운 문서를 작성할 수 있게 하였으며 둘째, 이미 존재하는 비슷한 구조를 가지는 HTML문서에 대해서는 자동적인 XML문서로의 변환을 제공하여 기존의 HTML문서도 XML를 통해 관리와 검색을 가능하게 한다. 마지막으로 GUI상에서 문서의 DTD를 편집할 수 있게 하여 DTD 작성을 용이하게 하였다.

  • PDF

XML 데이터 처리에서 시맨틱 (Semantics in XML Data Processing)

  • 진민
    • 한국산학기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.1327-1335
    • /
    • 2011
  • XML은 계층적이고 스스로 기술하는 구조를 가지는 데이터를 표현하기에 좋지만 XML 자체는 시맨틱을 가지고 있지 않다. 하지만 XML이 널리 새로운 응용에서 사용됨에 따라 XML 시맨틱이 필요하게 되었다. 이 논문은 XML 데이터 처리 환경에서 시맨틱을 조사하였다. XML 시맨틱은 사용 용도에 따라 구조적 시맨틱, 관계 시맨틱, 확장 시맨틱과 시맨틱 웹으로 분류할 수 있다. 그리고 질의 처리와 같이 XML 문서 관리에서 활용하기 위해 확장된 관계 시맨틱을 제안한다.

XML 질의의 효율적인 전처리를 위한 시그너처 방법 (A Signature Method for Efficient Preprocessing of XML Queries)

  • 정연돈;김종욱;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.532-539
    • /
    • 2003
  • 본 논문은 대량의 XML 문서들이 존재하는 정보 검색 시스템에서, XML 질의의 효과적인 처리를 위한 선 처리 방법을 제안한다. 선 처리를 위해 시그너처 기반의 접근 방식을 사용한다. 기존의 (평면적인 문서를 사용하는) 정보 검색 시스템에서는, 대부분 사용자 질의들이 키워드와 부울 연산자로 구성되고, 따라서 시그너처 역시 평면적인 형태로 구성하고 있다. 하지만, XML 기반의 정보 검색 시스템에서는 사용자 질의가 경로 질의의 형태를 띄게 된다. 따라서, 평면적인 시그너처는 XML 문서에 대하여 효과적이지 못하다 본 논문에서는 XML 문서를 위한 구조화된 시그너처 방법을 제안한다. 실험을 통해 제안하는 방법의 성능을 평가한다.

엘리먼트의 중첩 문제를 해결한 Shared Inlining 저장 기법 (A Shared Inlining Method for Resolving the Overlapping Problem of Elements)

  • 홍은지;이영호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권5호
    • /
    • pp.411-420
    • /
    • 2008
  • 웹 환경에서 정보 표현과 교환을 위한 표준 방식으로 널리 사용되고 있는 XML 문서의 양은 급속히 증가하고 있으며, 대용량의 XML 문서도 많이 생산된다. 이러한 XML 문서들을 RDBMS에 효율적으로 저장하고 검색하는 연구가 활발히 진행되어 왔는데 이들 연구들 중에서 Shared Inlining 저장 방법이 높은 검색 효율을 보인다. Shared Inlining 방법은 DTD의 정보를 분석하여 XML 문서를 노드의 성분별로 분할하여 관계형 데이타베이스로 저장하는 기법이다. 본 논문은 기존의 Shared Inlining 방법에서 여러 하위 노드를 가지는 엘리먼트에서 발생되는 중첩 문제를 해결하기 위한 기법을 제안한다. 이 방법에서는 DTD 정의에 맞게 XML 문서를 Shared Inlining 구조로 저장하고 검색의 정확성을 높인다.

대용량 XML 문서에서 효율적인 갱신을 위한 비트-패턴 기반의 XML 레이블링 기법 (XML Labeling Scheme based on Bit-Pattern for Efficient Updates of Large Volume of XML Documents)

  • 서동민;박용훈;임종태;김명호;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.130-134
    • /
    • 2010
  • 기존에 제안된 XML 레이블링 기법은 XML 문서 변경 시, 문서 내 노드들의 구조 관계를 정확하게 유지하기 위해 재레이블링을 수행하거나 한 노드의 레이블이 많은 정보를 표현할 수 있는 레이블링 기법을 사용한다. 하지만, 대용량 XML 문서 내에서의 재레이블링은 많은 비용이 요구되고, 많은 정보를 표현할 수 있는 레이블링 기법은 많은 저장 공간이 요구돼 질의 처리 성능이 저하되는 문제를 야기한다. 그래서 본 논문에서는 재레이블링을 피하고 질의 처리 성능을 향상시키기 위해 최적화된 저장 공간을 사용하는 비트-패턴 기반의 레이블링 기법을 제안한다. 제안하는 비트-패턴 기반의 레이블링 기법은 노드들의 구조관계를 하나의 비트열에 표현함으로써 기존에 제안된 레이블링 기법들에 비해 우수한 성능을 가진다.

Form 기반의 XML 문서 편집기 구현 (Implementation of Form-based XML Document Editor)

  • 고탁현;황인준
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.267-276
    • /
    • 2002
  • 트리 구조를 기반으로 하는 기존의 XML 문서 편집은 사용자고 하여금 XML에 대한 사전 지식을 필요로 한다. 그러나 XML 문서의 작성과 활용이 보편화되기 위해서는 이러한 문서 편집 방식에서 벗어나 누구나 쉽게 작성할 수 있는 환경이 제공되어야 한다. 본 논문에서는 트리 방식의 문서 편집뿐만 아니라 문서의 양식에 근거한 form을 기반으로 하는 편집 환경도 지원하는 새로운 XML 문서 편집기를 제안한다. 특히, form을 이용한 문서 편집은 기업이나 관공서 등과 같이 정형화된 양식을 이용하여 다량의 XML 문서를 작성하는 경우에 아주 효과적이다. Form 자체는 HTML 문서로 표현이 되고 이러한 HTML form은 template XML 문서와 XSL 문서를 이용한 XSLT 적용을 통해 자동적으로 생성된다. 생성된 HTML form은 내장된 브라우저를 통해 사용자에게 보여지며, foam에 입력된 사용자 데이터는 XML 문서로 변환되어 XML 저장소에 저장된다.

노드 범위와 Pre-Order List를 이용한 XML문서의 효율적 색인기법 (An Efficient Index Scheme of XML Documents Using Node Range and Pre-Order List)

  • 김영;박상호;이주홍
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.23-32
    • /
    • 2006
  • 본 논문에서는 최근 방대해지는 XML문서의 효율적인 관리를 위해서 노드 범위와 Pre-Order List를 이용한 XML문서들의 인덱싱 기법을 제안한다. 기존의 제안된 인덱싱 기법들은 크게 패스(Poth)와 넘버링(Numbering)을 기반으로 하고 있다. 그러나, 패스기반의 인덱싱 기법은 중간 노드와 최하위 노드의 검색과 조상-후손관계의 조인연산에 의해 효율이 떨어지는 단점을 가진다. 또한, 넘버링기반의 방법은 XML문서의 모든 노드에 번호를 부여하기 때문에 검색-오버헤드가 증가하는 문제를 가지며, 인덱스를 위해 많은 공간이 낭비된다. 따라서 본 논문에서는 이러한 문제점들을 해결하기 위해서 모든 XML문서에 노드범위 (Node Range)와 Pre-Order List를 이용한 인덱싱 기법을 제안한다. 이 방법은 유사한 구조의 XML문서가 많을수록 인덱스의 크기를 효과적으로 줄일 수 있으며, 검색 성능을 효율적으로 높일 수 있다. 또한 XML문서의 삽입, 삭제가 용이하다.

  • PDF

Clustering Techniques for XML Data Using Data Mining

  • Kim, Chun-Sik
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2005년도 e-Biz World Conference 2005
    • /
    • pp.189-194
    • /
    • 2005
  • Many studies have been conducted to classify documents, and to extract useful information from documents. However, most search engines have used a keyword based method. This method does not search and classify documents effectively. This paper identifies structures of XML document based on the fact that the XML document has a structural document using a set theory, which is suggested by Broder, and attempts a test for clustering XML document by applying a k-nearest neighbor algorithm. In addition, this study investigates the effectiveness of the clustering technique for large scaled data, compared to the existing bitmap method, by applying a test, which reveals a difference between the clause based documents instead of using a type of vector, in order to measure the similarity between the existing methods.

  • PDF

정보 검색 기술을 이용한 대규모 이질적인 XML 문서에 대한 효율적인 선형 경로 질의 처리 (Efficient Linear Path Query Processing using Information Retrieval Techniques for Large-Scale Heterogeneous XML Documents)

  • 박영호;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.540-552
    • /
    • 2004
  • 본 논문에서는 대규모 이질 XML 문서들에 대한 부분 매치 질의를 효과적으로 처리하는 새로운 방법 XIR-Linear를 제안한다. XPath 질의는 XML 문서를 표현하는 트리 구조에 대한 경로 표현식 (path expression)으로 쓰여진다. 주요한 형태의 XPath 질의는 부분 매치 질의(partial match query)이다. XIR-Linear의 목적은 이질적인 스키마들을 가진 대규모 문서들에 대한 부분 매치 질의를 효과적으로 지원하는 것이다. XIR-Linear는 관계형 테이블을 이용한 스키마-레벨 방법에 기반을 두고, 역 인덱스 (inverted index) 기술을 사용하여 XPath 질의 처리의 효율성을 획기적으로 향상시킨다. 본 방법은 레이블 경로(label path)를 덱스트로 간주하고 레이블 경로 내의 레이블(label)들을 텍스트 내에 있는 키워드(keyword)로 간주한 후, 레이블들을 정보 검색 기술을 이용하여 인덱스 함으로써 전통적인 방법들에서 사용된 스트링 매치(string match) 보다 효율적인 방법으로 질의와 매치되는 레이블 경로들을 찾을 수 있도록 하였다. 성능 평가에서는 인터넷에서 수집한 XML 문서들을 사용하여 기존의 관계형 테이블을 이용하는 XRel, XParent와 비교 실험함으로써, 제안한 방법의 효율성을 입증한다. 실험을 통해 XIR-Linear가 실험 범위 내에서 XRel 이나 XParent에 비해 수십 배 이상 좋은 성능을 보이며, XML 문서 수의 증가함에 따라 더욱 우수하다는 것을 보인다.