• 제목/요약/키워드: XML Indexing

검색결과 111건 처리시간 0.028초

객체-관계형 데이터베이스에 의한 XML문헌의 검색성능 평가 (Retrieval Performance of XML Documents Using Object-Relational Databases)

  • Kim, Hee-Sop
    • 정보관리학회지
    • /
    • 제21권2호
    • /
    • pp.189-210
    • /
    • 2004
  • 본 연구의 목적은 객체-관계형 데이터베이스 접근에 의한 XML 문헌의 검색 성능을 평가하는 것이다. 본 논문에서는 INEX(Initiative for the Evaluation of XML retrieval)에서의 XML 문헌의 색인 및 검색 방법에 대하여, 그리고 실험 방법론들에 대하여 기술하고 있다. 대부분의 전통적인 정보검색 성능평가 실험에서와 같이 본 연구에서 사용된 테스트 콜렉션(test collection)은 문헌(즉, XML 문헌), 토픽, ad hoc 검색, 적합성 판단, 평가로 이루어졌다. 그리고 ORDBMS 기술들을 기반으로 개발된 전용 XML 데이터베이스의 일종인 EXIMA$^{TM}$ Supply을 사용하여 INEX에서 제공한 대규모 XML 문헌들을 저장하고 검색하였다. 본 논문에서는 실험에서 사용한 시스템에 대한 개략적인 기능들과 색인 및 검색 과정 그리고 INEX 2002에서의 성능평가 결과에 대하여, 앞으로 개선되어야 할 기능에 대하여 논하고 있다.

순차 패턴 마이닝을 사용한 두 XML 문서간 최대 유사 경로 추출 (Extracting Maximal Similar Paths between Two XML Documents using Sequential Pattern Mining)

  • 이정원;박승수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.553-566
    • /
    • 2004
  • 최근 XML 저장 기법, 질의 최적화, 인덱싱 등의 XML 관련 기술이 활발히 연구되고 있다. 이와 관련하여 하나의 DTD나 XML Schema로 정의된 고정 구조를 공유하는 문서 집합이 아니라 다양한 구조를 가진 문서 집합인 경우 다중 문서간의 구조적 유사성이나 차이점 등을 파악할 필요가 있다. 예를 들어 서로 다른 사이트나 문서 관리 시스템에서 도출된 문서들을 합병하거나 분류할 필요가 있을 때, 문서를 처리하기 위해 공유 구조를 발견하는 일은 매우 중요하다. 본 연구에서는 다양한 문서들의 구조를 구성하는 경로들간의 유사성을 파악하기 위해 기존의 순차패턴 마이닝 알고리즘(1)을 변형하여 두 XML 문서간 최대 유사 경로를 추출한다. 몇 가지 실험을 통해 본 논문에서 제안한 변형된 순차패턴 마이닝 알고리즘이 두 문서간의 최대 유사 경로를 찾아내고 또한 두 문서간의 정확한 공유 경로 및 최대 유사 경로를 정확히 찾을 수 있음을 보인다. 또한 실험 결과 분석을 위해 최대 유사 경로를 기반으로 정의된 유사성 척도가 XML 문서를 정확하게 분류할 있음을 보인다.

사용자 질의를 이용한 XML 태그의 가중치 결정 (Weighting of XML Tag using User's Query)

  • 우선미;유춘식;김용성
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.439-446
    • /
    • 2005
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐만 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있다. 이러한 연구들 대부분이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도를 결정하는 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자의 질의에 바탕을 둔 사용자의 검색 행위를 반영한다. 그리고 기존 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

시그니쳐를 이용한 XML 경로 비교의 최소화 기법 (A Minimization Technique of XML Path Comparison Based on Signature)

  • 장경훈;황병연
    • 한국전자거래학회지
    • /
    • 제17권3호
    • /
    • pp.61-72
    • /
    • 2012
  • XML은 사용자가 태그를 자유롭게 정의할 수 있어 다양한 구조의 문서가 생성된다. 이렇게 작성된 XML 문서를 효율적으로 관리하기 위해 경로의 유사도에 기반한 클러스터링 및 검색에 대한 연구가 진행되어 왔다. 이에 대한 초기 연구인 3차원 비트맵 인덱싱 기법에서는 유사한 XML 문서를 클러스터링하고 검색하기 위해 경로가 인덱스를 구성하는 단위로 사용되었다. 이 기법은 XML 문서의 구조가 변경되었을 때 변경 전의 경로와 변경 후의 경로가 정도에 상관없이 완전히 다른 것으로 인식되는 문제점이 있다. 이에 따라 경로의 유사도를 측정하는 기법들이 제안되었다. 경로의 유사도를 측정하기 위해서는 비교 대상이 되는 두 경로의 노드들을 비교하는데, 이 과정에서 두 경로에 공통으로 존재하지 않는 노드로 인해 불필요한 비교가 발생한다. 하지만 기존의 경로 유사도 기법들은 이러한 점을 고려하지 않았다. 이를 해결하기 위해 본 논문에서는 시그니쳐를 이용하여 경로 간 노드의 비교를 최소화하는 기법을 제안한다. 실제 다양한 구조의 XML 문서를 가지고 성능 평가를 실시하여, 본 논문에서 제안한 기법을 이용했을 때 기존 기법을 이용했을 때보다 약 20%의 성능을 개선시켜 제안한 기법의 우수함을 보인다.

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

기업간통합 XML 메시지의 기록과 색인을 위한 저장 방식 (A Storage Scheme for Logging and Indexing B2Bi XML Messages)

  • 송하주;김창수;권오흠
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권5호
    • /
    • pp.416-426
    • /
    • 2005
  • 기업간통합(business-to-business integration; B2Bi) 시스템은 XML 메시지의 송수신 내역을 고속으로 기록하고 검색할 수 있는 메시지 저장시스템이 필요하다 XML 전용데이타베이스 시스템 또는 XML 데이타타입을 지원하는 관계형데이타베이스는 도입 비용과 기능의 과도함 때문에 메시지 저장시스템으로는 적합하지 않다. XML 데이타를 관계형데이타베이스의 레코드로 분산시켜 저장하는 저장 방식 또한 수행 성능이 떨어지거나 구현이 복잡하므로 사용하기 어렵다. 이에 본 논문은 관계형데이타베이스를 사용하여 메시지 저장시스템을 구현하기 위한 단순한 구조의 메시지 저장 방식을 제안한다. 제안하는 저장방식은 메시지 타입별로 색인필드를 등록하고 색인필드를 통해서만 메시지를 검색한다. 따라서 XQL과 같은 강력한 검색 기능은 지원하지 못하나 비교적 단순한 저장 구조만으로도 고속의 메시지 기록과 제한된 형태의 메시지 검색이 가능하다 제안하는 저장방식을 구현하기 위해서는 세 가지의 데이타베이스 스키마를 사용할 수 있으며 실험 평가를 통해 이들 세 가지의 스키마가 가지는 성능상의 장단점을 평가한다.

XML을 이용한 의상 피스 정보의 구조적 문서 생성 및 탐색을 위한 색인기법에 관한 연구 (A Study on Fashion Pieces Goods Information Indexing and Searching Structured Documents Using XML)

  • 조진애;양옥렬;남명우;이용주;정성태;정석태;이원아
    • 한국산학기술학회논문지
    • /
    • 제7권1호
    • /
    • pp.39-45
    • /
    • 2006
  • 본 연구는 웹기반 3차원 패션몰 구축에서 의류에 대한 정보를 보다 세부적이고 전문적인 정보로 제공하기 위하여 의상 정보를 2차원 재단 패턴의 피스(piece) 정보로 구분한다. 구분된 피스는 의상에 따라 상하종속관계에 해당하는 피스정보별 상세정보를 가중치에 따라 검색하여 SVG(Scalable Vector Graphics) 파일 형태로 제공하도록 설계하였다. 이러한 의상 상세정보를 통해 디자이너가 의상구조의 다양한 조합으로 새로운 제품 디자인이 용이해지고 유사한 형태의 의상 표현이 가능해진다. 이를 통해 패션몰 상품에 대한 전문가적인 의상 분석도 가능해진다. 또한 SVG 형식의 파일을 이용하기 때문에 부하가 많은 쇼핑몰의 정보 표현에도 용이하다. 이를 위해 구축된 정보는 XML로 표준화 할 수 있도록 DTD(Document Type Definition)를 정의하여 검색 시스템을 설계하였다.

  • PDF

연결 리스트를 이용한 3차원 비트맵 인덱싱의 공간 축약 (A Space Compression of Three-Dimensional Bitmap Indexing using Linked List)

  • 이재민;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1519-1522
    • /
    • 2003
  • 기존의 웹 문서나 컨텐츠들의 표현적 한계를 극복하기 위한 방안으로 메타 데이터에 관한 다양한 연구가 수행되어졌고 그 결과의 산물중에 가장 대표적인 것으로 XML을 들 수 있다. XML은 문서의 내용뿐 아니라 구조까지도 기술할 수 있는 장점을 통해 향후 정보 교환에 핵심적인 역할을 할 것으로 기대되어지고 있으며 이에 따라 XML 문서를 효율적으로 저장하고 검색하기 위한 다양한 연구가 진행되고 있다. BitCube는 Bit-wise 연산이 가능한 3차원 비트맵 인덱싱을 사용하여 XML 문서들의 구조적 유사성에 따라 클러스터링하고 사용자의 질의에 대한 처리를 수행하는 인덱싱 기법으로 그것의 빠른 성능을 입증하였다. 그러나 BitCube의 클러스터링은 XML 문서의 경로에 중점을 둔 것이므로 클러스터와 경로가 담고 있는 실제 단어들간에는 연관성이 없으므로 3차원 비트맵 인덱스는 하나의 평면을 제외한 모든 평면이 굉장히 높은 공간 사용량을 갖는 회소행렬이 된다. 본 논문에서는 늘어나는 방대한 문서의 양으로 인한 시스템의 성능 저하를 막고 안정적인 성능을 유지할 수 있도록 기존 연산의 성능을 저하시키지 않으면서 공간을 최소화 할 수 있는 연결 리스트틀 설계하고 3차원 비트맵 인덱스를 연결 리스트로 재구성하는 방법을 제시한다.

  • PDF

접미사 배열을 이용한 JSON 데이터의 경로 기반 검색에 대한 연구 (A Study of Path-based Retrieval for JSON Data Using Suffix Arrays)

  • 김성완
    • 창의정보문화연구
    • /
    • 제7권3호
    • /
    • pp.157-165
    • /
    • 2021
  • 웹, 모바일, IoT 등의 기술을 활용한 다양한 어플리케이션 서비스의 활용과 이에 따른 대용량 데이터 관리의 필요성이 확대됨에 따라 효율적인 데이터 표현 및 교환 방법과 데이터에 대한 질의 처리의 중요성이 증가하고 있다. 간결함을 특징으로 갖는 JSON은 웹 상의 표준 데이터 표현 및 교환 언어인 XML를 대신하여 데이터 교환 및 대용량 데이터 저장의 포맷으로 다양한 영역에서 활용되고 있다. 이는 JSON으로 표현된 대량의 데이터를 효과적으로 접근 및 검색하기 위한 인덱싱 및 질의 처리 기법의 개발이 중요함을 의미한다. 이에 본 논문에서는 계층적 구조를 특징으로 가지는 JSON 데이터를 트리 형태로 모델링 하고 경로 개념을 이용한 인덱싱 및 질의 처리 방안을 제안한다. 특히, 텍스트 검색에서 널리 사용되는 접미사 배열을 활용한 인덱스 구조를 설계하였으며 이를 활용하여 단순 및 복합 경로 기반의 JSON 데이터 질의 처리 방안들을 소개하였다.

무선 방송을 위한 효과적인 XML 스트리밍 (Effective Streaming of XML Data for Wireless Broadcasting)

  • 박준표;박창섭;정연돈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권1호
    • /
    • pp.50-62
    • /
    • 2009
  • 방송 기법을 통한 데이타의 전달은 대역폭 활용의 이점과 에너지 효율성, 확장성으로 인해 무선 모바일 환경에서 효과적인 방법으로 알려져 있다. 본 논문에서는 무선 방송 환경에서 트리 기반의 색인 구조를 사용하기 때문에 이동 사용자의 접근 시간이 증가하는 "질의 처리의 지연 문제"를 다루고 있다. 본 논문에서는 "질의 처리의 지연 문제"를 해결하기 위한 분산 색인 구조와 함께 XML 데이타의 에너지 및 접근 시간 효율적인 방송을 위한 클러스터링 방법을 제안한다. 먼저 분산 색인 구조를 구현하기 위해 엘리먼트의 태그 이름과 애트리뷰트, 그리고 텍스트와 색인 정보를 포함하고 있는 DIX 노드 구조를 제안한다. 모바일 사용자는 DIX 노드에 포함되어 있는 색인 정보를 통해 무선 XML 스트링에서 보다 짧은 지연 시간만으로 원하는 정보에 접근할 수 있다. 또한, 질의 처리를 위한 탐색 범위를 한정시킴으로써 질의 처리에 소요되는 접근 시간과 튜닝 시간을 단축시킬 수 있는 클러스터링 정책을 제안한다. 성능 평가 실험을 통해 제안 방법이 기존의 XML 데이타 방송 기법들에 비해 우수함을 확인할 수 있다.