• 제목/요약/키워드: XML 색인

검색결과 110건 처리시간 0.033초

구조적 문서의 효율적인 검색을 위한 자료 구조와 알고리즘 설계 (Design of Data Structures and Algorithms for Efficient Retrieval of Structured Documents)

  • 김영자;정채영;김현주;배종민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.60-62
    • /
    • 1999
  • SGML이나 XML과 같은 마크업 언어를 사용하여 생성된 구조적 문서에 대한 검색 시스템은 문서의 임의의 부분에 대한 검색을 지원한다. 문서의 구조에 바탕을 둔 다양한 유형의 사용자 질의를 처리하기 위해서는 색인에 필요한 메모리량이 커지게 된다. 색인에 필요한 메모리양을 줄이기 위해, 색인된 노드의 ID에서 찾고자 하는 노드의 ID를 계산할 수 있어야 한다. 그러나 이 경우 각 노드에 ID가 고정되기 때문에 문서의 갱신이 발생할 때 많은 부분이 수정되어야 하기 때문에 갱신에 필요한 오버헤드가 커지게 된다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 하여 노드의 ID를 구성함으로서, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시한다.

  • PDF

대용량 XML 문서의 키워드 검색을 위한 레이블링 기법 (A Labeling Methods for Keyword Search over Large XML Documents)

  • 선동한;황수찬
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.699-706
    • /
    • 2014
  • XML 문서가 점차 복잡해지면서 XML문서의 구조를 알 필요 없이 키워드로만 검색을 하는 키워드 검색 방식이 많이 사용되고 있다. XML문서 내에서 키워드 검색 방식을 사용하기 위해서는 문서 내의 모든 키워드에 레이블을 부여해야 하며, 구조적인 정보 또한 레이블 내에 충분히 표현해야한다. 하지만 기존 레이블링 방법들은 색인을 위한 단순정보만 레이블링 하거나, 증가하는 XML문서의 크기에 대응하기 어려운 형태로 구조적인 정보를 표현한다. 이는 XML문서가 커질수록 키워드검색성능이 떨어지거나, 공간 사용량이 기하급수적으로 증가하는 문제를 야기한다. 따라서 본 논문에서는 대용량 XML문서에 대한 키워드 검색 시 기존 레이블링 방식이 가지고 있던 문제점을 보완하는 새로운 레이블링 방식인 RPLS(Repetitive Prime Labeling Scheme)을 소개한다. 이 방법은 기존 소수 레이블방식을 개선하여 상위 레벨의 소수를 하위 레벨에서 반복 사용할 수 있도록 하여 레이블링을 위해 생성해야하는 소수의 수를 감소시키도록 한 것이다. 본 논문에서는 대용량 XML 문서의 키워드검색에 대한 RPLS 스킴의 효율성 검증을 위해 기존 레이블링 기법들과의 성능 비교 실험 결과도 제시한다.

유사구조를 갖는 XML 문서의 재구성을 위한 점진적인 시스템 설계 (Design of an Incremental System for Reconstruction of Similar Structured XML Documents)

  • 설진안;정계동;최영근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1031-1034
    • /
    • 2003
  • XML은 통합된 데이터 모델을 지원하기 위한 언어로, 특정 분야의 데이터에 대한 친환 및 통합의 필요성이 증대되어지고 있다. 일반적으로 데이터 교환은 다양한 공급자에 의해 독립적으로 운용 및 서비스됨으로서 개별적으로 데이터를 수집해야 하며 재배포 과정 또한 어렵다. 따라서 데이터 재배포 과정을 간소화하고 데이터 교환의 최적화를 위해 데이터 통합을 위한 재구성 방법이 필요하다. 본 논문에서는 특정 분야의 유사한 구조로 구성된 여러 문서를 입력받아 하나의 통합된 문서로 재구성할 수 있는 시스템을 제안한다. 제안된 시스템은 색인기법을 기반으로 추출된 정보를 하나의 문서로 매핑하기 위해 데이터 사전을 선계하고, 하나의 통합된 문서를 점진적인 과정을 통하여 재구성한다 따라서 재구성된 문서는 재배포 과정을 간소화할 수 있으며, 데이터 교환의 최적화는 물론 전자문서교환(EDI)에 있어서 정보교환 능력을 증가시킬 수 있다.

  • PDF

XML을 이용한 의상 피스 정보의 구조적 문서 생성 및 탐색을 위한 색인기법에 관한 연구 (A Study on Fashion Pieces Goods Information Indexing and Searching Structured Documents Using XML)

  • 조진애;양옥렬;남명우;이용주;정성태;정석태;이원아
    • 한국산학기술학회논문지
    • /
    • 제7권1호
    • /
    • pp.39-45
    • /
    • 2006
  • 본 연구는 웹기반 3차원 패션몰 구축에서 의류에 대한 정보를 보다 세부적이고 전문적인 정보로 제공하기 위하여 의상 정보를 2차원 재단 패턴의 피스(piece) 정보로 구분한다. 구분된 피스는 의상에 따라 상하종속관계에 해당하는 피스정보별 상세정보를 가중치에 따라 검색하여 SVG(Scalable Vector Graphics) 파일 형태로 제공하도록 설계하였다. 이러한 의상 상세정보를 통해 디자이너가 의상구조의 다양한 조합으로 새로운 제품 디자인이 용이해지고 유사한 형태의 의상 표현이 가능해진다. 이를 통해 패션몰 상품에 대한 전문가적인 의상 분석도 가능해진다. 또한 SVG 형식의 파일을 이용하기 때문에 부하가 많은 쇼핑몰의 정보 표현에도 용이하다. 이를 위해 구축된 정보는 XML로 표준화 할 수 있도록 DTD(Document Type Definition)를 정의하여 검색 시스템을 설계하였다.

  • PDF

RDF 메타 데이터를 이용한 인덱스 기반의 XML/SGML 문서 검색 방법에 관한 연구

  • 오동현;김규태;정회경;이수연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.42-44
    • /
    • 1999
  • 인터넷이 급속히 성장함에 따라 대량의 SGML/XML 문서를 보다 효과적으로 다룰 필요성이 증대하고 있다. SGML/XML 문서를 데이터베이스에 저장하는 경우에 문서를 파싱하여 파싱된 결과를 모두 분리하여 저장하고 서로의 연관관계를 모두 구분하는 경우 구조화 정보를 최대한 이용할 수 있는 등 여러 가지 장점을 지니게 된다. 하지만, 이 경우 분할단위의 폭발적인 증가로 인한 시스템 성능 저하와 내용중복으로 인한 색인저장 오버헤드가 문제이다. 이런 문제점을 해결방안의 하나로서 본 논문에서는 RDF 메타데이타를 통하여 검색시 의미가 있는 단위로 분할 단위를 축소 지정하고 이 축소된 정보를 기반으로 인덱스를 생성하여 내용중복을 방지하는 방법을 제안하였다. 이 방법은 RDF메타데이타를 통해 이루어짐으로서 웹기반에서 자동으로 이루어질 수가 있으며, 이를 통해서 기존의 방법보다 자동화된 검색을 할 수 있다.

  • PDF

인용문헌의 효율적인 검색을 위한 KSCI 시스템 설계

  • 이계준
    • 지식정보인프라
    • /
    • 통권7호
    • /
    • pp.113-127
    • /
    • 2001
  • 인용문헌정보의 효율적인 저장과 검색을 위하여 인용한 문헌과 인용된 문헌들의 구성요소를 추출하고 상호 인용관계에 대한 논리정보와 구조정보를 재구성을 통해 표현하고, 패스인코딩 색인기법에 의해 구성요소의 중복을 제거하였으며, 관련 있는 데이터베이스들과의 연계를 위하여 XML을 기반으로 하는 KSCI(Korea Science Citation Index)시스템을 설계하였다.

  • PDF

소프트웨어 소스 코드의 저작권 관리를 위한 디지털 라이센스의 검색 (Digital License Searching for Copyright Management of Software Source Code)

  • 차병래
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.21-31
    • /
    • 2007
  • 지적재산권 제도는 21세기 정보화 사회의 발전에 있어서도 중요한 역할을 하고 있다. 국가 경쟁력 제고를 위해서도 디지털콘텐츠에서 확대하여 소프트웨어 소스 코드에 대한 지적재산권 제도와 기술의 정비는 매우 중요한 의미를 지닌다. 소프트웨어 소스코드의 소유권 분쟁이 발생 시 소유권을 증명하기 위해서는 원본의 소프트웨어 소스코드를 판별해야만 하는 문제점을 갖고 있다. 본 연구에서는 소프트웨어 소스코드의 원본 판별을 지원하기 위한 소프트웨어 소스코드의 디지털 라이센스는 소스코드의 예약어를 파싱하여 계층구조를 갖는 XML 파일로 표현하며, 복잡한 소스코드 대신에 소프트웨어 소스코드의 아키텍처를 트리구조 형태로 표현할 수 있다. 그리고 디지털 라이센스를 검색하기 위한 색인 및 검색에 대한 연구를 수행한다.

국학고전자료의 디지털화를 위한 모범적인 방안 연구 (Study on Model Case of Ideal Digitization of Korean Ancient Books)

  • 이희재
    • 정보관리학회지
    • /
    • 제22권1호
    • /
    • pp.105-123
    • /
    • 2005
  • 이 연구는 보존 기록 자료로서의 우리의 고전 장서를 보다 안전하게 보호하고 연구자나 이용자들에게는 시공을 초월한 열람이 가능토록 하기 위한 디지털 도서관으로서의 방법을 모색하는 데 목적이 있다. 즉, 우선 동양 전래의 사부 분류법과 현대적인 주제 분류, 그리고 색인어 등을 통해 다양한 접근점을 제공하고, 둘째, MARC나 XML 등을 활용한 DL시스템을 구축하되, 서지적 기술요소를 최대한 확대시키며. 셋째, 쉬운 해제와 색인어로 이용자의 이해를 극대화하고, 마지막으로 원본의 손상을 막기 위해 원문 DB를 구축하여 열람용으로 사용한다. 이는 향후 국내외 한국 고전 관련기관과 협력, 공유할 수 있는 네트워크 체제를 통해 국제적 서지통정으로 발전될 수 있을 것이다.

효율적 XML키워드 검색을 인덱스 분할 및 합병 (Partitioning and Merging an Index for Efficient XML Keyword Search)

  • 김성진;이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.754-765
    • /
    • 2006
  • 일반적으로 XML 키워드 검색에서 검색 결과는 질의 키워드들을 모두 포함하는 가장 작은 원소(최소 공통 선조)로 정의되며 색인의 기본 단위는 XML 원소가 된다. 기존의 인덱스 구조 하에서는 질의 키워드를 포함한 각 원소의 조합으로 생성된 모든 최소 공통 선조가 검색 결과로 고려된다. 본 논문에서는-불필요한 최소 공통 선조 산출 연산을 피하고 검색 시간을 단축시키기 위한 목적으로-인덱스를 파티션이라고 불리는 물리적 단위로 분할하고 질의 처리 시 필요에 따라 파티션을 동적으로 합병하여 검색 결과를 산출하는 기법을 기술한다. 주어진 깊이 이상의 최소 공통 선조가 검색 결과로 반환되어야할 경우, 검색 시스템은 제안된 인덱스 구조 하에서 동일 파티션에 속한 원소들 간의 조합만으로 검색 결과를 반환함으로써 검색 시간을 단축시킬 수 있다. 검색 결과에 대한 깊이 제한이 주어지지 않을 경우에도 검색 시스템은 분할된 인덱스를 사용하여 검색 결과를 얻을 수 있으며, 이때 분할되지 않은 기존의 인덱스를 사용하는 검색과 동일한 시간이 소요된다. 실험은 DBLP 사이트와 INEX2003에서 제공되는 XML 문서들로 진행되었으며, 제안된 인덱스는 검색 결과의 최소 깊이가 주어질 경우 질의 처리 시간을 상당히 감소시켰다.

XLinks를 이용한 하이퍼텍스트 검색 시스템 (Hypertext Retrieval System Using XLinks)

  • 김은정;배종민
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.483-494
    • /
    • 2001
  • 일반적인 하이퍼텍스트 검색 모델은 문서와 문서사이의 관계나 링크의 의미를 무시하고, 모든 문서를 독립적인 존재로 간주하여 검색한다. 그러나 하이퍼텍스트 검색 시스템에 있어 링크 정보를 이용하며 검색의 성능을 향상시킬 수 있다. 기존의 링크 기반 하이퍼텍스트 검색 모델은 문서의 색인 과정에서 링크 정보를 무시하고, 검색 결과 집합에 대하여 문서의 우선 순위를 제조정하는데 링크 정보를 활용한다. 이는 링크정보의 활용이 검색 결과 집합의 문서들에만 한정된다는 단점이 있다. 본 논문에서는 링크 정보를 문서의 색인 과정에서 활용한다. 색인 과정에서 링크 정보를 이용하여 문서 내 용어의 가중치와 문서 내 inLinks의 가중치를 정의하고, 이들의 이용하여 문서의 우선 순위를 위한 확장된 RSV 계산식을 제시한다. 실험 결과에서 링크 의미에 따른 검색 조회율과 정확도를 제시하고 기존 링크 기반 검색 모델과의 비교, 분석 결과를 제시한다.

  • PDF