• 제목/요약/키워드: Structured Document Retrieval

검색결과 39건 처리시간 0.026초

노드정보를 이용한 문서검색의 성능에 관한 연구 (A Study on the Performance of Structured Document Retrieval Using Node Information)

  • 윤소영
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.103-120
    • /
    • 2007
  • 노드는 문서를 구성하는 작은 크기의 의미 있는 정보 단위이다. 정보검색에 문서의 구조정보를 이용함과 더불어 문서보다 작은 검색단위에 대한 연구가 활발히 이루어지고 있다. 이 연구에서는 노드정보를 이용한 검색실험을 위해 벡터공간모델 검색기법을 사용하여 다양한 유사도 산출방식을 적용한 실험과 구조정보를 활용한 확장 실험을 수행하였다. 실험결과 문서의 유사도를 산출하는 방식에 따른 검색성능의 차이는 거의 나타나지 않았으며, 구조정보를 적용하는 확장 노드검색이 가장 좋은 성능을 나타냈다.

효율적인 검색을 위한 Tree 형태의 XML 문서 구조 모델 (XML Structured Model of Tree-type for Efficient Retrieval)

  • 김영란
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.27-32
    • /
    • 2004
  • XML 문서가 DTD를 포함하지 않거나 여러 곳에서 XML문서를 모았을 때, 그 구조는 비정규적일 수 있다. 비정규적인 구조를 가지는 문서들에 대해 정확한 구조적 질의를 작성하는 것은 어려운 일이다. 이 논문에서는 XML 문서의 효율적인 관리와 검색을 위한 XML 문서 모델과 구조적 검색 방법을 제안한다. 이를 위해 XML 문서의 구조 정보를 표현하기 위해 엘리먼트에 대한 정보를 갖는 고정된 크기의 LETID를 사용하고, 구조 정보 검색을 위한 부모 및 자식 엘리먼트 검색 알고리즘을 제시하였다. 제안된 방법을 이용하여 XML 문서의 구조 정보를 효율적으로 표현할 수 있을 뿐만 아니라. 간단한 연산으로 특정 엘리먼트에 직접적인 접근과 다양한 질의 처리가 가능하다. 또한, 특정 엘리먼트의 부모. 자식, 형제에 대한 다양한 구조 검색을 효율적으로 지원할 수 있는 효과가 기대된다.

  • PDF

네비게이션 정보추출에 의한 XML 본문검색시스템 (XML Fulltext Retrieval System by Extracting Navigation Information)

  • 강남규;이응봉;이석형
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.91-110
    • /
    • 2002
  • 최근, 키워드 기반 정보검색의 한계를 극복하기 위한 구조문서 기반의 연구가 활발하게 진행되고 있지만, 실제 적용에는 많은 어려움이 존재한다. 본 고에서는 구조문서에 대한 본문검색시스템을 제안한다. 본문검색시스템에 적용된 문서는 XML로 구축된 국가 연구개발보고서를 대상으로 하였으며, XML 연구보고서의 DTD. 본문 간의 이동을 위한 네비게이션 정보추출, 본문검색을 위한 검색엔진의 적용 방안에 관하여 살펴본다. 본 시스템은 XML 문서에 대해 문서의 구조정보를 저장하고 이를 검색하여 다양한 형태로 열람할 수 있는 검색엔진의 부재 상황을 본문검색이라는 방법으로 극복하기 위한 것이다.

구조 기반 검색을 위한 색인 구조에 대한 분석 (Analysis of Indexing Schemes for Structure-Based Retrieval)

  • 김영자;김현주;배종민
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.601-616
    • /
    • 2004
  • 구조적 문서들에 대한 검색시스템은 구조 기반 검색 질의를 지원하여 다양한 수준의 검색 기능을 제공한다. 완전한 구조 기반 질의를 처리하기 위해서는 구조적 문서가 가지는 엘리먼트 간의 구조적 포함관계나 순서에 관한 정보를 유지되어야 한다. 본 논문에서는 엘리먼트와 엘리먼트 사이의 구조적 상관관계와 엘리먼트의 발생순서에 관련된 질의 등 여러 유형의 순수 구조 질의를 처리할 수 있는 네 가지 색인구조를 제시하고 그 성능을 평가한다. 제안된 색인 알고리즘은 전체 문서 인스턴스 트리 개념에 바탕을 두고 있다.

  • PDF

XML을 이용한 구조적 문서 생성 및 탐색을 위한 깊이중심분할 색인기법에 관한 연구 (A Study on the Depth-Oriented Decomposition Indexing Method for Creating and Searching Structured Documents Based-on XML)

  • 양옥렬;이용주
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1025-1042
    • /
    • 2002
  • 본 논문은 정보검색을 위한 용어들 간에 존재하는 관련정보인 시소러스를 이용하여 정보 검색 시스템의 검색 성능을 향상시키기 위한 구조적 문서를 생성하고 이를 검색하는 검색 기법에 대하여 연구하였다. 이를 위해 시소러스를 이용한 구조적 문서의 탐색을 위한 깊이중심분할 색인(DODI : Depth-Oriented Decomposition Index) 기법을 제안하였으며, 또한 시소러를 이용한 색인 기법으로서 효과적인 정보 검색이 가능하도록 검색 알고리즘을 통해 연관관계의 정보들에 대한 검색이 가능하도록 하였다. 또한 색인기법에 의해 생성된 구조적 문서는 OpenXML을 통해 데이터베이스 내에 저장되고, ForXML 메소드를 이용하여 재구성된 XML문서를 생성하도록 구조적 문서 저장 시스템을 구현하였다.

GDIT를 기반으로 한 구조적 문서의 효율적 검색과 갱신을 위한 인덱스 설계 (An Indexing Scheme for Efficient Retrieval and Update of Structured Documents Based on GDIT)

  • 김영자;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.411-425
    • /
    • 2000
  • SGML이나 XML언어를 사용하여 작성된구조적 문서들에 대한 정보검색 시스템들은 문서의 부분검색을 지원한다. 문서의 구조에 바탕을 둔 질의를 효율적으로 처리하기 위해서는 색인에 관련된 메모리 오버헤드를 줄여야 하고, 질의에 대한 응답시간이 빨라야 하고, 문서 구조에 바탕를 둔 다양한 유형의 사용자 질의를 지원해야 하며, 문서 구조에 대한 변경이 발생했을 때 색인 구조에 대한 변경사항을 최소화하여야 한다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 텍스트 레벨 엘리먼트만을 색인하여, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시하고 그 성능을 분석한다.

  • PDF

독립적인 질의 경로들을 사용하여 이질적인 문서들을 검색하는 XML 문서 검색 모델 (XML Document Retrieval Models for Heterogeneous Data Set using Independent Regular paths)

  • 유신재;민경섭;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.140-152
    • /
    • 2003
  • XML 문서는 태그를 가지고 있고 이 태그가 중첩됨에 따라 구조를 나타낼 수 있다. XML 문서가 DTD를 가지지 않거나 여러 곳에서 XML 문서를 모았을 때 그 구조는 비정규적 일 수 있다. 사용자는 이러한 비정규적인 구조에 대해 잘 알기 어려우며 설사 잘 알고 있다고 하더라도 실수하기 쉽다. 특히 비정규적인 구조를 가지는 문서들에 대해 정확한 구조질의를 작성하는 것은 더욱 어렵다. 따라서 사용자는 구조가 없거나 있다 하더라도 적은 양의 구조정보 만을 기술하는 일반적인 질의를 작성하게 된다. 이런 환경에서 구조 정보를 이용하여 문서의 순위결정에 이용하고 사용자 구조 질의와 문서 구조간의 차이에 대해 보상해 주는 검색 모델을 제안한다. 질의 처리를 단순화하기 위하여 질의 경로간의 독립을 가정하였다 이 가정은 질의 언어의 표현능력의 저하를 가져올 수 있는데 이를 해결하는 질의 모델도 제시한다. 지금까지 어떤 문서를 위한 테스트 컬랙션이 없었기 때문에 TIPSTER 컬랙션에서 일부 문서를 추출하여 작은 테스트 컬랙션을 만들고 여기에 구조가 없는 질의를 수행하여 제시한 검색 모델의 유용성을 보였다. 실험 결과 벡터 모델에 비하여 평균 67%의 정확률 개선효과를 얻을 수 있었다.

Style Control of Structured Documents using DSSSL

  • Lee, Kyong-Ho;Lee, Jin-Ho;Choy, Yoon-Chul
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1997년도 International Conference MULTIMEDIA DATABASES on INTERNET
    • /
    • pp.455-462
    • /
    • 1997
  • SGML(Standard Generalized Markup Language) is the ISO standard fer describing the logical structure of documents and is also adopted as the CALS standard for document description. Since then, there have been growing interests in SGML application in a variety of fields. However because SGML doesn't provide a standard method for describing various processing informations, ie, formatting and transformation, most applications have applied methods that are system dependent. Recently, ISO defined DSSSL(Document Style Semantics and Specification Language) as a standard mechanism to specify the formatting, transformation and retrieval of structured documents. Therefore, in this paper, we present a DSSSL processing system far style control of structured documents such as SGML documents. The system processes DSSSL style sheet that describes layout of documents and browses the result of its application to a SGML document. We have conducted tests on a lot of SGML documents and DSSSL style sheets successfully. Now, we are developing the SGML document management system that supports creation, editing, storage and retrieval of SGML document based upon the DSSSL processor and the SGML parser which we have developed.

  • PDF

MIRAGE-III 디지털도서관에서 가상문서 검색 서버의 설계 및 구현 (Design and Implementation of a Retrieval Server for Virtual Documents in the MIRAGE-III Digital Library)

  • 이용배;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권2호
    • /
    • pp.219-230
    • /
    • 2002
  • 인터넷이용의 급증에 따라 지식정보화사회 전반의 작업들이 분산환경의 디지털도서관에 저장되어 있는 멀티미디어 컨텐츠를 쉽고 신속하게 찾아 새로운 정보를 생성 또는 공유하는 작업을 통해 이루어진다. 이를 위해 핵심적으로 연구해야 할 부분은 원격지에 흩어져 있는 정보를 효과적으로 연결시켜서 의미있고 일관된 형태로 보여지도록 하는 것이다. 이 목적을 달성하기 위해 디지털도서관에서는 물리적으로 홑어져 있는 정보들이 논리적으로 일관되게 표현될 수 있는 가상공간을 제공해야 하며 가상공간에서 정보가 표현되었을 때 사용자가 원하는 정보를 신속하게 수집하여 제시할 수 있어야 한다. 가상문서(Virtual Document)란 특정 저장장소에 저장되어 존재하던 물리적 문서(Physical Document)들을 대상으로 사용자에게 필요한 일부분 또는 전체를 동적으로 연결하여 통합한 문서를 의미한다. MIRAGE-III 디지털도서관에서는 일반 텍스트문서와 XML로 기술된 구조화된 가상문서를 대상으로 내용기반 검색을 수행한다. 이 시스템에서는 XML 문서구조를 기반으로 부분문서의 검색이 가능하며 문서의 속성 및 계층구조에 대한 검색과 문서간의 링크관계를 이용한 검색도 가능하다. 본 논문에서는 MIRAGE-III 디지털도서관에서의 질의어처리기 및 검색기를 설계하고 구현한 방법론에 대하여 기술한다.

XML 문서의 효율적인 구조 검색을 위한 색인 모델 (An Indexing Model for Efficient Structure Retrieval of XML Documents)

  • 박종관;손충범;강형일;유재수;이병엽
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.451-460
    • /
    • 2001
  • 본 논문에서는 XML 문서의 효율적인 구조 검색을 위한 색인 모델을 제안한다. 색이 모델은 문선 계층상의 모든 레벨에서 내용 기반 질의와 구조 및 에트리뷰트 질의와 같은 다양한 질의를 지원하기 위한 구조정보와 이를 이용한 색이 구조로 구성된다. 구조검색을 지원하기 위해 새로운 구조정보 표현 방법을 제안한다. 제안한 구조정보 표현 방법에 따라 표현된 구조정보를 이용해 효율적인 검색을 위한 내용 색인, 구조 색인, 에트리뷰트 색인을 구성한다. 또한 내용과 구조가 혼합된 질의의 처리과정을 설명하고, 제안하는 색인 모델의 성능평가를 보임으로써 기존의 방법보다 성능이 우수함을 보인다.

  • PDF