• 제목/요약/키워드: XML 문서 검색

검색결과 468건 처리시간 0.027초

다국어를 지원하는 XML 문서 검색 시스템: HyREX (HyREX: Universal XML Retrieval Engine for XML)

  • 한예지;채종대;김수희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

XML 문서의 구조기반 검색성능 평가 (Performance Evaluation on Structure-based Retrievals of XML Documents)

  • 김수희
    • 한국산학기술학회논문지
    • /
    • 제10권2호
    • /
    • pp.396-406
    • /
    • 2009
  • 이 논문에서는 XML 문서의 효율적인 구조검색을 위하여 기존의 연구에 이어 엘리먼트들의 순서를 명시하는 메타데이터들을 추가로 개발하였고, 이들을 바탕으로 구조기반 인덱싱 모델을 설계하였다. 설계한 구조검색 인덱스들은 문서의 계층구조에서 수직관계에 있는 엘리먼트들 뿐만 아니라 수평관계에 있는 엘리먼트들을 효율적으로 검색할 수 있게 한다. 제안한 구조기반 인덱스의 성능을 평가하기 위해 프로토타입 XML 문서 검색 시스템 개발하였고, XML 코퍼스를 대상으로 검색 실험을 수행하였다. 자손검색, 조상검색, 형제검색에서 ETID 모델보다 평균 검색 시간이 약 12% 정도 향상되었으며, 특정 엘리먼트 타입의 순서를 명시한 검색에서는 평균 검색 시간이 ETID 모델보다 25% 이상의 향상률을 보였다. 이것은 이 논문에서 제시한 Etype, Asso, LSSO를 이용한 검색이 엘리먼트의 순서를 명시한 검색 성능 향상에 큰 기여를 한 것으로 분석된다.

XML 기반 데이터 공유 Interface 설계 및 구현 (A Design and Implementation for Data Sharing Interface in based XML)

  • 김철원;김상영;박종훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.424-428
    • /
    • 2004
  • XML 문서를 저장하고 검색하는 시스템에 관련된 연구가 활발하게 이루어지고 있으며, 이러한 시스템들은 효율적으로 XML 문서를 저장하고 검색할 수 있는 기능에 중점을 둔 경우가 많다. 또한 XML 문서를 저장하기 위해서 특별히 설계된 테이블이나 저장 구조를 가지고 있어서 XML 문서의 내용뿐만 아니라 문서의 구조 정보 둥도 같이 저장할 수 있으며 이를 바탕으로 XML 문서의 내용 검색이나 구조 검색 등을 효율적으로 할 수 있도록 하고 있다. 본 논문은 기존에 사용해 왔던 여러 종류의 데이터베이스들이 갖고 있는 데이터들을 그대로 재활용하여 XML 형식으로 변환하고, 이 XML 파일을 웹에서 공유하여 여러 가지 다양한 Interface를 통해 출력 될 수 있도록 설계, 구현하였다.

  • PDF

시소러스를 이용한 XML 태그 검색 시스템 (An XML Tag Search System By Using Thesaurus)

  • 양승원;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.145-147
    • /
    • 2000
  • 현재 웹 기술은 HTML에서 정보를 표현하는 외형과 내용을 분리하여 정보를 구조화할 수 있는 XML을 사용하고 있다. 구조적으로 구성된 XML은 새로운 정보 검색의 방법을 제시하였다. 즉, 태그를 이용한 정보검색으로 검색어에 의미를 부여함으로써 정보 검색자에게 좀더 효율적인 검색을 가능하게 하였다. 그러나 이러한 구조화 문서 검색 기법은 정확한 태그를 입력하였을 경우에만 결과를 얻을수 있는 단점을 지니고 있다. 따라서 본 논문에서는 XML문서의 태그 검색에 있어 정확한 태그 검색을 확장한 유사 태그 검색기법을 설계하고 구현하였다. 유사한 태그를 검색하기 위하여 시소러스를 구성하였으며, 작성된 시소러스를 이용하여 유사한 태그에 대한 검색을 수행하였다. 기존의 XML문서 검색 시스템은 정한 태그에 대한 검색만을 수행할 수 있는 반면, 본 시스템은 태그검색에 있어 시소러스를 활용함으로써 질의에 입력되어진 태그와 유사한 태그에 대한 검색 결과를 보여줌으로써 사용자에게 질의어 선정의 불편함을 감소시켰다.

  • PDF

웹 기반의 교수 지원 시스템을 위한 XML 문서의 분류 및 검색 (Classification and Retrieval of XML Document for Teacher Support System based on Web)

  • 김행곤;김지영;최문경;김성원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1615-1618
    • /
    • 2001
  • 최근 인터넷이 급속히 성장함에 따라 웹을 기반으로 한 학습이 활발히 진행되고 있고, 또한 학교 업무의 효율화를 지원하기 위한 분야에서도 웹이 응용되고 있다. 특히 웹에서 교수를 위한 복잡한 학교 업무의 관리와 학습자료 및 업무 자료를 지원하기 위해서는 확장성과 호환성, 편의성을 가진 XML 형태의 문서가 제공되어져야 한다. 따라서 교수 업무 지원을 위해 XML 문서의 정보들을 효율적이고 정확하게 이용하기 위해 이들 문서를 적절하게 분류하고 저장, 검색하기 위한 방법이 필요하다. 본 논문에서는 XML로 작성된 교수 업무 지원 문서의 저장과 검색을 위한 선행작업으로서, 일반적인 메타 데이터와 DTD 데이터를 정의하고, 이렇게 정의된 데이터를 이용하여 패싯 검색과 구조기반 검색, 키워드 검색을 제공함으로써 사용자는 원하는 문서를 쉽게 검색한 수 있다. 따라서 이를 통해 교수 업무 지원 문서들을 웹 상에서 효율적이고 정확하게 저장하며, 사용자가 원하는 문서를 정확하고 신속하게 검색할 수 있게 하고자 한다.

  • PDF

구조 검색을 위한 XML 문서 저장 시스템 (XML Document Repository System for structured retrieval)

  • 임산송;현득창;정회경
    • 정보학연구
    • /
    • 제4권4호
    • /
    • pp.89-100
    • /
    • 2001
  • XML(extensible Markup Language)은 W3C(World Wide Web Consortium)에서 표준으로 제정, 발표한 대표적인 전자문서 표준이다. XML 문서는 구조화된 정보를 체계적으로 생성하고 전송할 수 있으며, 기존의 파일 형태 정보에 비하여 의미적인 정보 단위를 구조로 표현하고 이러한 구조 정보를 이용해 문서의 관리 및 검색, 저장에 이용할 수 있다. 이에 본 논문에서는 XML의 구조적 정보를 이용하여 저장 검색하기 위한 XML 저장 시스템을 설계 및 구현하였다. 문서의 기본 단위인 엘리먼트(element) 단위로 모델링(modeling)하여 저장하였고, 저장된 XML 정보를 구조 단위로 검색 할 수 있도록 모델링 하였다. 또한 DTD(Document Type Definition)와 인스턴스(instance)에 대하여 스키마(schema)를 생성하여 다양한 문서에 대한 구조를 효과적으로 관리, 저장할 수 있도록 하였다.

  • PDF

XML 문서를 위한 구조정보 추출기의 설계 및 구현 (Design and Implementation of a Structure Information Extractor for XML Documents)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

대용량 XML 문서의 키워드 검색을 위한 레이블링 기법 (A Labeling Methods for Keyword Search over Large XML Documents)

  • 선동한;황수찬
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.699-706
    • /
    • 2014
  • XML 문서가 점차 복잡해지면서 XML문서의 구조를 알 필요 없이 키워드로만 검색을 하는 키워드 검색 방식이 많이 사용되고 있다. XML문서 내에서 키워드 검색 방식을 사용하기 위해서는 문서 내의 모든 키워드에 레이블을 부여해야 하며, 구조적인 정보 또한 레이블 내에 충분히 표현해야한다. 하지만 기존 레이블링 방법들은 색인을 위한 단순정보만 레이블링 하거나, 증가하는 XML문서의 크기에 대응하기 어려운 형태로 구조적인 정보를 표현한다. 이는 XML문서가 커질수록 키워드검색성능이 떨어지거나, 공간 사용량이 기하급수적으로 증가하는 문제를 야기한다. 따라서 본 논문에서는 대용량 XML문서에 대한 키워드 검색 시 기존 레이블링 방식이 가지고 있던 문제점을 보완하는 새로운 레이블링 방식인 RPLS(Repetitive Prime Labeling Scheme)을 소개한다. 이 방법은 기존 소수 레이블방식을 개선하여 상위 레벨의 소수를 하위 레벨에서 반복 사용할 수 있도록 하여 레이블링을 위해 생성해야하는 소수의 수를 감소시키도록 한 것이다. 본 논문에서는 대용량 XML 문서의 키워드검색에 대한 RPLS 스킴의 효율성 검증을 위해 기존 레이블링 기법들과의 성능 비교 실험 결과도 제시한다.

온톨로지 기반 DTD 필터링 및 정합에 의한 XML 질의 시스템 (Ontology based XML Query System by DTD Filtering and Matching)

  • 김명숙;노영주;공용해
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.557-560
    • /
    • 2005
  • XML 문서의 논리적인 구조와 의미적 태그의 사용은 구조와 내용에 기반 한 검색을 가능하게 하는 반면, 동일한 정보라 하더라도 구조와 형식이 매우 다양하게 표현되므로 정보검색에 어려움을 초래한다. 효율적인 XML 정보검색을 위해, 본 논문은 온톨로지를 기반으로 검색에 적합한 문서만을 선별하는 문서여과 방법, 대상문서에 적합한 최소한의 질의생성을 위한 온톨로지 정합 방법 그리고 문서에 내재된 의미적 정보의 검색을 위한 정합된 온톨로지 기반의 질의확장 방법을 각각 제안하였다. 제안한 방법의 효과 및 효율은 예제 XML 및 DTD 문서를 대상으로 실험되었다.

  • PDF

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF