• Title/Summary/Keyword: 문서 검색

Search Result 1,718, Processing Time 0.032 seconds

Update conscious and depth insensitive inverted indexes for XML full-text queries (XML 문서의 변경을 고려한 XML 전문 검색 역인덱스)

  • Kwon, Guk-Bong;Hong, Dong-Kweon;Kim, Kweon-Yang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.81-84
    • /
    • 2004
  • XML 문서는 관계형 테이블과는 달리 문서의 구조가 매우 복잡하고 불규칙하여 부분적인 정보를 최대한 활용하는 전문 검색이 일반적인 구조적 검색보다 더 중요한 역할을 한다. XML 문서는 계층이 있으므로 계층을 사용하는 전문 검색 연산은 계층을 제공함으로써 검색 공간을 줄여서 검색의 정확성과 효율성을 훨씬 더 높일 수 있다. 전문 검색 연산을 효과적으로 지원하기 위한 방법으로는 역인덱스를 (inverted index) 사용하는 것이 가장 일반적인 방법이다. 지금까지의 전문 검색을 위한 XML 문서의 구조 정보를 표현, 저장하는 방법들은 문서의 내용이 변경되지 않는 정적 문서(static documents)만을 고려하여 왔다. 이 방법들은 문서가 동적으로 변화할 경우 저장된 문서의 구조 정보 중에서 많은 부분을 다시 표현해야 하는 비효율적인 면이 있다. 본 논문은 XML 문서의 동적인 변화를 지원하면서 동시에 복잡한 XML 전문 검색을 지원하기 위한 방법으로 경로 스트링을 사용하는 효율적인 역 인덱스 구축 기법을 제안하고 제안하는 방법이 복잡한 문서의 검색과 문서의 동적인 변화를 효율적으로 검색할 수 있음을 보인다.

  • PDF

An Extension of Hangul MG System for Web Document Retrival (웹 문서 검색을 위한 한글 MG 시스템의 확장)

  • 김범수;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

Design and implementation of a structure-and content-based document retrieval system for XML documents (XML 문서를 위한 구조 및 내용기반 문서검색 시스템 설계 및 구현)

  • 이정재;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.93-95
    • /
    • 1999
  • 최근 XML 문서에 대한 활용이 늘어나면서 이들 문서에 대한 저장 및 검색에 대한 요구가 증가하고 있다. XML문서는 SGML(Standard Generalized Markup Language) 문서가 가지고 있는 다양한 기능들과 구조적인 표현 능력, 그리고 사용의 용이성 등의 장점을 지닌 언어로 1996년 웹의 문서 표준으로 제안되었다. 따라서 XML 문서의 특성을 반영한 문서 검색시스템에 대한 요구가 시급한 상태이며, 기존의 시스템의 경우 구조 및 내용-기반 멀티미디어 문서검색을 효과적으로 지원하지 못하고 있다. 본 논문에서는 XML 문서의 구조정보 및 내용정보를 효과적으로 검색할 수 있는 XML 문서 저장 시스템을 설계 및 구현한다. 구현하는 시스템은 구조-기반 검색을 위해 o2store위에 역파일 인덱스를 구축하고 내용-기반 검색을 위해 X-tree를 사용한다. 또한 검색 인터페이스를 JAVA로 구현하여 효율적인 검색이 이루어지도록 한다.

  • PDF

XML Document Structure Search based on XQL (XQL 기반의 XML문서 구조 검색)

  • 박종훈
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.95-100
    • /
    • 2000
  • 사실 표준 XQL(XML Query Language) 기반의 문서 질의를 이용하여 XML 문서에 대한 구조 검색과 내용 검색을 위한 문서검색 시스템을 구성하였다. 즉 XML 문서를 파징하여 내용 및 구조 정보를 트리구조로 구성하고, 표준 XQL을 이용하여 트리 구조 정보에 질의함으로서 구조 및 내용 검색을 하도록 구현하였다. 이를 이용한 응용분야로는 향후 방대한 크기의 XML문서 검색과 문서 관리, 전자 상거래 등 다양한 분야에 활용될 수 있는 요소기술로서 기대된다.

  • PDF

Clustering and Association Rule Mining of Transactions using Large Items (주요 항목 집합을 이용한 문서 클러스터링 및 연관 탐사 기법)

  • 서성보;김선철;이준욱;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.169-171
    • /
    • 2000
  • 현재 광범위한 웹 문서를 검색하기 위해서 많은 사용자들이 여러 종류의 검색엔진을 사용하고 있다. 하지만 대부분의 사용자는 검색엔진에 의해 검색된 문서의 순서화가 된 긴 리스트의 검색 문서들과 이들이 갖는 낮은 신뢰도에 대해 검색된 문서 중에 자신이 원하는 타당한 문서를 검색하는 불편함이 있어 왔다. 정보 검색에서 문서의 클러스터링은 검색된 결과를 재구성하는 효율적이고 선택적인 방법이다. 이 연구에서는 문서를 트랜잭션 관점에서 해석하여 하나의 클러스터에 대해 유사성을 측정하기 이해 주요항목과 비 주요항목으로 구분하여 각 트랜잭션의 최소 비용 계산을 통해 자동화된 문서 클러스터링 기법을 제안한다. 또한 클러스터링 단계에서 주요 항목간의 연관 규칙을 생성하기 위하여 문서 클러스터링을 위한 디스크 엑세스 동안 키워드간의 연관성을 찾을 수 있는 효율적인 검색 기법을 제시한다.

  • PDF

Study for XML document retrieval to use XSL (XSL를 이용한 XML 문서 검색에 관한 연구)

  • 김충성;김용성
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.66-68
    • /
    • 1999
  • 최근 들어 이 기종 간의 문서 교환을 위해 SGML(Standard Markup Language) 문서보다 XML(eXtend Markup Language) 문서가 인터넷 기반에서 표준으로 자리잡고 있다. 앞으로 인터넷상의 수많은 정보들을 XML을 기반으로 할 것이고 이를 위해 문서 정보 검색 시스템이 필요하게 된다. 문서의 논리 구조를 표현하는 DTD(Document Type Definition) 기반으로 구조 검색을 할 수 있지만 본 논문에서는 XSL(XML Style Sheet Language) 문서에서 DTD의 Element를 지정하는 Pattern을 이용하여 문서 구조와 속성을 새로운 Tree로 표현하며 검색에 필요한 질의어 또한 XSL의 Pattern 자체를 이용하고 있다. 사용자에게 편하고 효율적인 검색 환경을 위해서 검색 인터페이스의 모형을 제안하였다.

  • PDF

Metasearch for Website Finding (사이트 검색을 위한 메타 검색)

  • Lee, Yeo-Jin;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.245-252
    • /
    • 2002
  • 여러 검색 엔진이 낸 결과를 결합하여 성능의 향상을 얻고자 하는 정보 검색 방법을 메타 검색(metasearch)이라고 한다. 정보 검색에서의 사용자 요구가 다양화되고 있지만, 기존의 메타 검색에 관한 연구는 이를 제대로 반영하지 못하고 웹 문서를 대상으로 검색(topic relevance task)한 결과를 결합하는 데에만 치중해 있다. 최근에는 사이트 검색(entry page finding task)만을 목적으로 한 시스템도 개발되고 있다. 본 논문에서는 사이트 검색 엔진들의 결과를 결합하는 메타 검색 방법을 제시한다. 웹 문서 검색 결과를 결합시에는 여러 검색 엔진에서 중복(overlap)하여 나타난 문서에 가중치를 두는 방법이 효과적이다. 하지만 이 방법을 그대로 사이트 검색에 적용하면 웹 문서 검색에서와 같은 좋은 결과를 낼 수 없다. 본 논문에서는, 여러 검색 엔진에 중복하여 나타난 문서에 가중치를 두는 것보다는 그 문서가 속한 사이트를 고려하여 사이트 단위로 중복된 정도를 반영하는 것이 사이트 검색 엔진의 견과를 결합하는 데 더 효과적임을 보인다.

  • PDF

Information Retrieval from XML Documents based on Contents (내용기반 XML 문서의 검색)

  • 김수희;조명찬;한예지
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.73-75
    • /
    • 2003
  • 이 연구에서는 XML 문서의 효율적인 검색을 위해 XML 데이터에서 색인어를 추출하고 가중치를 부여하여 내용기반 인덱스를 구축하고, 질의와 문서간의 유사도가 높은 문서들을 사용자에게 제공함으로써 기존의 경로 중심 혹은 패턴매칭 형태의 XML 문서 검색 기능을 확장하고자 한다. 내용기반 검색을 지원하는 XML 문서 검색시스템을 설계하고, 내용기반 검색과 관련한 이슈들을 논의한다. 개발 중에 있는 연구용 프로토타입 시스템을 이용하여 질의에 대한 내용기반 검색 결과를 간단히 소개한다.

  • PDF

Design and Implementation of a Retrieval System for SGML Documents (SGML 문서 검색시스템의 설계 및 구현)

  • 고승규;조승기;백승욱;이경호;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.84-86
    • /
    • 1999
  • 문서의 논리적 구조정보를 표현하는 SGML 문서는 CALS, 디지털 도서관(Digital Library), 인터넷 분야에서 많이 사용되고 있다. 이렇게 SGML 문서들이 널리 사용됨에 따라 문서들의 효율적인 관리가 필요하게 되었고, 사용자가 원하는 문서를 정확하고 신속하게 검색해 줄 수 있는 검색 시스템의 개발이 필요하게 되었다. 좀 더 정확한 문서를 검색해 내기 위해서는 SGML 문서의 특징인 구조정보를 이용한 검색이 필수적이다. 이에 본 연구에서는 효율적인 SGML 문서의 검색을 위한 구조적 기반의 질의어로 eXQL을 정의하고, 이를 지원하는 검색시스템을 개발하였다. 특히 질의어에 경로 연산자를 지원하여 원하는 정보를 정확하게 찾을 수 있도록 하였다. 또한 본 시스템은 구조적인 검색을 효율적으로 지원하기 위하여 구조정보를 DSSL의 Grove에 기반한 구조로 저장한다.

  • PDF

Efficient Indexing Technique for Retrieval of an XML Document and Design of Query Language (TQL) (XML 문서의 검색을 위한 효율적인 색인 기법과 질의 언어(TQL)의 설계)

  • 이계준;신동욱;권택근
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.57-59
    • /
    • 1999
  • 현재 WWW(World Wide Web), 사무 자동화 시스템(Office Information System), 전자 도서관(Digital Library) 등의 빠른 발전으로 인하여 정보가 기하급수적으로 증가하였다. 이러한 방대한 양의 정보를 처리하기 위하여 많은 인터넷 기반의 문서 표준들이 출현하였고, 대표적으로 XML(eXtensible Markup Language)이 차세대 인터넷 전자 문서의 표준으로 많은 곳에 응용되고 있다. 이에 따라 XML 문서의 정보들을 효율적이고 정확하게 저장하고 이용, 검색 할 수 있는 기능을 요구되어졌다. 현재 대부분의 연구들은 XML 문서에 대한 구조적인 정보만을 저장하고 검색하는 기능만을 지원 할 뿐 검색된 결과에 대한 재사용이나 재구성에 대한 기능의 제공은 미흡한 실정이다. 본 논문에서는 현재 검색기들이 제공하는 XML 문서에 대한 구조적인 검색 기능을 확장하여 XML 문서를 보다 효율적으로 검색하기 위하여 새로운 색인 기법을 제안하고, 데이터베이스 내에 저장된 XML문서에 대해 구조적인 검색과 이것을 바탕으로 문서를 재구성하고 재사용하는 기능을 수행할 수 있도록 새로운 질의어(TQL)을 설계하였다.

  • PDF