• Title/Summary/Keyword: 문서분할

Search Result 177, Processing Time 0.027 seconds

Design and Implementation of an XML Repository System Supporting (버저닝을 지원하는 XHL 저장관리시스템 설계 및 구현)

  • 손충범;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.220-222
    • /
    • 2001
  • 최근 웹을 이용한 전자문서의 중요성이 부각되면서 대용량의 XML 문서에 대해 효율적으로 저장하고, 검색하며, 관리할 수 있는 XML, 저장관리 시스템의 연구가 활발히 진행되고 있다. XML 응용 중에서 특허문서 관리, 소프트웨어 설계, 시스템 매뉴얼 등의 응용과 같이 수정된 기존의 문서들이 관리되어야 하는 분야에서 버전 관리 기능이 필요하다. 본 논문에서는 문서의 수정을 효율적으로 지원하는 분할모델을 이용하여 문서 수정에 따른 버저닝을 지원하는 데이터 모델을 제안하고, 버저닝을 지원하는 XML 저장관리 시스템을 설계하고 구현한다.

  • PDF

Design of XPath Query Processor in Decomposition Storage System (분할 저장 시스템에 적합한 XPath 질의 처리기 설계)

  • 고영기;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.52-54
    • /
    • 2002
  • 인터넷에서 XML은 고유의 확장성과 문서 관계성의 우수성을 활용하여 새로운 정보 공유 환경의 표준으로 자리잡고 있으며 XML문서 안의 정보 검색을 위해서 XPath 질의어가 널리 사용 중이다. 따라서, XML 문서를 데이터베이스에 효율적으로 저장하고 검색하는 연구들이 진행되고 있다. 본 연구는 관계형 데이터베이스(RDBMS)를 통하여 XML문서를 저장하고 검색할 수 있게 하기 위해 XPath 질의어에 적합하도록 하부 저장 스키마를 설계하였다. 그리고, XPath 질의를 SQL문으로 변화시켜 수행함으로써 XML 데이터에 대한 접근을 허용하였다. 더욱이 SQL문 수행 후의 결과를 효율적으로 DOM 형식의 XML 문서를 생성시킴으로써 문서의 재 조작을 가능하게 하였다.

  • PDF

Text Partitioned Indexing Method for Educational Documents (교육용 문서의 텍스트분할 색인)

  • Kang, Mu-Yeong;Lee, Sang-Gu
    • Journal of The Korean Association of Information Education
    • /
    • v.3 no.2
    • /
    • pp.72-84
    • /
    • 2000
  • Information retrieval system plays a key role in the information society to store digital documents with efficiency and to provide user with the information through the retrieval very fast. Especially, indexing is a prerequisite function for the information retrieval system in order to retrieve the information of the documents effectively which are saved in database. In this paper, we propose an indexing method using text partition. This method can retrieve educational documents in short processing time. We applied the suggested indexing method to real information retrieval system, and proved its excellent functions through the demonstration.

  • PDF

ODYSSEUS/Parallel-OOSQL: A Parallel Information Retrieval System Using the Odysseus Object-Relational Database Management System (오디세우스/parallel-OOSQL: 오디세우스 객체 관계형 데이터베이스 관리 시스템을 사용한 병렬 정보 검색 시스템)

  • 류재준;이재길;이민재;황규영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.187-189
    • /
    • 2002
  • 인터넷의 성장과 함께 전자적인 형태로 표현되는 정보의 양이 급격하게 증가함에 따라, 문서를 병렬적으로 검색하는 병렬 정보 검색이 많은 양의 문서에 대한 빠른 검색을 지원하는 것에 있어 더욱 중요한 역활을 하고 있다. 병렬 정보 검색 시스템을 구현하기 위해서는 역 색인을 분활하고 분활된 역 색인을 병렬적으로 검색하는 것이 필요하다 역 색인을 분활하는 방법으로는 다음과 같은 두 가지 방법이 있다: 1) 문서 식별자를 기반으로 하는 분활 방법과 2) 키워드 식별자를 기반으로 하는 분활 방법. 그러나 각 방법은 단점들을 가지고 있다. 본 논문에서는 정보 검색 기능이 밀결합된 데이터베이스 관리 시스템인 오디세우스를 사용하여 병렬 정보 검색 시스템을 설계하고 구현한다. 첫째로, 기존의 역 색인 분할 방법을 분석하고 각 분말 방법의 단점들을 보완할 수 있는 혼합 분활 방법을 제안한다. 둘째로, 많은 양의 문서에 대해 성능 저하의 원인이 되는 대형 포스팅을 분할 하는 방법을 제안한다. 마지막으로 제안된 시스템의 유용성을 보이기 위해 실험을 수행한다. 예제 데이터베이스로서는 이백만 건의 웹 페이지를 사용한다. 실험 결과, 질의 저리 시간이 역 색인 분말의 블록의 개수에 근사하게 비례하여 줄어들고 시스템이 좋은 확장성을 가짐을 보인다.

  • PDF

Passage Segmentation based on Topic Appearance, Continuity, and Transition (화제 출현.계속.전환 처리를 이용한 한국어 문서의 단락분할)

  • Lim, Su-Jeong;Lee, Won-Hee;Lee, Samuel Sang-Kon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.737-740
    • /
    • 2005
  • 복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 단락분할 시스템을 개발한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야 예를 들면, 문서분류 및 요약 등의 기초연구에서 중요한 역할을 담당할 기술이다. 본 논문에서는 화제의 출현, 계속, 전환 시점을 고려하여 출현하는 각 화제의 단락구분 방법에 대하여 제안한다. 단락 구분 시 문서의 의미적인 실마리가 끊어지지 않도록 단락을 추출하는 방법을 제안한다.

  • PDF

Performance Analysis of XQL Query Decomposition Using XML Materialized Views (XML 실체뷰를 이용한 XQL 질의 분할의 성능 분석)

  • Moon, Chan-Ho;Kang, Hyun-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.63-66
    • /
    • 2002
  • XML 저장소 내에 XML 문서들과 그들로부터 도출된 XML 실체뷰가 있다고 가정할 때, XML 문서 검색의 성능 향상을 위해서 이들 실체뷰를 이용하여 질의를 처리할 수 있다. 즉, 하부 XML 문서에 대한 원래의 질의를 관련된 실체뷰에 대한 질의로 변환하여 수행함으로써 질의 응답시간을 줄일 수 있다. 실체뷰를 이용한 질의 처리의 유형으로는 (1) 실체뷰로부터 원하는 결과를 모두 얻을 수 있는 유형과 (2) 질의 결과의 일부는 실체뷰에 존재하지만 일부는 하부 XML 문서로부터 검색해야 하는 유형이 있다. 본 논문에서는 두번째 유형에 대하여 연구하였다. 주어진 질의를 (1) 실체뷰에 대한 질의와 하부 데이타에 대한 질의로 분할하여 처리한 후 두 결과를 통합하는 방법과 (2) 원래의 질의를 실체뷰를 이용하지 않고 처리하는 방법 간의 성능을 비교, 분석하였다.

  • PDF

RDF 메타 데이터를 이용한 인덱스 기반의 XML/SGML 문서 검색 방법에 관한 연구

  • 오동현;김규태;정회경;이수연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.42-44
    • /
    • 1999
  • 인터넷이 급속히 성장함에 따라 대량의 SGML/XML 문서를 보다 효과적으로 다룰 필요성이 증대하고 있다. SGML/XML 문서를 데이터베이스에 저장하는 경우에 문서를 파싱하여 파싱된 결과를 모두 분리하여 저장하고 서로의 연관관계를 모두 구분하는 경우 구조화 정보를 최대한 이용할 수 있는 등 여러 가지 장점을 지니게 된다. 하지만, 이 경우 분할단위의 폭발적인 증가로 인한 시스템 성능 저하와 내용중복으로 인한 색인저장 오버헤드가 문제이다. 이런 문제점을 해결방안의 하나로서 본 논문에서는 RDF 메타데이타를 통하여 검색시 의미가 있는 단위로 분할 단위를 축소 지정하고 이 축소된 정보를 기반으로 인덱스를 생성하여 내용중복을 방지하는 방법을 제안하였다. 이 방법은 RDF메타데이타를 통해 이루어짐으로서 웹기반에서 자동으로 이루어질 수가 있으며, 이를 통해서 기존의 방법보다 자동화된 검색을 할 수 있다.

  • PDF

XML Fragmentation for Resource-Efficient Query Processing over XML Fragment Stream (자원 효율적인 XML 조각 스트림 질의 처리를 위한 XML 분할)

  • Kim, Jin;Kang, Hyun-Chul
    • The KIPS Transactions:PartD
    • /
    • v.16D no.1
    • /
    • pp.27-42
    • /
    • 2009
  • In realizing ubiquitous computing, techniques of efficiently using the limited resource at client such as mobile devices are required. With a mobile device with limited amount of memory, the techniques of XML stream query processing should be employed to process queries over a large volume of XML data. Recently, several techniques were proposed which fragment XML documents into XML fragments and stream them for query processing at client. During query processing, there could be great difference in resource usage (query processing time and memory usage) depending on how the source XML documents are fragmented. As such, an efficient fragmentation technique is needed. In this paper, we propose an XML fragmentation technique whereby resource efficiency in query processing at client could be enhanced. For this, we first present a cost model of query processing over XML fragment stream. Then, we propose an algorithm for resource-efficient XML fragmentation. Through implementation and experiments, we showed that our fragmentation technique outperformed previous techniques both in processing time and memory usage. The contribution of this paper is to have made the techniques of query processing over XML fragment stream more feasible for practical use.

Keyword Weight based Paragraph Extraction Algorithm (문단 가중치 분석 기반 본문 영역 선정 알고리즘)

  • Lee, Jongwon;Yu, Seongjong;Kim, Doan;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.05a
    • /
    • pp.462-463
    • /
    • 2018
  • Traditional document analysis systems used word-based analysis using a morphological analyzer or TF-IDF technique. These systems have the advantage of being able to derive key keywords by calculating the weights of the keywords. On the other hand, it is not appropriate to analyze the contents of documents due to the structural limitations. To solve this problem, the proposed algorithm calculates the weights of the documents in the document and divides the paragraphs into areas. And we calculate the importance of the divided regions and let the user know the area with the most important paragraphs in the document. So, it is expected that the user will be provided with a service suitable for analyzing documents rather than using existing document analysis systems.

  • PDF

Design of XML Document Storage System Using ORDBMS (ORDBMS를 이용한 XML 저장 시스템 설계)

  • 한상웅;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.3-5
    • /
    • 2000
  • XML은 최근 인터넷상에서 정보 교환의 표준으로 자리잡고 있다. 따라서, 그동안 semistructured date와 XML 데이터를 데이터베이스에 저장하고 검색하기 위한 많은 연구들이 진행되어 왔다. 본 논문에서는 기존에 개발된 RDBMS를 이용한 시스템과 OODBMS를 이용한 시스템의 장단점을 수용하여 ORDBMS상에서 XML 문서를 저장하고 검색할 수 있는 시스템을 설계하였다. 이 시스템은 DTD 독립적인 XML 문서를 저장하기 위해 스키마와 분할저장 방법을 이용하여 임의의 XML 문서를 저장하고 저장된 문서의 갱신을 용이하게 처리할 수 있도록 하였다. 전체적인 시스템은 웹상에서 문서를 저장, 검색할 수 있는 웹 기반 시스템과 XML을 이용하는 응용프로그램의 데이터베이스 연동을 지원하는 응용기반 시스템으로 구분하였다.

  • PDF