• Title/Summary/Keyword: 문서분할

Search Result 177, Processing Time 0.029 seconds

A RDB storage model for XML-based public documents (XML기반 공문서의 관계 데이터베이스 저장 모델)

  • An, Man-Sun;Lee, Eun-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.53-56
    • /
    • 2004
  • 공문서는 정부가 제정한 공문서 표준 DTD 및 XML 문법에 따라 작성되고 있으나, 일반 문서와 동일하게 정부의 디렉토리시스템에 문서 단위로 저장 관리되고 있다. 그러나 구조 정보를 포함하고 있는 XML 문서를 보다 효과적으로 활용하기 위해서는 논리구조 단위로 정보를 저장 관리할 필요가 있다. 본 논문은 XML로 작성되는 공문서의 특성을 파악하여 데이터베이스로 저장할 때 적합한 모델을 제안한다. 대부분의 공공기관이 사용하고 있는 관계 데이터베이스시스템(RDBMS)을 사용하였고, 데이터 중심과 문서내용 중심의 성격을 동시에 가지는 공문서의 특성을 고려하였다. 제안하는 저장 모델은 메타데이터를 표현하는 부분은 정적인 테이블을 사용하여 구조정보와 내용을 함께 저장하고, 문서 내용 중심의 본문 부분은 분할하지 않고 저장하는 변형된 분할 저장 방식이다. 제안하는 저장 모델을 활용하면 기존 RDBMS로 개발된 여러 응용 시스템과의 연동이 가능하고, XML 데이터 저장/검색을 위한 새로운 데이터베이스시스템의 구입 없이 XML 전자문서를 효율적으로 관리할 수 있다는 장점이 있다.

  • PDF

Service-centric Object Fragmentation Model for Efficient Retrieval and Management of XML Documents (XML 문서의 효율적인 검색과 관리를 위한 SCOF 모델)

  • Jeong, Chang-Hoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.595-598
    • /
    • 2007
  • Vast amount of XML documents raise interests in how they will be used and how far their usage can be expanded. This paper has two central goals: 1) easy and fast retrieval of XML documents or relevant elements; and 2) efficient and stable management of large-size XML documents. The keys to develop such a practical system are how to segment a large XML document to smaller fragments and how to store them. In order to achieve these goals, we designed SCOF(Service-centric Object Fragmentation) model, which is a semi-decomposition method based on conversion rules provided by XML database managers. Keyword-based search using SCOF model then retrieves the specific elements or attributes of XML documents, just as typical XML query language does. Even though this approach needs the wisdom of managers in XML document collection, SCOF model makes it efficient both retrieval and management of massive XML documents.

  • PDF

Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term (분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법)

  • Lee, Sang-Kon
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.57-66
    • /
    • 2003
  • We propose a technique to extract a relevant passage from text collection based on field-associated terms since they tries to concentrate relevant text to users query. Documents are supposed to be managed as a whole without any segmentation into small pieces, but the method presented is independent upon any text-embedded auxiliary information, and is based on topic continuity and transition. For users needs-relative sentences or passages, we present a passage retrieval techniques by using occurrence frequency of a field-associated term to delimit text, that is likely to be relevant to a particular topic, considering continuity and transition within topic flowing in text. We evaluate 50 Japanese documents and verify the usefulness with 82% for average precision and 63% for recall.

Query Processing using Information of Parent Nodes in Partitioned Inverted Index Tables (분할된 역 인덱스 테이블에서 부모노드의 정보를 이용한 질의 처리)

  • Kim, Myung-Soo;Hwang, Byung-Yeon
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.7
    • /
    • pp.905-913
    • /
    • 2008
  • Many heterogeneous XML documents are being widely used with the increasing employment of XML, and the importance of data structure research for more efficient document management has been growing steadily. We propose a query processing technique which uses parent node information in a partitioned inverted index tree. The searching efficiency of these heterogeneous documents is greatly influenced by the number of query processing and the amount of target data sets in many ways. Therefore, considering these two factors is very important for designing a data structure. First, our technique stores parent node's information in an inverted index table. Then using this information, we can reduce the number of query processing by half. Also, the amount of target data sets can be lessoned by using partitioned inverted index table. Some XML documents collected from the Internet will be used to demonstrate the new method, and its high efficiency will be compared with some of the existing searching methods.

  • PDF

Design and Implementation of XQuery processor using Relational Technologies (관계형 데이터베이스 환경에서의 XQuery Processor 설계 및 구현)

  • Jung, Min-Kyoung;Hong, Dong-Kweon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.23-26
    • /
    • 2005
  • XML이 발표되면서 대용량의 XML을 효과적으로 관리하는 여러 가지 방법들이 연구되고 있다. 특히 지금까지 상업적, 기술적으로 성공적이고 안정된 데이터 모델인 관계형 데이터베이스를 활용하는 여러 가지 방법들이 연구되고 있다. 본 논문은 관계형 DBMS를 사용하여 XML 질의어인 XQuery를 SQL로 변환하여 처리하는 효율적인 방법을 제안한다. 우선 본 논문에서 제안하는 방식은 XML문서를 분할하여 관계형 테이블에 저장하는 분할방식을 사용하며, 분할된 관계형 테이블을 이용하여 XPath를 포함한 XQuery의 기능을 실행하는 SQL을 생성하여 관계형 DBMS에서 SQL을 실행하는 방식을 사용한다. 제안한 XQuery 처리방식은 먼저 XQuery의 구문 분석을 통하여 AST(Abstract Syntax Tree)를 생성하고, AST를 순회하면서 SQL문장을 생성한다. 생성된 SQL문장은 XML 문서의 경로를 사용함으로써 XQuery 연산의 조인 횟수를 감소시키며, 각 노드마다 부여된 순서 정보를 효과적으로 사용하여 문서의 원래 순서에 맞는 XML 부분을 생성하는 방법을 제시한다. 그리고 실제 제안된 시스템을 개발하여 그 성능을 평가한다.

  • PDF

A Comparative Study on the Agglomerative and Divisive Methods for Hierarchical Document Clustering (계층적 문서 클러스터링을 위한 응집식 기법과 분할식 기법의 비교 연구)

  • Lee, Jae-Yun;Jeong, Jin-Ah
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2005.08a
    • /
    • pp.65-70
    • /
    • 2005
  • 계층적 문서 클러스터링에 있어서 실험집단에 따라 응집식 기법과 분할식 기법의 성능이 다르며, 이를 좌우하는 요소는 분류의 깊이, 즉 분류수준이라고 가정하였다. 조금만 나누면 되는 대분류인 경우는 상대적으로 분할식 기법이 유리하고, 조금만 합치면 되는 소분류인 경우에는 응집식 기법이 유리할 것이라고 판단했기 때문이다. 그에 따라 분할식 클러스터링 기법인 양분(Bisecting) K-means기법과 응집식 기법인 완전연결, 평균연결, WARD기법의 성능을 실험집단이 대분류인 경우와 소분류인 경우의 유사계수를 적용하여 각 기법별 성능을 비교하여 실험집단의 특성에 따른 적합 클러스터링 기법을 찾고자 하였다. 실험결과 응집식 기법과 분할식 기법의 성능 우열에 영향을 미치는 것은 분류수준보다는 변이계수로 측정된 상대적인 군집의 크기 편차인 것으로 나타났다.

  • PDF

Concept and Attribute based Answer Retrieval (개념 속성 기반 정보 검색)

  • Yun Bo-Hyun;Seo Chang-ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.3 s.35
    • /
    • pp.1-10
    • /
    • 2005
  • This paper presents the information retrieval system which can retrieve the most appropriate answer sentence for user queries by using the concept and the attribute for the knowledge retrieval. The system analyzes the user query into the Boolean queries with the concept and the attribute and then retrieve the relevant documents in the indexing set of answer documents. Users can retrieve the relevant answer sentences from the relevant documents. For this, the answer documents indexed by the concept and the attribute are segmented by each sentence respectively. Thus, the segmented sentences are analyzed into the concept and the attribute of which the relevance degree with indexing units of documents is evaluated. Then, the system indexes the location of answer sentences. In the experiment, we evaluate the performance of our answer retrieval system against 100 user queries and show the experimental results.

  • PDF

Development of an XML Storage and Management System using Document Fragmentation Method (문서 단편화 기법을 이용한 XML 저장 관리 시스템 개발)

  • Jeong Chang-Hoo;Choi Yun-Soo;Seo Jeong-Hyeon;Jin Du-Seok;Kim Kwang-Young;Joo Won-Kyun;Lee Min-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.181-183
    • /
    • 2005
  • 다양한 응용 분야에서 점차 증가하고 있는 XML 문서를 효과적으로 저장하고 검색하는 방법에 대한 연구가 많이 이루어지고 있다. XML 문서의 정보를 데이터베이스에 저장하는 방법으로 분할 저장 방식과 비분할 저장 방식이 있는데, 본 논문에서는 두 가지 방법의 중간자적인 형태를 취함으로써 문서의 구조적인 정보를 효과적으로 표현하고, 검색 결과 재구성 시에 발생하는 오버헤드를 제거할 수 있는 시스템에 대해서 설명하도록 한다. 복잡한 계층 구조의 XML 문서를 서비스의 목적에 따라서 중요하다고 판단되는 단편노드의 단위로 구분하고 단편노드 안에 존재하는 세부 엘리먼트 및 속성에 대해서 별칭을 사용하는 검색 필드를 미리 구성해 놓음으로써, XML 문서의 구조적 특성을 명확하게 알지 못하거나 질의어 작성에 익숙하지 못한 사용자에게 보다 사용하기 편리한 XML 문서 검색 서비스를 제공할 수 있다.

  • PDF

Keyword Spotting on Hangul Document Images Using Character Feature Models (문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색)

  • Park, Sang-Cheol;Kim, Soo-Hyung;Choi, Deok-Jai
    • The KIPS Transactions:PartB
    • /
    • v.12B no.5 s.101
    • /
    • pp.521-526
    • /
    • 2005
  • In this Paper, we propose a keyword spotting system as an alternative to searching system for poor quality Korean document images and compare the Proposed system with an OCR-based document retrieval system. The system is composed of character segmentation, feature extraction for the query keyword, and word-to-word matching. In the character segmentation step, we propose an effective method to remove the connectivity between adjacent characters and a character segmentation method by making the variance of character widths minimum. In the query creation step, feature vector for the query is constructed by a combination of a character model by typeface. In the matching step, word-to-word matching is applied base on a character-to-character matching. We demonstrated that the proposed keyword spotting system is more efficient than the OCR-based one to search a keyword on the Korean document images, especially when the quality of documents is quite poor and point size is small.

A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection (부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법)

  • Ock, Chang-Seok;Seo, Jong-Kyu;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.