• Title/Summary/Keyword: 문서 구조 분석

Search Result 496, Processing Time 0.034 seconds

Composite Document Object Retrieval and Searching System-[IN2] DOR (복합문서 개체 검색 시스템- [IN2] DOR)

  • Ahn, Tae-Sung;Yim, Joong-Su;Kim, Myung-Hoon;Ahn, Woo-Ram;Lee, Kyung-Il
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.113-118
    • /
    • 2003
  • 기존 문서 검색 시스템의 경우 단순히 문서 내에서 텍스트를 추출한 후 그 텍스트를 색인, 검색하는 형태를 가지고 있었다. 본 논문에서는 MS Word, Excel, HWP 등 다양한 형태의 문서에서 텍스트, 표, 이미지, 차트, 동영상 등의 문서 개체를 분석, 색인하고 이를 검색하는 시스템의 개발 방법을 제외하였다. 제안된 시스템은 문서의 내부 자료 구조를 CDML(Composite Document Markup Language)로 변환하고, 이를 색인, 저장함으로 기존의 전문 검색 시스템의 한계를 효과적으로 극복했으며, 문서 내의 검색 대상 개체로 자동 이동하고 하일라이팅 시키는 기술을 구현함으로 사용자 편익성을 높였다. 개발된 시스템의 성능을 평가한 결과, 다양한 문서 형식에 대해 평균 97% 이상의 CDML변환 성공률과 개체 검색 성공률을 보였으며, 이진 파일에서 직접 개체를 추출함으로 매우 높은 분석 및 색인 속도가 달성되었음을 확인할 수 있었다. 본 논문에서 소개된 새로운 패러다임의 문서 검색 솔루션을 통해 다양한 기술적 상업적 파급 효과가 기대되고 있다.

  • PDF

Efficient XML Information Search through DTD Filtering and Query Expansion (DTD 여과 및 질의 확장에 의한 효율적인 XML 문서의 정보 검색)

  • Kim, Myoung Sook;Lee, Kyeung Soo;Kong, Yong Hae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.499-502
    • /
    • 2004
  • 본 논문은 정보검색의 대상이 되는 XML 문서를 효율적으로 선별하기 위해 온톨로지를 기반으로 XML 문서를 여과하였으며, 여과된 XML 문서를 대상으로 문서에 내재한 정보를 효과적으로 검색하도록 XML 질의를 확장하였다. 이를 위해, 온톨로지로부터 포괄적 DTD를 생성하는 알고리즘을 개발하였고, XML 문서의 효과적인 정보 검색을 위해 온톨로지의 개념 구조와 연관 관계를 분석하여 XML 질의를 확장하는 알고리즘을 개발하였다. 제안한 문서 여과와 질의 확장 알고리즘의 효과를 샘플 XML 문서에 적용하였다.

  • PDF

Line Edge-Based Type-Specific Corner Points Extraction for the Analysis of Table Form Document Structure (표 서식 문서의 구조 분석을 위한 선분 에지 기반의 유형별 꼭짓점 검출)

  • Jung, Jae-young
    • Journal of Digital Contents Society
    • /
    • v.15 no.2
    • /
    • pp.209-217
    • /
    • 2014
  • It is very important to classify a lot of table-form documents into the same type of classes or to extract information filled in the template automatically. For these, it is necessary to accurately analyze table-form structure. This paper proposes an algorithm to extract corner points based on line edge segments and to classify the type of junction from table-form images. The algorithm preprocesses image through binarization, skew correction, deletion of isolated small area of black color because that they are probably generated by noises.. And then, it processes detections of edge block, line edges from a edge block, corner points. The extracted corner points are classified as 9 types of junction based on the combination of horizontal/vertical line edge segments in a block. The proposed method is applied to the several unconstraint document images such as tax form, transaction receipt, ordinary document containing tables, etc. The experimental results show that the performance of point detection is over 99%. Considering that almost corner points make a correspondence pair in the table, the information of type of corner and width of line may be useful to analyse the structure of table-form document.

Document Image Layout Analysis Using Image Filters and Constrained Conditions (이미지 필터와 제한조건을 이용한 문서영상 구조분석)

  • Jang, Dae-Geun;Hwang, Chan-Sik
    • The KIPS Transactions:PartB
    • /
    • v.9B no.3
    • /
    • pp.311-318
    • /
    • 2002
  • Document image layout analysis contains the process to segment document image into detailed regions and the process to classify the segmented regions into text, picture, table or etc. In the region classification process, the size of a region, the density of black pixels, and the complexity of pixel distribution are the bases of region classification. But in case of picture, the ranges of these bases are so wide that it's difficult to decide the classification threshold between picture and others. As a result, the picture has a higher region classification error than others. In this paper, we propose document image layout analysis method which has a better performance for the picture and text region classification than that of previous methods including commercial softwares. In the picture and text region classification, median filter is used in order to reduce the influence of the size of a region, the density of black pixels, and the complexity of pixel distribution. Futhermore the classification error is corrected by the use of region expanding filter and constrained conditions.

Trends and Technology Ana17sis of XKMS(Xml Key Management Specification) (XKMS(Xml Key Management Specification)동향 및 기술 분석)

  • 김세영;이석래;박정환;신동일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.772-774
    • /
    • 2001
  • 최근 XML(eXtensible Markup Language)이 인터넷 전자 상거래와 데이터 전송 및 검색 부문에서 광범위하게 이용됨에 따라, XML 문서에 대한 보안과 표준화 문제가 대두되고 있다. XML을 이용한 각종 데이터 및 문서는 웹 상에 존재하게 되며, 가상공간에서 문서적 처리는 제 3자에 의해 위조나 변경이 가능하다. 이에 데이터 및 문서를 보호하는 일은 현재 필수적인 사안이며, XML 문서 보안에 대한 연구 개발 또한 활발히 진행되고 있다. 최근 Microsoft와 Verisign, Webmethods등 3개사는 XML기반 차세대 PKI(Public Key Infrastructure)기술인 XKMS(Xml Key Management Specification)를 개발하였으며, XKMS 표준화 작업에 휴렛패커드(HP), 불티모어, IBM, 퓨어에지솔루션스, 로이터 등이 참여하고 있다. 이에 본 논문에서는 XKMS의 표준화를 진행중인 표준화 단체의 XML 보안동향을 파악하고, XKMS의 내부 구조 및 전반적인 기술을 분석한다.

  • PDF

Document Retrieval using the Ontology Hierarchy (온톨로지내의 계층관계를 이용한 문서검색)

  • 임수연;송무희;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.640-642
    • /
    • 2004
  • 온톨로지는 주어진 응용 도메인의 특성을 나타내는 관련 개념들의 집합과 정의 그리고 그들간의 관계로 이루어진다. 본 논문에서는 코퍼스에 있는 텍스트의 분석 결과를 이용한 온톨로지를 구축방안과 이를 문서의 검색에 사용함으로써 해당정보가 있는 자원을 찾는 정확도를 향상시키는 방안을 제시하고자 한다. 이를 위하여, 실험 도메인의 문서 내에 출현한 전문 용어들의 결합형태를 분석하여 계층구조를 도출해내는 알고리즘을 제안하며 구축된 온톨로지를 문서의 검색에 응용하였다. 제안된 온톨로지는 전통적인 문서검색의 인덱스 파일과 같은 역할을 하게 되며, 질의로 들어온 키워드뿐 아니라 그에 대한 온톨로지 내 하위어들에 기반하여 검색을 수행함으로써 많은 의미정보를 포함하고 있으며 검색의 정확도를 높일 수 있었다.

  • PDF

An Efficient Method for Logical Structure Analysis of HTML Tables (HTML 테이블의 논리적 구조분석을 위한 효율적인 방법)

  • Kim Yeon-Seok;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.9
    • /
    • pp.1231-1246
    • /
    • 2006
  • HTML is a format for rendering Web documents visually and uses tables to present a relational information. Since HTML has limits in terms of information processing and management by a computer, it is important to transform HTML tables into XML documents, which is able to represent logical structure information. As a prerequisite for extracting information from the Web, this paper presents an efficient method for extracting logical structures from HTML tables and transforming them into XML documents. The proposed method consists of two phases: Area segmentation and structure analysis. The area segmentation step removes noisy areas and extracts attribute and value areas through visual and semantic coherency checkup. The hierarchical structure between attribute and value areas are analyzed and transformed into XML representations using a proposed table model. Experimental results with 1,180 HTML tables show that the proposed method performs better than the conventional method, resulting in an average precision of 86.7%.

  • PDF

Analysis of ebXML Core Component Technology (ebXML 핵심 컴포넌트 기술 분석)

  • Ha, Y.G.;Sohn, J.C.;Son, D.J.
    • Electronics and Telecommunications Trends
    • /
    • v.17 no.5 s.77
    • /
    • pp.26-36
    • /
    • 2002
  • ebXML은 e비즈니스를 위한 글로벌 표준으로서 그 동안 기업간 협력의 가장 큰 장애물로 여겨졌던 정보 시스템의 이질성을 극복할 수 있는 대안을 제시하는 기술이다. ebXML에서는 전체적인 프레임워크를 구성하는 주요 요소로서 거래 절차를 기술하는 비즈니스 프로세스, 거래에 이용되는 공통의 용어와 그 의미를 정의하고 있는 핵심 컴포넌트, 거래에 필요한 정보를 저장하고 검색하는 레지스트리, 거래 문서의 전송을 위한 메시징 서비스 등을 정의하고 있다. 이러한 구조를 기반으로 ebXML에서의 거래 절차는 비즈니스 프로세스에서 요구하고 있는 다양한 비즈니스 문서의 교환에 의해서 수행되며, 이때 필요한 비즈니스 문서의 모델은 핵심 컴포넌트를 기반으로 저작된다. 본 고에서는 우선 ebXML의 기술 구조 전반에 대하여 살펴보고, ebXML 핵심 컴포넌트 및 관련 기술에 대하여 자세히 설명하기로 한다.

Design of a Storage System for XML Documents using Relational Databases (관계 데이터베이스를 이용한 XML 문서 저장시스템 설계)

  • Shin, Byung-Ju;Jin, Min;Lee, Jong-Hak
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.1
    • /
    • pp.1-11
    • /
    • 2004
  • In this paper. we propose a storage system for XML documents using relational databases. Additional processing is required to store XML documents in the relational databases due to the discrepancy between XML structures and relational schema. This study aims to store XML documents with DTD in the relational databases. We propose the association inlining that exploits shred inlining and hybrid inlining and avoids relation fragments and excessive joins. Experiments show some improvements in the performance with the proposed method. The information of the storage structures is extracted from the simplified DTD. Existing map classes are extended in order to map various structures of XML to relational schema. Map classes are defined for various structures such as elements with multiple values, elements with multiple super elements, and elements with recursive structures through analyzing XML documents. Map files that are XML structures and used in generating SQL statements are created by using the extracted information of storage structures and map classes.

  • PDF

XML Document Clustering Technique by K-means algorithm through PCA (주성분 분석의 K 평균 알고리즘을 통한 XML 문서 군집화 기법)

  • Kim, Woo-Saeng
    • The KIPS Transactions:PartD
    • /
    • v.18D no.5
    • /
    • pp.339-342
    • /
    • 2011
  • Recently, researches are studied in developing efficient techniques for accessing, querying, and storing XML documents which are frequently used in the Internet. In this paper, we propose a new method to cluster XML documents efficiently. We use a K-means algorithm with a Principal Component Analysis(PCA) to cluster XML documents after they are represented by vectors in the feature vector space by transferring them as names and levels of the elements of the corresponding trees. The experiment shows that our proposed method has a good result.