• 제목/요약/키워드: structured document

검색결과 170건 처리시간 0.025초

사회기반시설물 안전관리 지원 데이터베이스 구축을 위한 구조계산서의 XML 문서화 방법론 (A methodology for XML documentation of the structural calculation document to build database supporting safety management of infrastructures)

  • 이진훈;박상일;김봉근;이상호
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2007년도 정기총회 및 학술발표대회
    • /
    • pp.414-417
    • /
    • 2007
  • A methodology for XML documentation of the structural calculation document is presented to support manipulation of the design information on the internet. The text file format is chosen as a neutral format because it can be easily translated from office documents generated from engineering practice. The first word of each line is compared with the reserved numbering groups, and relative levels among the lines are defined to generate the hierarchically structured XML document of the text file. The demonstration subjected to sample general documents and structural calculation documents shows that the prototype application module based on the developed methodology can be adopted to build the database of design information which supports the safety management of infrastructures.

  • PDF

XForm 표준에 근거 한 XForm 저작기 개발에 관한 연구 (A Study on Implementation of XForm Editor based on XForm Standard)

  • 최경호;현득창;신예호
    • 한국컴퓨터산업학회논문지
    • /
    • 제7권3호
    • /
    • pp.135-144
    • /
    • 2006
  • 오늘날 컴퓨터 기술의 발전과 네트워크의 급속한 확산에 따라 기존의 종이를 이용한 정보매체에서 전자문서로의 변화가 가속화되고 있다. 이에 따라 전자문서를 생성하고, 전자문서에 포함된 정보를 관리하는 것은 매우 중요한 이슈가 되었다. XML은 인터넷상에서 복잡하고 구조화된 문서자료의 저장, 관리, 검색을 용이하게 할 수 있을 뿐만 아니라, 나아가 전자상거래, 전자 도서관, 가상대학 등의 핵심 응용 시스템의 구축에서 중요한 역할을 하고 있다. 이러한 XML 문서를 일반 사용자가 작성하는 것은 쉬운 작업이 아니다. 따라서 본 논문은 XML 문서를 보다 쉽고 편리하게 작성하기 위한 편집 방법에 관한 연구이다. 이를 위해 본 논문에서 제시하고 있는 방안은 문서 폼(Form)을 이용해 XML 문서를 입력한다는 개념을 도입하였고, XML 문서 폼을 만드는 과정과 만들어진 XML 문서 폼을 이용해 실제 XML 문서를 만드는 과정으로 입력과정을 분리하였다. 이러한 분리된 입력방법은 XML에 대해 잘 모르는 입력자라 할지라도 전문가나 시스템에서 제공하는 XML문서 폼을 이용하면 XML문서를 쉽게 입력할 수 있기 때문에 XML입력의 효율성을 높일 수 있게 된다.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

A Modeling of XML Document Preserving Object-Oriented Concepts

  • Kim, Chang Suk;Kim, Dae Su;Son, Dong Cheul
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권2호
    • /
    • pp.129-134
    • /
    • 2004
  • XML is the new universal format for structured documents and data on the World Wide Web. As the Web becomes a major means of disseminating and sharing information and as the amount of XML data increases substantially, there are increased needs to manage and design such XML document in a novel yet efficient way. Moreover a demand of XML Schema(W3C XML Schema Spec.) that verifies XML document becomes increasing recently. However, XML Schema has a weak point for design because of its complication despite of various data and abundant expressiveness. Thus, it is difficult to design a complex document reflecting the usability, global and local facility and ability of expansion. This paper shows a simple way of modeling for XML document using a fundamental means for database design, the Entity-Relationship model. The design from the Entity-Relationship model to XML Schema can not be directly on account of discordance between the two models. So we present some algorithms to generate XML Schema from the Entity-Relationship model. The algorithms produce XML Schema codes using a hierarchical view representation. An important objective of this modeling is to preserve XML Schema's object-oriented concepts such as reusability, global and local ability. In addition to, implementation procedure and evaluation of the proposed design method are described.

계층 구조의 Deck를 갖는 HTML Filter 구현 방안 (Implementation of HTML Filter with structured Decks)

  • 김대건;이승진;강경용;최린;강철희
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(1)
    • /
    • pp.141-144
    • /
    • 2001
  • This paper has been studied a implementation of HTML Filter with structured decks. In wireless environment, conventional HTML Filter converts HTML document to WML by once. However, it is more efficient to access a WEB site by transmitting the minimal capacity of core data in WAP environment. Therefore this paper suggests new HTML Filter that automatically analyze the contents of HTML WEB and transmits it by selecting the one of many Decks that have the structured architecture. Also the protocol between wireless terminal and WAP Gateway is considered. Finally, We test the proposed HTML Filter with structured Decks for some particular web site.

  • PDF

문서구조 추출기법을 이용한 엔지니어링 문서 텍스트 정보의 XML 변환 (Transformation of Text Contents of Engineering Documents into an XML Document by using a Technique of Document Structure Extraction)

  • 이상호;박준원;박상일;김봉근
    • 대한토목학회논문집
    • /
    • 제31권6D호
    • /
    • pp.849-856
    • /
    • 2011
  • 본 연구에서는 교량의 구조계산서와 같이 여러 종류의 머리기호를 사용하며 제목의 계층구조가 복잡한 형식을 띄는 엔지니어링 문서의 비구조화된 텍스트 정보를 제목의 계층 구조에 따른 준구조화된 XML 문서로 변환시키는 방법을 제시한다. 텍스트 정보로부터 제목의 계층구조를 자동으로 추출하기 위해 문서구조분석 방법의 하나인 문서구조추출 기법을 이용하는 방법을 개발하였으며, 특히 개조식 구문의 식별방법을 개발하여 구조계산서 문서 계층구조의 제목추출과정 및 계층구분의 전체 정확도를 향상시킬 수 있는 방법을 제시하였다. 제시된 방법에 따른 응용모듈을 개발하였으며, 총 40개의 교량 구조계산서를 대상으로 그 성능을 평가하였다. 먼저, 20개의 강거더 상부 구조계산서를 대상으로 선행 연구결과와 비교하여 본 연구에서 개발된 응용모듈의 정확성과 신뢰도가 향상됨을 보였다. 또한, 다른 구조형식에 대한 구조계산서 20개에 대하여 개발된 모듈의 적용성을 평가하였다. 그 결과 본 연구에서 제안한 방법에 의한 문서 계층구조 분석의 최종 정확도는 평균 99% 수준 이상을 나타내고, 표준편차는 1.52로 나타나 본 연구에서 제시된 방법이 다양한 형식의 머리기호를 사용하여 제목을 구분하는 여러 엔지니어링 문서에도 적용이 가능함을 보였다.

XML문서에서 어노테이션의 위치재생성 기법 (Annotation Repositioning Methods in XML Documents)

  • 손원성;김재경;고명철;임순범;최윤철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.650-662
    • /
    • 2005
  • 어노테이션 시스템에서 원본문서가 갱신되었을 경우 어노테이션이 항상 적절한 위치를 유지하기 위해서는 로버스트(robust)한 위치재생성(repositioning) 기능이 필요하다. XML 문서환경에서 어노테이션에 대한 위치재생성을 위해서는 텍스트 정보뿐만 아니라 구조문서 특성을 포함할 수 있어야 한다. 이를 위하여 본 논문에서는 XML 기반의 원본문서 및 어노테이션 정보를 논리구조트리(logical structure tree)로 표현하고, 각 트리간의 대응관계를 분석하여 복수의 후보 앵커들을 생성한다 또한 복수의 후보 앵커들 중 최적의 후보 앵커를 선택하기 위하여 논리구조트리 앵커 노드의 문자열(textual data) 및 레이블 정보에 기반한 단계별 앵커링 기준을 제시한다. 그 결과 본 논문에서는 구조문서 환경에서 다양한 형태의 컨텍스트 갱신이 발생하였을 경우에도 로버스트한 위치재생성이 가능하다.

UML 확장 메카니즘을 이용한 XML 스키마 사상 명세 (Mapping Specification for XML Schema using UML Extension Mechanisms)

  • 조정길
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권2호
    • /
    • pp.167-178
    • /
    • 2002
  • 최근에 이 기종 시스템간의 구조적인 문서 교환을 위해 XML(eXtensible Markup Language)이 B2B와 각종 산업계에 급속히 확산되고 있는 시점에서 이를 모델링 하기 위한 객체 지향적인 시각화 도구가 필요하다. XML에서 현재 사용하는 문서구조 정의용 규칙인 DTD(Document Type Declaration)는 여러 산업 분야에 적용시키기가 어렵다. 이에 W3C에서 XML에 더욱 적합하고 사용자를 만족시키기에 충분한 새로운 문서 구조 정의용 규칙인 XML 스키마(Schema)의 권고안(Recommendation)을 발표하였다. 이에 XML 스키마를 객체지향 모델링 기법(UML)을 활용해 설계하면 재사용성이 높고 유연성이 좋은 문서 구조를 정의할 수가 있다. 본 논문은 XML 스키마를 UML(Unified Modeling Language)로 사상(mapping)하는 명세와 알고리즘을 제안한다.

  • PDF

문서 처리 자동화를 위한 다양한 표 유형에서 표 구조 인식 방법 (Structure Recognition Method in Various Table Types for Document Processing Automation)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제25권5호
    • /
    • pp.695-702
    • /
    • 2022
  • In this paper, we propose the method of a table structure recognition in various table types for document processing automation. A table with items surrounded by ruled lines are analyzed by detecting horizontal and vertical lines for recognizing the table structure. In case of a table with items separated by spaces, the table structure are recognized by analyzing the arrangement of row items. After recognizing the table structure, the areas of the table items are input into OCR engine and the character recognition result output to a text file in a structured format such as CSV or JSON. In simulation results, the average accuracy of table item recognition is about 94%.

Document Structure Understanding on Subjects Registration Table

  • Ito, Yuichi;Ohno, Masanaga;Tsuruoka, Shinji;Yoshikawa, Tomohiro;Tsuyoshi, Shinogi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.571-574
    • /
    • 2003
  • This research is aimed to automate the generating process of the database from paper based table forms like this work. The registration table has so complicate table structures, ana in this research we used the registration tables as an example of general table structure understanding. We propose a table structure understanding system for some table types, and it has some steps. The first step is that the document images on paper are read from the image scanner. The second step is that a document image segments into some tables. In the third step, the character strings is extracted using image processing technology and the property of the character strings is determined. And the structured database is generated automatically. The proposed system consists of two systems. "Master document generation system" is used for the table form definition, and it doesn′t include the handwritten characters. "Structure analysis system for complete d table" is used for the written form, and it analyzes the table form filled in the handwritten character. We implemented the system using MS Visual C++ on Windows, and it can get the correct extraction rate 98% among 51 registration tables written by the different students.

  • PDF