• Title/Summary/Keyword: 문서구조

Search Result 1,613, Processing Time 0.038 seconds

Structure Recognition Method of Invoice Document Image for Document Processing Automation (문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법)

  • Dong-seok Lee;Soon-kak Kwon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.2
    • /
    • pp.11-19
    • /
    • 2023
  • In this paper, we propose the methods of invoice document structure recognition and of making a spreadsheet electronic document. The texts and block location information of word blocks are recognized by an optical character recognition engine through deep learning. The word blocks on the same row and same column are found through their coordinates. The document area is divided through arrangement information of the word blocks. The character recognition result is inputted in the spreadsheet based on the document structure. In simulation result, the item placement through the proposed method shows an average accuracy of 92.30%.

Implementation of A Browser for SGML-based Text Documents (SGML 기반의 텍스트 문서 브라우저의 구현)

  • Jang, Myung-Gil;Lee, He-Ran;Zhoo, Zong-Cheol;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.499-504
    • /
    • 1994
  • 기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.

  • PDF

XML Structured Model of Tree-type for Efficient Retrieval (효율적인 검색을 위한 Tree 형태의 XML 문서 구조 모델)

  • Kim Young-Ran
    • Journal of the Korea Society of Computer and Information
    • /
    • v.9 no.4 s.32
    • /
    • pp.27-32
    • /
    • 2004
  • A XML Document has a structure which may be irregular The irregular document structure is difficult for users to know exactly. In this paper, we propose the XML document model and the structure retrieval method for efficient management and structure retrieval of XML documents. So we use fixed-sized LETID having the information of element, describe the structured information retrieval algorithm for parent and child element to represent the structured information of XML documents. Using this method, we represent the structured information of XML document efficiently. We can directly access to specific clement by simple operation, and process various queries. We expect the method to support various structured retrieval of specific element such as parent, child. and sibling elements.

  • PDF

Proposing and Validating an Automated Method of Cognitive Knowledge Structure Creation from Single Documents (단일 문서 기반의 인지적 지식구조 자동 생성 기법 제안 및 검증)

  • Kim, Hyung-Woo;Yi, Mun-Y.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.247-250
    • /
    • 2011
  • 본 연구는 단일 문서로부터 문서가 내포하고 있는 지식정보를 지식구조 혹은 인지스키마로 불리는 형태로 자동 생성하는 기법을 제안한다. 제안된 기법을 이용하여 자동 생성된 지식구조는 실제 문서 학습자의 학습 전, 후의 지식구조, 문서의 해당 지식을 명확히 알고 있는 도메인 전문가의 지식구조와의 유사도 측정을 통해 검증하였다. 자동 생성된 지식구조는 학습자의 학습 후 지식구조, 전문가 지식구조와 상당한 유사성을 보이며, 문서의 지식 정보를 인지적인 관점에서 정교하게 표현 하고 있음을 확인하였다. 이는 기존의 단어 기반의 정보 기술들에서 더욱 고차원적인 지식 정보를 활용한 지식구조 기반 정보 기술의 연구 가능성을 제시한다.

An Indexing Scheme for Incremental Updating in Structured Document (구조화 문서에서 점진적 갱신을 위한 인텍싱 기법)

  • 김성완;김선경;이재호;임해철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.190-192
    • /
    • 2002
  • 구조와 문서(structured document)에 대만 효율적인 처리를 위해서는 문서의 임의 엘리먼트에 빠르고 직접적인 접근을 지원하는 인덱싱 기법이 필요하다 이를 위한 기존의 연구들에서는 전통적인 정보 검색 분야에서 사용되는 역 리스트나 시그너쳐 파일을 응용한 기법들이 제안되었다. 그러나 기존의 연구들은 정적인 환경에 적합한 인덱스 구조로써, 문서에 대한 동적인 변경이 있을 경우 인덱스론 전체적으로 재구성해야 하는 부담이 있다. 본 논문에서는 역 리스트를 기반으로 문서에 대만 구조 변경과 내용 변경 등 동적인 변경에 대해 점진적 갱신을 지원하는 인덱스 구조를 설계하였다.

  • PDF

Design and Implementation of a Structure Information Extractor for XML Documents (XML 문서를 위한 구조정보 추출기의 설계 및 구현)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

Representing and Processing Multimedia and Structured Documents For XML-Based Virtual Documents (XML 기반 가상문서에서의 멀티미디어 및 구조적 문서의 표현과 처리)

  • 박천수;임동수;박종현;강민구;강지훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.246-248
    • /
    • 2000
  • 가상문서는 웹 상에 존재하는 내용 중에서 원하는 부분만을 링크를 이용해 새로운 문서를 생성하는 개념이다. 본 논문에서는 가상문서를 지원하는 디지털 도서관 시스템에서 텍스트, 이미지 데이터뿐 아니라 멀티미디어 데이터와 구조적 의미를 갖는 데이터를 처리 가능하도록 DTD의 표기법을 확장하였다. 또한, 저작도구에서 생성된 내포링크, 참조링크, 총칭링크 등 다양한 의미의 가상무서를 브라우징 가능하도록 문서 변환기에서 멀티미디어와 구조적 문서를 처리하기 위한 방법을 제시하였다.

  • PDF

Korean Query Processing System for XML Document Retrieval (XML 문서 검색을 위한 한국어 질의 처리 시스템)

  • 박춘용;이현영;윤보현;강현규;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.161-163
    • /
    • 2000
  • 인터넷 문서의 표준 사양인 XML 문서가 늘어나면서 XML 문서를 효과적으로 관리고 검색하기 위한 시스템이 개발되고 있다. 그러나 정형화된 질의언어를 사용한 XML 문서의 검색 방법은 질의언어의 구조를 이해하고 사용법을 숙지해야 하는 어려움이 있어 일반 사용자에게는 적합하지 않다. 따라서 사용자가 쉽게 사용할 수 있으면서도 정확한 결과를 가지는 시스템이 요구된다. 본 논문에서는 XML 문서를 검색하기 위해 자연어로 질의를 입력하면 이를 XML 구조 검색을 위한 XQL 언어로 자동 변환해 주는 시스템을 제안한다. 제안한 시스템은 자연어를 이용하기 때문에 사용하기가 쉽고 XML 문서 구조가 변경되어도 쉽게 확장할 수 있는 장점을 가진다.

  • PDF

The design of XML document repository based on Static Table considering the efficiency of storing and indexing (저장과 색인의 효율성을 고려한 정적 테이블 기반의 XML 문서 저장 시스템 설계)

  • 홍석건;김정희;곽호영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.205-207
    • /
    • 2003
  • 본 논문에서는 XML 문서를 관계형 데이터베이스에 저장하는 XML 문서 저장 시스템을 제안한다. 제안 시스템은 XML 문서 구조인 DTD(Document Type Definition)를 보완한 XML Schema를 XML 문서의 기반구조로 사용하며, 또한 XML 문서의 저장과 색인의 효율성을 위해 XML 문서에 대한 저장 구조는 정적 테이블과 필드들을 가지는 데이터베이스를 기 생성하여 처리토록 하여, 제안 시스템을 이용한 애플리케이션에서 활용하기 용이하도록 하였다.

  • PDF

Web Documents Classification with Fuzzy Integration of Multiple Structure-Adaptive Self-Organizing Maps (다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 문서 분류)

  • 김경중;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.371-373
    • /
    • 2003
  • 웹 문서를 분류하는 목적은 특정 주제별로 중요한 문서들을 구분하려는 것과 사용자의 선호도를 바탕으로 개인화를 하려는 것으로 나누어 볼 수 있다. 특히, 웹의 효율적인 탐색을 위해 사용자가 관심 있어 할 웹 문서를 분류하는 것은 중요하다 일반적으로 하나의 웹 문서는 특징 추출방법에 의해 문서 벡터로 표시되며 사용자의 선호여부나 주제번호를 클래스로 삼는다. 사용자가 선호도를 표시한 웹 문서를 사용하여 새로운 웹 문서의 선호 여부를 예측하기 위해 자기 구성지도(SOM)를 사용하면, 시각적으로 구조를 보여주어 데이터 사이의 관계를 효과적으로 이해할 수 있다. 그러나 SOM은 노드의 개수와 구조를 자동적으로 결정하지 못하는 단점이 있기 때문에, SOM의 장점을 활용하면서 자동적으로 구조를 결정하기 위해 구조적응 자기구성지도(SASOM)를 이용한다. 보다 나은 성능과 다양한 해석을 위해, 여러 개의 SASOM을 서로 다른 특징추출 방법을 이용하여 학습시킨 후 사용자가 주관적으로 분류기의 중요도를 결정할 수 있는 퍼지적분을 사용하여 결합하였다. UCI Syskill & Webert 데이터에 대한 실험결과 기존의 DT, MLP, naive Bayes 분류기 보다 향상된 성능을 보였다.

  • PDF