• Title/Summary/Keyword: 문서 구조 인식

Search Result 133, Processing Time 0.108 seconds

A Minimization Technique of XML Path Comparison Based on Signature (시그니쳐를 이용한 XML 경로 비교의 최소화 기법)

  • Jang, Kyung-Hoon;Hwang, Byung-Yeon
    • The Journal of Society for e-Business Studies
    • /
    • v.17 no.3
    • /
    • pp.61-72
    • /
    • 2012
  • Since XML allows users to define any tags, XML documents with various structures have been created. Accordingly, many studies on clustering and searching the XML documents based on the similarity of paths have been done in order to manage the documents efficiently. To retrieve XML documents having similar structures, the three-dimensional bitmap indexing technique uses a path as a unit when it creates an index. If a path structure is changed, the technique recognizes it as a new path. Thus, another technique to measure the similarity of paths was proposed. To compute the similarity between two paths, the technique compares every node of the paths. It causes unnecessary comparison of the nodes, which do not exist in common between the two paths. In this paper, we propose a new technique that minimizes the comparison using signatures and show the performance evaluation results of the technique. The comparison speed of proposed technique was 20 percent faster than the existing technique.

Development of Intelligent OCR Technology to Utilize Document Image Data (문서 이미지 데이터 활용을 위한 지능형 OCR 기술 개발)

  • Kim, Sangjun;Yu, Donghui;Hwang, Soyoung;Kim, Minho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.212-215
    • /
    • 2022
  • In the era of so-called digital transformation today, the need for the construction and utilization of big data in various fields has increased. Today, a lot of data is produced and stored in a digital device and media-friendly manner, but the production and storage of data for a long time in the past has been dominated by print books. Therefore, the need for Optical Character Recognition (OCR) technology to utilize the vast amount of print books accumulated for a long time as big data was also required in line with the need for big data. In this study, a system for digitizing the structure and content of a document object inside a scanned book image is proposed. The proposal system largely consists of the following three steps. 1) Recognition of area information by document objects (table, equation, picture, text body) in scanned book image. 2) OCR processing for each area of the text body-table-formula module according to recognized document object areas. 3) The processed document informations gather up and returned to the JSON format. The model proposed in this study uses an open-source project that additional learning and improvement. Intelligent OCR proposed as a system in this study showed commercial OCR software-level performance in processing four types of document objects(table, equation, image, text body).

  • PDF

Ontology based SBML Converter (온톨로지 기반의 SBML 변환기)

  • 임정곤;김태경;정태성;조완섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.259-261
    • /
    • 2004
  • 최근 이슈가 되고 있는 시스템 생물학(Systems Biology)은 생물학적인 이론과 컴퓨터의 계산적인 모델링 그리고 실험의 상호 의존적인 통합으로써 특징 지워진다. 그 중 컴퓨터의 계산적인 모델링에 대한 연구가 무엇보다 중요한 비중을 차지하고 있다. 하지만 계산적인 모델링에서 여러 자원을 통합하기 위한 공통의 기반 구조나 표준에 대한 연구는 미흡한 실정이다. 이러한 문제점을 해결하기 위해 KML 기반의 형식을 갖춘 SBML(Systems Biology Markup Language)이 시스템 생물학의 표준으로 개발되어 연구 중에 있다. 현재 시스템 생물학 분야에서 개발중인 시뮬레이션과 데이터 분석을 위한 다양한 응용 어플리케이션이 이미 SBML 문서를 지원하고 있다. 본 연구에서는 시스템 생물학 분야에서 SBML 표준에 대한 중요성을 인식하여, 객체지향 바이오 데이터베이스로부터 질의 결과를 SBML 문서로 변환하고, 반대로 외부의 SBML 문서를 객체지향 데이터베이스에 저장하는 변환기를 제안하며, 데이터를 검색하고 저장하는데 발생하는 중복이나 동의어 관계의 모호성을 줄이고 정확성을 높이기 위한 방안으로 온톨로지 기법을 적용한다.

  • PDF

Font Classification of English Printed Character using Non-negative Matrix Factorization (NMF를 이용한 영문자 활자체 폰트 분류)

  • Lee, Chang-Woo;Kang, Hyun;Jung, Kee-Chul;Kim, Hang-Joon
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.2
    • /
    • pp.65-76
    • /
    • 2004
  • Today, most documents are electronically produced and their paleography is digitalized by imaging, resulting in a tremendous number of electronic documents in the shape of images. Therefore, to process these document images, many methods of document structure analysis and recognition have already been proposed, including font classification. Accordingly, the current paper proposes a font classification method for document images that uses non-negative matrix factorization (NMF), which is able to learn part-based representations of objects. In the proposed method, spatially total features of font images are automatically extracted using NMF, then the appropriateness of the features specifying each font is investigated. The proposed method is expected to improve the performance of optical character recognition (OCR), document indexing, and retrieval systems, when such systems adopt a font classifier as a preprocessor.

Printed Hangul Recognition with Adaptive Hierarchical Structures Depending on 6-Types (6-유형 별로 적응적 계층 구조를 갖는 인쇄 한글 인식)

  • Ham, Dae-Sung;Lee, Duk-Ryong;Choi, Kyung-Ung;Oh, Il-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.1
    • /
    • pp.10-18
    • /
    • 2010
  • Due to a large number of classes in Hangul character recognition, it is usual to use the six-type preclassification stage. After the preclassification, the first consonent, vowel, and last consonent can be classified separately. Though each of three components has a few of classes, classification errors occurs often due to shape similarity such as 'ㅔ' and 'ㅖ'. So this paper proposes a hierarchical recognition method which adopts multi-stage tree structures for each of 6-types. In addition, to reduce the interference among three components, the method uses the recognition results of first consonents and vowel as features of vowel classifier. The recognition accuracy for the test set of PHD08 database was 98.96%.

A Probabilistic Method for Recognizing Unlabeled Text on Web Pages (웹페이지에서 레이블이 없는 텍스트 인식을 위한 확률 모델)

  • 정창후;이민호;주원균;맹성현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.163-165
    • /
    • 2003
  • 도메인 지식은 텍스트의 포맷과 의미 정보를 이용하여 웹에 존재하는 텍스트의 다양한 의미를 이해할 수 있도록 도와준다. 그러나 도메인 지식은 텍스트에 데이터의 의미를 표현하는 레이블이 존재하지 알을 경우에 텍스트 인식을 제대로 수행할 수 없기 때문에 무용지물이 되고 만다. 이러한 문제를 해결하기 위해 본 논문에서는 레이블이 존재하지 않는 텍스트의 의미를 효과적으로 추론할 수 있는 엔티티 인식 모델을 제안한다 엔티티 인식 모델은 베이지언 모델과 컨텍스트 정보를 결합한 방법으로서, 구조 분석을 수행한 HTML 문서의 텍스트 토큰에 대해서 어떤 엔티티에 속할 것인가를 결정하는 기능을 수행한다. 실험 결과 본 모델을 사용할 경우 기존에는 레이블이 없어서 인식되지 않았던 텍스트들을 효과적으로 인식하는 것을 확인할 수 있었다.

  • PDF

Table Structure Recognition using Borderline Heatmap Regression (딥러닝 기반의 표 경계선 히트맵 회귀를 이용한 표의 구조 인식)

  • Lee, EunJi;Park, Jaewoo;Koo, Hyung Il;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.84-87
    • /
    • 2021
  • 본 논문에서는 딥러닝을 기반으로 문서영상에서 표 안의 셀 경계선을 히트맵 회귀(heatmap regression)로 추정함으로써 표의 구조를 인식하는 방법을 제안한다. 표는 기본적으로 행과 열로 이루어져 있기 때문에, 제안하는 방법에서는 먼저 1 차원 벡터 형태로 세로/가로 방향의 행/열 경계선 위치를 찾고, 이에 병합된 셀을 처리하기 위해 경계선이 그어져야 할 위치를 2 차원으로 추정한 결과를 적용하여 온전한 표의 경계선을 구한다. 이러한 구조를 통해 제안하는 방법은 표의 행과 열에 대한 정보를 효과적으로 이용함과 동시에, 복잡한 후처리 없이 병합된 셀을 처리할 수 있는 이점을 보인다. 실험은 1 차원의 행/열 경계선 위치를 반영하는 두 가지 방식에 대해 PubTabNet[11]에 대해 진행하여 결과를 보였다.

  • PDF

A Study on the Integration of Recognition Technology for Scientific Core Entities (과학기술 핵심개체 인식기술 통합에 관한 연구)

  • Choi, Yun-Soo;Jeong, Chang-Hoo;Cho, Hyun-Yang
    • Journal of the Korean Society for information Management
    • /
    • v.28 no.1
    • /
    • pp.89-104
    • /
    • 2011
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

A Study on Data Binding of XML for Context Aware Application in Ubiquitous (유비쿼터스의 상황인식 어플리케이션을 위한 XML데이터 바인딩 기술에 대한 연구)

  • Moon, Ji-Suk;Yoon, Hoi-Jin;Choi, Byoung-Ju
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.493-495
    • /
    • 2005
  • 유비쿼터스 컴퓨팅의 상황정보들은 서비스기반아키텍쳐와 같은 환경에서 XML기술을 기반으로 구성되며 공유된다. 따라서 상황인식 어플리케이션은 상황정보를 표현하는 XML문서를 대상으로 하는 행위들의 구현으로 볼 수 있다. 이때 상황인식 어플리케이션 구현의 시작을 XML 스키마 기반의 소스코드 템플리트를 이용한다면, 보다 정확하게 상황정보를 표현하는 어플리케이션을 구현할 수 있는 기반을 마련할 수 있다. 본 논문에서는 XML을 이용하는 방법 가운데, 기존의 파서를 통한 접근 방법이 아닌 바인딩 기술을 이용한 접근방법을 통해, 상황정보를 가지고 있는 XML 파일의 스키마 구조를 표현하는 어플리케이션 템플리트 생성한다. 이를 위해 본 논문은, 첫째, 바인딩 기술이 기존의 파서를 통한 접근법보다. 유비쿼터스 상황인식에 유리한 이유를 분석하였으며, 둘째, 여러 가지 바인딩 기술들을 항목별로 분석하여 상황인식 어플리케이션 템플리트를 만드는데 가장 적합한 한가지를 선정한다. 마지막으로 상황정보를 표현하는 XML을 이용하여 어플리케이션을 구현하는 방법의 이해를 돕기 위해 액티브 배지 시스템의 한 부분인 "Call Forwarding"에 본 논문에서 제안하는 방법을 적용하는 예제를 보인다.

  • PDF

Implementation and Design of the Priority Access and Fluid Annotation Method (우선접근이 가능한 유동적 Annotation 표현기법 설계 및 구현)

  • 이현찬;고승규;임순범;최윤철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.501-506
    • /
    • 2002
  • 사람은 누구나 잭이나 문서를 읽을 때 중요한 부분에 강조, 해설, 설명을 하기 위해서 표시를 하거나 글을 입력한다. 이와 같이 원본문서에 추가되는 부가 정보를 Annotation이라고 한다[6][7]. Annotation을 이용하면 차후에 원본문서를 재창조하거나 다른 사람이 원본문서를 참조할 경우 과중한 정보의 양을 극복할 수 있으므로[4], 원본문서의 이해도를 향상시킬 수 있다. 따라서, Annotation은 한번 사용하고 그치는 정보가 아닌 재사용할 수 있는 점보임을 의미한다[1,2,3]. 이러한 Annotation 기능을 웹 문서에 적용하게 되면 종이문서에서 얻을 수 있는 장점뿐만 아니라 웹 환경의 특징인 공유[5], 검색[4], 재편집 등의 기능이 가능하다. 이와 관련한 많은 연구가 진행중에 있다. 그러나, 기존의 Annotation 연구는 Anchor 입력된 다수의 Annotation이 무의미한 출력 순서로 제공되고 있으며, 또한 Anchor에 입력된 Annotation의 출력으로 인해 문서 구조가 변경되거나, 가려지는 등의 문제점으로 사용자들이 쉽게 사용 및 이해할 수 있는 Annotation 출력 인터페이스에 대한 연구가 부족한 실정이다. 따라서, 본 논문에서는 Anchor에 입력된 다수의 Annotation들 간의 의미적 순서를 부여하여 보다 적절한 Annotation에 대한 우선 접근이 가능하도록 계층적인 Annotation 우선처리 기법을 제안하고, Annotation 출력으로 인한 문서 변경 문제를 해결하기 위한 유동적인 Annotation 표현 기법을 제안한다. 또한 Annotation이 문서에 부가된 부가정보의 역할을 뿐만 아니라, 다양한 활용이 가능하도록 XML 표준에 기반한 저장 구조를 지원하며, 원본문서와 분리하여 저장한다.속도를 개선시켰고, 국소적인 변형이 있는 패턴과 특징의 수가 다른 패턴의 경우에도 좋은 인식률을 얻었다.r interferon alfa concentrated solution can be established according to the monograph of EP suggesting the revision of Minimum requirements for biological productss of e-procurement, e-placement, e-payment are also investigated.. monocytogenes, E. coli 및 S. enteritidis에 대한 키토산의 최소저해농도는 각각 0.1461 mg/mL, 0.2419 mg/mL, 0.0980 mg/mL 및 0.0490 mg/mL로 측정되었다. 또한 2%(v/v) 초산 자체의 최소저해농도를 측정한 결과, B. cereus, L. mosocytogenes, E. eoli에 대해서는 control과 비교시 유의적인 항균효과는 나타나지 않았다. 반면에 S. enteritidis의 경우는 배양시간 4시간까지는 항균활성을 나타내었지만, 8시간 이후부터는 S. enteritidis의 성장이 control 보다 높아져 배양시간 20시간에서는 control 보다 약 2배 이상 균주의 성장을 촉진시켰다.차에 따른 개별화 학습을 가능하게 할 뿐만 아니라 능동적인 참여를 유도하여 학습효율을 높일 수 있을 것으로 기대된다.향은 패션마케팅의 정의와 적용범위를 축소시킬 수 있는 위험을 내재한 것으로 보여진다. 그런가 하면, 많이 다루어진 주제라 할지라도 개념이나 용어가 통일되지 않고 사용되며 검증되어 통용되는 측정도구의 부재로 인하여 연구결과의 축적이 미비한 상태이다. 따라서, 이에 대한 재고와 새로운 방향

  • PDF