• Title/Summary/Keyword: 문서 구조 인식

Search Result 133, Processing Time 0.021 seconds

Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping (패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출)

  • Jeong, Chang-Hoo;Chun, Hong-Woo;Choi, Yun-Soo;Song, Sa-kwang;Choi, Sung-Pil;Cho, Minhee;Jung, Hanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.281-282
    • /
    • 2012
  • 문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

  • PDF

An Error Synchronization running on IP-USN Software Stack for Transportation Safety Service (운송 안전 서비스를 위한 IP-USN 소프트웨어 스택에서의 오류 동기화)

  • Ko, Eung-Nam
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06d
    • /
    • pp.244-247
    • /
    • 2010
  • 본 연구에서는 운송 안전 서비스를 위한 IP-USN 게이트웨이 소프트웨어 스택 기반의 멀티미디어 협력 작업 환경에서 웹 접근이 가능하게 화이트 보드, 응용 공유, 웹 노트 등의 기능을 하나로 통합한 디지털 캐로절 시스템 환경에서의 오류 동기화 시스템을 기술한다. 오류 공유 시스템을 이용하여 공동 작업을 하는 다른 사용자들에게 신속히 전달하여서 오류 발생 인식을 공동으로 대처할 수 있도록 한다. 디지털 캐로절의 오류 제어구조로 사용자 입력부, 브라우저 컴포넌트, 드로잉제어기, 드로잉 윈도우, 브라우저 제어기, URL 정보 추출기, URL 동기기, 오류 정보 추출기, 오류 동기기, 문서 출력부등으로 구성된다.

  • PDF

기계요소부품의 설계자동화를 위한 CAD 소프드웨어 개발

  • 신동호
    • Journal of the KSME
    • /
    • v.28 no.6
    • /
    • pp.563-570
    • /
    • 1988
  • 컴퓨터 기술의 증진으로 일반산업 부문에서의 CAD(computer-aided design)의 역할이 급진적 으로 향상되고 있다. CAD의 분야별 적용 업무로서는 기본. 기능설계, 기술계산 및 해석, 상세 설계, 제도 및 문서작성으로 포괄되며, 각 분야별 특정용도의 CAD용 소프트웨어가 외국에서 활발히 개발 및 상품화되어 국내에서도 도입하여 그 이용도를 넓혀 나가고 있다. 대체로 상 품화된 CAD용 소프트웨어는 금형의 설계, 제도, 기술계산 및 해석용으로 크게 분류되며, 그 외 로는 기구학적 해석 및 동적해소용 소프트웨어가 주류를 이루고 있다. 또한 기본기능 설계 및 상세설계가 제품의 제작에 매우 중요한 단계로서 CAD의 필요성이 강조되며 이 분야에 적용 가능한 기계요소의 CAD화가 시급히 요청된다. 기계 요소 CAD프로그램의 개발을 위하여 그 래픽 패키지가 요구되는데, 패키지는 여러 기종의 그래픽 터미널에 사용되도록 개발되어야 한다. 따라서 본고에서는 개발대상인 기계요소부품과 그 연구범위를 소개하고 그래픽 패키지의 구조를 설명하며 개발된 CAD프로그램의 적용예로서 인식향상을 도모하고자 한다.

  • PDF

Design and Implementation of Hangul Document Recognition System by Stroke Extraction (획 추출에 의한 한글 문서 인식 시스템의 설계 및 구현)

  • Lee, Kwan-Yong;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.200-207
    • /
    • 1990
  • 본 논문은 다양한 활자체 및 크기의 한글 문자 영상에서의 정보량 및 엔트로피의 분포에 관한 연구이다. 12 종류의 서로 다른 활자체 및 크기의 한글 문자 영상이 실험에 사용되었으며, 사용 빈도수가 높은 520 자의 한글 문자 영상에 대하여 정보량과 엔트로피를 측정하였다. 실험 결과의 분석을 통하여 정보량과 엔트로피의 측정치는 문자의 구조적 형태에 따라 변하지만 활자체에는 무관하며, 대부분의 정보량이 문자의 가장자리 부분에 위치함을 알 수 있었다.

  • PDF

A Digital Library Prototype - Digital Repository and Diverse Collections (디지털도서관 프로토타입의 구축 -디지털 리포지토리와 컬렉션을 중심으로)

  • 최원태
    • Proceedings of the Korea Database Society Conference
    • /
    • 1998.09a
    • /
    • pp.383-394
    • /
    • 1998
  • This article is an overview of the digital library project, indicating what roles Korea's diverse digital collections may play. Our digital library prototype has simple architecture, consisting of digital repositories, filters, indexing and searching, and clients. Digital repositories include various types of materials and databases. The role of filters is to recognize a format of a document collection and mark the structural components of each of its documents, We are using a database management system (ORACLE and ConText) supporting user-defined functions and access methods that allows us to easily incorporate new object analysis, structuring, and indexing technology into a repository.

  • PDF

A Study on Construction of Technical Reports Management System Using Optical Technology (광기술을 이용한 연구보고서 관리시스템 구축)

  • 이상헌;김익철
    • Journal of the Korean Society for information Management
    • /
    • v.9 no.1
    • /
    • pp.131-164
    • /
    • 1992
  • In this study. a technical report management system using optical technology is described in detail. This management system is designed for both bibliographic (character) and full-text (image) information. Several optical filing systems already on the Korean market are scrutinized and compared with standard functions in order to build a more efficient management system for technical reports which can be easily integrated into existing KRISS library automation system. For that purpose, up-to-date technologies (i.e., digital image PI-ocessing (DIP), MARC standards, and optical character recognition (OCR), etc.) are applied to this system.

  • PDF

Structure Recognition Method in Various Table Types for Document Processing Automation (문서 처리 자동화를 위한 다양한 표 유형에서 표 구조 인식 방법)

  • Lee, Dong-Seok;Kwon, Soon-Kak
    • Journal of Korea Multimedia Society
    • /
    • v.25 no.5
    • /
    • pp.695-702
    • /
    • 2022
  • In this paper, we propose the method of a table structure recognition in various table types for document processing automation. A table with items surrounded by ruled lines are analyzed by detecting horizontal and vertical lines for recognizing the table structure. In case of a table with items separated by spaces, the table structure are recognized by analyzing the arrangement of row items. After recognizing the table structure, the areas of the table items are input into OCR engine and the character recognition result output to a text file in a structured format such as CSV or JSON. In simulation results, the average accuracy of table item recognition is about 94%.

Neural collective entity linking using Gated Graph Attention Networks (Gated Graph Attention Network에 기반한 뉴럴 집합적 개체 연결)

  • Hong, Seung-Yean;Na, Seung-Hoon;Kim, Hyun-Ho;Kim, Seon-Hoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.20-23
    • /
    • 2020
  • 개체 연결이란 문서에서 등장한 멘션(Mention)들을 지식 기반(Knowledge Base)상의 하나의 개체에 연결하는 문제를 말한다. 개체 연결은 개체를 찾는 멘션 탐지(mention detection)과정과 인식된 멘션에 대해 중의성을 해결하여 하나의 개체를 찾는 개체 중의성 해결(Entity disambiguation)과정으로 구성된다. 본 논문에서는 개체 정보를 강화하기 위해 wikipedia2vec정보를 결합하여 Entity 정보를 강화하고 문장 내에 모든 개체 정보를 활용하기 위해 집합적 개체를 정의하고 그래프 구조를 표현하기 위해 GNN을 활용하여 기존보다 높은 성능을 이끌어내었다.

  • PDF

Domain-specific Ontology Construction by Terminology Processing (전문용어의 처리에 의한 도메인 온톨로지의 구축)

  • 임수연;송무희;이상조
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.3
    • /
    • pp.353-360
    • /
    • 2004
  • Ontology defines the terms used in a specific domain and the relationships between them and represents them as hierarchical taxonomy. The present paper proposes a semi-automatic domain-specific ontology construction method based on terminology Processing. For this purpose, it presents an algorithm to extract terminology according to the noun/suffix pattern of terminology in domain texts and find their hierarchical structure. The experiment was carried out using pharmacy-related documents. As singleton terminology with noun/suffix were identified, the average accuracy was 92.57%. In case of multi-word terminology, the average accuracy was 66.64%. The constructed ontology forms natural semantic clusters with based on suffices and semantic information, so can be utilized in approaches to specific knowledge such as information look-up or as the base of inference to improve searching abilities.

자가 생성 지도 학습 알고리즘을 이용한 컨테이너 식별자 인식

  • Kim, Jae-Yong;Park, Chung-Sik;Kim, Gwang-Baek
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2005.11a
    • /
    • pp.500-506
    • /
    • 2005
  • 본 논문에서는 자가 생성 지도 학습 알고리즘을 이용한 운송 컨테이너 식별자 인식 시스템을 제안한다. 일반적으로 운송 컨테이너의 식별자들은 글자의 색이 검정색 또는 흰색으로 이루어져 있는 특정이 있다. 이러한 특성을 고려하여 원 컨테이너 영상에 대해 검은색과 흰색을 제외하고는 모든 부분을 잡음으로 처리하기 위해 퍼지 추론 방법을 이용하여 식별자 영역과 바탕영역을 구별한다. 식별자 영역으로 구분 된 영역은 그대로 두고, 바탕 영역으로 구분된 영역 은 전체 영상의 평균 픽셀 값으로 대체시킨다. 그리고 Sobel 마스크를 이용하여 에지를 검출하고, 추출된 에지를 이용하여 수직 블록과 수평 블록을 검출 하여 컨테이너의 식별자 영역을 추출하고 이진화한다. 이진화 된 식별자 영역에 대해 검정색의 빈도수를 이용하여 흰바탕과 민바탕을 구분하고 4 방향 윤곽선 추적 알고리즘을 적용하여 개별 식별자를 추출 한다. 개별 식별자 인식을 위해 자가 생성 지도 학습 알고리즘을 제안하여 개별 식별자 인식에 적용한다. 제안된 자가 생성 지도 학습 알고리즘은 입력층과 은닉층 사이의 구조를 ART-l을 개선하여 적용하고 은닉층과 출력층 사이에는 일반화된 델타 학습 방법과 Delta-bar-Delta 알고리즘을 적용하여 학습 및 인식 성능을 개선한다. 실제 80 개의 컨테이너 영상을 대상으로 실험한 결과, 제안된 식별자 추출 방법이 이전의 개별 추출 방법보다 추출률이 개선되었고 FCM 기반 자가 생성 지도 학습 알고리즘보다 제안된 자가 생성 지도 학습 알고리즘이 컨테이너 식별자의 학습 및 인식에 있어서 개선된 것을 확인하였다.색 문제를 해결하고자 하는 것이 연구의 목적이다. 정보추출은 사용자의 관심사에 적합한 문서들로부터 어떤 구체적인 사실이나 관계를 정확히 추출하는 작업을 가리킨다.앞으로 e-메일, 매신저, 전자결재, 지식관리시스템, 인터넷 방송 시스템의 기반 구조 역할을 할 수 있다. 현재 오픈웨어에 적용하기 위한 P2P 기반의 지능형 BPM(Business Process Management)에 관한 연구와 X인터넷 기술을 이용한 RIA (Rich Internet Application) 기반 웹인터페이스 연구를 진행하고 있다.태도와 유아의 창의성간에는 상관이 없는 것으로 나타났고, 일반 유아의 아버지 양육태도와 유아의 창의성간의 상관에서는 아버지 양육태도의 성취-비성취 요인에서와 창의성제목의 추상성요인에서 상관이 있는 것으로 나타났다. 따라서 창의성이 높은 아동의 아버지의 양육태도는 일반 유아의 아버지와 보다 더 애정적이며 자율성이 높지만 창의성이 높은 아동의 집단내에서 창의성에 특별한 영향을 더 미치는 아버지의 양육방식은 발견되지 않았다. 반면 일반 유아의 경우 아버지의 성취지향성이 낮을 때 자녀의 창의성을 향상시킬 수 있는 것으로 나타났다. 이상에서 자녀의 창의성을 향상시키는 중요한 양육차원은 애정성이나 비성취지향성으로 나타나고 있어 정서적인 측면의 지원인 것으로 밝혀졌다.징에서 나타나는 AD-SR맥락의 반성적 탐구가 자주 나타났다. 반성적 탐구 척도 두 그룹을 비교 했을 때 CON 상호작용의 특징이 낮게 나타나는 N그룹이 양적으로 그리고 내용적으로 더 의미 있는 반성적 탐구를 했다용을 지원하는 홈페이지를 만들어 자료

  • PDF