• Title/Summary/Keyword: 문서 구조 인식

Search Result 133, Processing Time 0.023 seconds

An Attention Method-based Deep Learning Encoder for the Sentiment Classification of Documents (문서의 감정 분류를 위한 주목 방법 기반의 딥러닝 인코더)

  • Kwon, Sunjae;Kim, Juae;Kang, Sangwoo;Seo, Jungyun
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.4
    • /
    • pp.268-273
    • /
    • 2017
  • Recently, deep learning encoder-based approach has been actively applied in the field of sentiment classification. However, Long Short-Term Memory network deep learning encoder, the commonly used architecture, lacks the quality of vector representation when the length of the documents is prolonged. In this study, for effective classification of the sentiment documents, we suggest the use of attention method-based deep learning encoder that generates document vector representation by weighted sum of the outputs of Long Short-Term Memory network based on importance. In addition, we propose methods to modify the attention method-based deep learning encoder to suit the sentiment classification field, which consist of a part that is to applied to window attention method and an attention weight adjustment part. In the window attention method part, the weights are obtained in the window units to effectively recognize feeling features that consist of more than one word. In the attention weight adjustment part, the learned weights are smoothened. Experimental results revealed that the performance of the proposed method outperformed Long Short-Term Memory network encoder, showing 89.67% in accuracy criteria.

A Verification Method for Handwritten text in Off-line Environment Using Dynamic Programming (동적 프로그래밍을 이용한 오프라인 환경의 문서에 대한 필적 분석 방법)

  • Kim, Se-Hoon;Kim, Gye-Young;Choi, Hyung-Il
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.12
    • /
    • pp.1009-1015
    • /
    • 2009
  • Handwriting verification is a technique of distinguishing the same person's handwriting specimen from imitations with any two or more texts using one's handwriting individuality. This paper suggests an effective verification method for the handwritten signature or text on the off-line environment using pattern recognition technology. The core processes of the method which has been researched in this paper are extraction of letter area, extraction of features employing structural characteristics of handwritten text, feature analysis employing DTW(Dynamic Time Warping) algorithm and PCA(Principal Component Analysis). The experimental results show a superior performance of the suggested method.

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images (내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색)

  • Jeong, Gyu-Sik;Gwon, Hui-Ung
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

A Method of Context based Free-form Annotation in XML Documents (XML문서 환경에서의 내용기반 자유형 Annotation 생성 기법)

  • 손원성;김재경;임순범;최윤철
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.9
    • /
    • pp.850-861
    • /
    • 2003
  • When creating annotation information in a free~form environment, ambiguity arises during the analysis stage between geometric information and the annotations. This needs to be resolved so that the accurate creation of annotation information in a free-form annotation environment is possible. This paper identifies and analyzes the ambiguities, specifying methods that are tailored to each of the various contexts that can cause conflicts with free-form marking in a XML-based annotation environment. The proposed general method is based on context which includes various textual and structure information between free-form marking and the annotations themselves. The context information used is expressed in XML based DTD, within the paper. The results are printed and shared through a system specifically implemented for this study. The results from the implementation of the Proposed method show that the annotated areas included in the free-form marking information are more accurate, achieving more accurate exchange results amongst multiple users in a heterogeneous document environment.

Implementation of MPEG-U part2 Reference Software (MPEG-U part2 참조 소프트웨어 설계 및 구현)

  • Han, Gukhee;Baek, A-Ram;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.202-205
    • /
    • 2012
  • 최근 멀티미디어 분야에서 다양한 입/출력 장치들이 개발됨에 따라 입/출력 장치와 사용자 사이의 향상된 상호작용(AUI : Advanced User Interaction)을 위한 방법들이 연구되고 있다. AUI에서 정의되는 데이터는 입/출력 장치와 다양한 객체(비디오, 오디오, 2D 그래픽 객체, 애니메이션 등)로 표현되는 Scene Description 사이에서 서로 정보를 주고받기 위한 매체이다. 따라서 다양한 입/출력 장치와 사용자 사이의 향상된 상호작용을 위해서는 AUI 데이터 형식이 공통적으로 정의되어야한다. 이를 위해 ISO/IEC JTC1/SC29/WG11 Moving Picture Experts Group(MPEG)에서는 XML(Extensible Markup Language) 문서로 AUI 데이터 포맷을 표준화하기 위한 MPEG-U 프로젝트를 진행 중이다. 본 논문에서는 MPEG-U의 표준을 소개하고, 이의 타당성을 검증하기 위해서 MPEG-U 참조 소프트웨어를 설계하였다. MPEG-U 참조 소프트웨어는 크게 UID(User Interaction Device)의 데이터를 처리하는 사용자 인터페이스 입/출력부와 XML 문서를 처리하는 MPEG-U XML 생성/해석부로 구성된다. 사용자 인터페이스 입력부에서는 사용자의 손동작을 인식하여 AUI 파라미터로 저장하고, 이 파라미터를 MPEG-U XML 생성부에서 MPEG-U 표준 XML 스키마 구조로 서술하여 표준화된 AUI 데이터 포맷을 생성한다. 다시 표준화된 XML 문서를 읽어 MPEG-U XML 해석부에서 파라미터를 얻고, 사용자 인터페이스 출력부에서 GUI(Graphic User Interface)에서 그래픽 객체로 표현한다. 본 연구에서는 MPEG-U 참조 소프트웨어로 MPEG-U의 용용 예를 제시하고, 구현된 소프트웨어가 표준에 적합한지를 보였다.

  • PDF

An XML Access Control Method through Filtering XPath Expressions (XPath 표현식의 필터링을 통한 XML 접근 제어 기법)

  • Jeon Jae-myeong;Chung Yon Dohn;Kim Myoung Ho;Lee Yoon Joon
    • Journal of KIISE:Databases
    • /
    • v.32 no.2
    • /
    • pp.193-203
    • /
    • 2005
  • XML (extensible Markup Language) is recognized as a standard of data representation and transmission on Internet. XPath is a standard for specifying parts of XML documents anda suitable language for both query processing and access control of XML. In this paper, we use the XPath expression for representing user queries and access control for XML. And we propose an access control method for XML, where we control accesses to XML documents by filtering query XPath expressions through access control XPath expressions. In the proposed method, we directly search XACT (XML Access Control Tree) for a query XPath expression and extract the access-granted parts. The XACT is our proposedstructure, where the edges are structural summary of XML elements and the nodes contain access-control information. We show the query XPath expressions are successfully filtered through the XACT by our proposed method, and also show the performance improvement by comparing the proposed method with the previous work.

The biometric authentication technology, which makes overseas trip possible without passports (여권 없이도 외국 여행이 가능한 생체 측정 인증 기술)

  • Shim, Hyun Bo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2012.10a
    • /
    • pp.88-95
    • /
    • 2012
  • The passport is not only an officially proven document in order to identify the nationalities of travelers, but also request for protections of travelers. Since the overseas trips have been increased, the uses of forged or modulated passports are also now rapidly increasing. The forged or modulated passports are mainly used by international criminal organization or offenders, who are restricted by immigration control, in order to avoid under the radar and conceal their identities. The purpose of biometric authentication technology is to define one's unique identities through the comparative analysis one's unique finger prints, iris, sweat gland, blood vessel, palm pattern, vein distribution, voice, and etc. We have been studying about applicable and possibilities of the biometric authentication technology for overseas travel without passports. In hence, we have been also collected various of technical references of using biometric authentication, and have been analyzed what is the best biometric to be alternatively used instead of passports.

  • PDF

Consonant-Vowel Classification Based Segmentation Technique for Handwritten Off-Line Hangul (자소 클래스 인식에 의한 off-line 필기체 한글 문자 분할)

  • Hwang, Sun-Ja;Kim, Mun-Hyeon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.3 no.4
    • /
    • pp.1002-1013
    • /
    • 1996
  • The segmentation of characters is an important step in the automatic recognition of handwritten text. This paper proposes the segmenting method of off-line handwritten Hangul. The suggested approach is based on the structural characteristics of Hangul. The first step extracts the local features. connected component and strokes from the imput word. In the second step we identify the class of strokes. The third segmenting step specifies WRC(White Run Column) before consonant or horizontal vowel. If the segment is longer than threshold, the system estimates segmenting columns using the consonant-vowel information and column features, and then finds a cornered boundary along the strokes within the estimated segmenting columns.

  • PDF