• 제목/요약/키워드: Document Processing

검색결과 866건 처리시간 0.028초

비정형 데이터를 활용한 지능형 문서 처리 관리에 관한 연구 (A Study on Intelligent Document Processing Management using Unstructured Data)

  • 박경훈;서광규
    • 반도체디스플레이기술학회지
    • /
    • 제23권2호
    • /
    • pp.71-75
    • /
    • 2024
  • This research focuses on processing unstructured data efficiently, containing various formulas in document processing and management regarding the terms and rules of domestic insurance documents using text mining techniques. Through parsing and compilation technology, document context, content, constants, and variables are automatically separated, and errors are verified in order of the document and logic to improve document accuracy accordingly. Through document debugging technology, errors in the document are identified in real time. Furthermore, it is necessary to predict the changes that intelligent document processing will bring to document management work, in particular, the impact on documents and utilization tasks that are double managed due to various formulas and prepare necessary capabilities in the future.

  • PDF

XML-based EDI Document Processing System with Binary Format Mapping Rules

  • Kim, Chang-Su;Jung, Hoe-Kyung
    • Journal of information and communication convergence engineering
    • /
    • 제10권3호
    • /
    • pp.258-263
    • /
    • 2012
  • Recently, the magnitude of electronic data interchange (EDI) document processing for the handling of port logistics is abruptly being increased. The existing system processes EDI documents in a script mode, but due to a complicated script preparation procedure and low document processing efficiency, it cannot meet the demand as the usage flow of documents increases. In this paper, an EDI electronic document processing system was designed and implemented in a document scanner and mapper, which are binary form electronic document processing tools and do not require script files during the conversion of extensible markup language (XML)-based electronic documents. This new system has the merits of XML features during reading and writing with improved speed, usage convenience, and good portability on systems when compared to the conventional ones.

항만 물류처리를 위한 EDI 문서 처리 시스템 (EDI Document Processing System for Port Logistics)

  • 함종완;반태학;정회경
    • 한국정보통신학회논문지
    • /
    • 제15권5호
    • /
    • pp.1081-1086
    • /
    • 2011
  • 최근 항만 물류 처리를 위한 EDI(Electronic Data Interchange) 문서 처리가 급증하여 이의 처리 시스템 사용이 증가하고 있다. 그러나, 기존의 시스템은 EDI 문서를 스크립트 방식으로 처리하였으나, 스크립트 작성이 복잡하고, 문서 처리 효율이 낮아 사용량 증가에 따른 처리 수요를 따라가지 못하고 있다. 이에, 본 논문은 스크립트 방식을 바이너리 방식으로 바꾸어 처리하는 시스템을 설계 및 구현하였다. 또한 항만 물류에 사용되는 12종의 EDI 문서를 개발하였다. 이에 따라, 기존 방식에 비해 문서 처리 속도가 약 12배 정도 개선되어 항만 물류 EDI 문서 처리 시스템에 활용될 수 있을 것으로 기대된다.

Document Summarization Model Based on General Context in RNN

  • Kim, Heechan;Lee, Soowon
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1378-1391
    • /
    • 2019
  • In recent years, automatic document summarization has been widely studied in the field of natural language processing thanks to the remarkable developments made using deep learning models. To decode a word, existing models for abstractive summarization usually represent the context of a document using the weighted hidden states of each input word when they decode it. Because the weights change at each decoding step, these weights reflect only the local context of a document. Therefore, it is difficult to generate a summary that reflects the overall context of a document. To solve this problem, we introduce the notion of a general context and propose a model for summarization based on it. The general context reflects overall context of the document that is independent of each decoding step. Experimental results using the CNN/Daily Mail dataset show that the proposed model outperforms existing models.

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

정비작업의 생산성 향상을 위한 전자문서자동화시스템 모형 - 건설장비 정비작업을 중심으로 - (Electronic Document Automation System Model for Improving Productivity in maintenance work - in Inspection Process of Construction Equipment Maintenance -)

  • 공명달
    • 대한안전경영과학회지
    • /
    • 제19권3호
    • /
    • pp.49-58
    • /
    • 2017
  • This paper suggests a specific model that could efficiently improve the interaction and the interface between MES(Manufacturing Execution System) server and POP(Point of Production) terminal through electronic document server and electronic pen, bluetooth receiver and form paper in disassembly and process inspection works. The proposed model shows that the new method by electronic document automation system can more efficiently perform to reduce processing time for maintenance work, compared with the current approach by handwritten processing system. It is noted in case of the method by electronic document automation system that the effects of proposed model are as follows; (a) While the processing time per equipment for maintenance by the current method was 300 minutes, the processing time by the new method was 50 minutes. (b) While the processing error ratio by the current method was 20%, the error ratio by the new method was 1%.

XML 기반 EDI 문서 처리 시스템 (XML-Based EDI Document Processing System)

  • 조휘경;진성근;정회경
    • 한국정보통신학회논문지
    • /
    • 제16권4호
    • /
    • pp.829-834
    • /
    • 2012
  • 본 논문에서는 XML에 기반한 EDI 전자문서를 처리하기 위한 시스템에 관한 것이다. XML에 기반한 EDI 전자문서로 변환 시에 스크립트 파일을 사용하지 않고, 문서를 읽고 쓸 때 바이너리 형식의 전자문서 처리기인 문서 스캐너와 매퍼를 설계 및 구현 하였다. 또한, 그래픽적으로 전자문서간의 변환 룰을 정의하는 매핑 툴을 설계 및 구현하였다. 따라서, 본 논문에서 제안하고 있는 XML에 기반한 EDI 전자문서 처리 시스템은 XML 특성이 갖는 장점을 가지며 기존 EDI 전자문서 처리 시스템에 비해 속도 개선 및 사용의 편의성, 시스템에 대한 이식성 등이 뛰어나 B2B 게이트웨이 시스템으로 널리 활용될 것이다.

Stroke Width-Based Contrast Feature for Document Image Binarization

  • Van, Le Thi Khue;Lee, Gueesang
    • Journal of Information Processing Systems
    • /
    • 제10권1호
    • /
    • pp.55-68
    • /
    • 2014
  • Automatic segmentation of foreground text from the background in degraded document images is very much essential for the smooth reading of the document content and recognition tasks by machine. In this paper, we present a novel approach to the binarization of degraded document images. The proposed method uses a new local contrast feature extracted based on the stroke width of text. First, a pre-processing method is carried out for noise removal. Text boundary detection is then performed on the image constructed from the contrast feature. Then local estimation follows to extract text from the background. Finally, a refinement procedure is applied to the binarized image as a post-processing step to improve the quality of the final results. Experiments and comparisons of extracting text from degraded handwriting and machine-printed document image against some well-known binarization algorithms demonstrate the effectiveness of the proposed method.

북한 서광문서처리체계 분석을 위한 Document Object Model(DOM) 기반 퍼징 기법 (A DOM-Based Fuzzing Method for Analyzing Seogwang Document Processing System in North Korea)

  • 박찬주;강동수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권5호
    • /
    • pp.119-126
    • /
    • 2019
  • 자체 개발하여 사용하고 있는 대표적인 소프트웨어는 붉은별(Red Star)과 내부 응용 소프트웨어이다. 하지만 이러한 북한 소프트웨어에 대한 기존 연구는 소프트웨어 설치방법 및 일반적인 실행화면 분석이 대부분이다. 소프트웨어 보안 취약점을 확인하는 방법 중 하나인 파일 퍼징은 보안 취약점을 식별하는 대표적인 방법이며, 본 연구에서는 북한에서 개발하여 사용 중인 소프트웨어 중 서광문서처리체계에 대한 보안 취약점을 분석하기 위해 파일 퍼징을 사용한다. 이때 서광문서처리체계에서 생산되는 Open Document Text(ODT) 파일 분석 및 테스팅 대상을 정하기 위한 Document Object Model(DOM) 기반 노드 추출, 그리고 삽입과 대체를 통한 변이 파일 생성을 제안하며, 이를 통해 동일한 테스팅 시간에 크래시 발견 횟수를 증가시킨다.

FDC-TCT를 이용한 웹 문서 클러스터링 성능 개선 기법 (A performance improvement methodology of web document clustering using FDC-TCT)

  • 고석범;윤성대
    • 정보처리학회논문지D
    • /
    • 제12D권4호
    • /
    • pp.637-646
    • /
    • 2005
  • 키워드를 통한 웹 검색 결과의 분류와 같은 후처리가 요구되는 문서 분류 문제에서, 기존의 문서 분류 또는 클러스터링 알고리즘을 적용하는 데에는 많은 문제가 있다 그 중에서 고려해야 할 가장 심각한 두 가지 문제가 있다. 첫째는 전문가가 관여하여 범주를 선정하는 문제이고, 둘째는 문서분류에 소요되는 수행시간이 긴 문제이다. 따라서 본 논문에서는 이행적 폐쇄 트리를 이용하여 문서 유사도 계산 횟수를 크게 줄이고, 정확도의 희생을 최소화하면서 신속한 처리가 가능한 새로운 웹 문서 클러스터링 기법을 제안하다. 또한, 제안된 기법의 효율성을 검증하기 위하여 기존의 알고리즘과 비교 평가 및 분석한다.