• 제목/요약/키워드: Document

검색결과 4,932건 처리시간 0.03초

카메라기반의 왜곡이 보정된 흑백 문서 영상 생성 (Distortion Corrected Black and White Document Image Generation Based on Camera)

  • 김진호
    • 한국콘텐츠학회논문지
    • /
    • 제15권11호
    • /
    • pp.18-26
    • /
    • 2015
  • 스캐너 대신 카메라를 이용하여 문서의 사본 영상을 촬영하면 촬영 각도에 따라 기하학적 왜곡이 발생하거나 그림자가 생길 수 있다. 본 논문에서는 카메라로 촬영한 문서 영상으로부터 왜곡을 보정하고 그림자 영향을 제거한 흑백 문서 영상 생성 알고리즘을 제안하였다. 카메라 렌즈의 방사 왜곡으로 인해 휘어진 테두리를 펴거나 촬영 각도에 따라 유입된 문서 외부 영역을 제거하기 위한 기하학적 보정을 위해 2차 미분 필터 기반의 문서 테두리 검출 방안을 마련하였다. 그리고 적응적 이진화 방법으로 그림자를 제거한 흑백 문서 영상을 생성하였다. 제안한 왜곡 보정 흑백 문서 영상 생성 알고리즘을 스마트 폰 카메라로 촬영한 문서 영상들을 대상으로 실험한 결과 우수한 처리 결과를 얻을 수 있었다.

텍스트 마이닝을 이용한 XML 문서 분류 기술 (Classification Techniques for XML Document Using Text Mining)

  • 김천식;홍유식
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-23
    • /
    • 2006
  • 인터넷에는 많은 문서가 있고 지금도 새로운 문서가 만들어지고 있다. 따라서 인터넷에 존재하는 문서를 의미 있게 분류하는 것은 향후 문서의 관리 및 질의처리에서 중요한 문제이다. 하지만 지금까지 대부분은 키워드에 기초한 문서 분류방법을 사용하고 있다. 이 방법은 문서를 효율적으로 분류하지 못했다. 또한 의미를 포함한 문서의 분류를 하지 못한다. 사람이 문서를 꼼꼼하게 읽어서 문서를 분류하는 방법이 최선이지만, 시간적인 면이나 효율성에 문제가 있다. 따라서 본 논문에서는 신경망 알고리즘과 C4.5 알고리즘을 이용하여 문서를 분류하고자 한다. 실험 데이터로 XML로 만들어진 이력서 데이터를 사용하여 실험하였다. 실험결과 문서 분류에 가능성을 보였다. 또한, 다양한 문서 분류 응용에 적용하여 좋은 결과를 얻을 것으로 기대한다.

  • PDF

Automatic Single Document Text Summarization Using Key Concepts in Documents

  • Sarkar, Kamal
    • Journal of Information Processing Systems
    • /
    • 제9권4호
    • /
    • pp.602-620
    • /
    • 2013
  • Many previous research studies on extractive text summarization consider a subset of words in a document as keywords and use a sentence ranking function that ranks sentences based on their similarities with the list of extracted keywords. But the use of key concepts in automatic text summarization task has received less attention in literature on summarization. The proposed work uses key concepts identified from a document for creating a summary of the document. We view single-word or multi-word keyphrases of a document as the important concepts that a document elaborates on. Our work is based on the hypothesis that an extract is an elaboration of the important concepts to some permissible extent and it is controlled by the given summary length restriction. In other words, our method of text summarization chooses a subset of sentences from a document that maximizes the important concepts in the final summary. To allow diverse information in the summary, for each important concept, we select one sentence that is the best possible elaboration of the concept. Accordingly, the most important concept will contribute first to the summary, then to the second best concept, and so on. To prove the effectiveness of our proposed summarization method, we have compared it to some state-of-the art summarization systems and the results show that the proposed method outperforms the existing systems to which it is compared.

항만 물류처리를 위한 EDI 문서 처리 시스템 (EDI Document Processing System for Port Logistics)

  • 함종완;반태학;정회경
    • 한국정보통신학회논문지
    • /
    • 제15권5호
    • /
    • pp.1081-1086
    • /
    • 2011
  • 최근 항만 물류 처리를 위한 EDI(Electronic Data Interchange) 문서 처리가 급증하여 이의 처리 시스템 사용이 증가하고 있다. 그러나, 기존의 시스템은 EDI 문서를 스크립트 방식으로 처리하였으나, 스크립트 작성이 복잡하고, 문서 처리 효율이 낮아 사용량 증가에 따른 처리 수요를 따라가지 못하고 있다. 이에, 본 논문은 스크립트 방식을 바이너리 방식으로 바꾸어 처리하는 시스템을 설계 및 구현하였다. 또한 항만 물류에 사용되는 12종의 EDI 문서를 개발하였다. 이에 따라, 기존 방식에 비해 문서 처리 속도가 약 12배 정도 개선되어 항만 물류 EDI 문서 처리 시스템에 활용될 수 있을 것으로 기대된다.

Document Clustering Using Semantic Features and Fuzzy Relations

  • Kim, Chul-Won;Park, Sun
    • Journal of information and communication convergence engineering
    • /
    • 제11권3호
    • /
    • pp.179-184
    • /
    • 2013
  • Traditional clustering methods are usually based on the bag-of-words (BOW) model. A disadvantage of the BOW model is that it ignores the semantic relationship among terms in the data set. To resolve this problem, ontology or matrix factorization approaches are usually used. However, a major problem of the ontology approach is that it is usually difficult to find a comprehensive ontology that can cover all the concepts mentioned in a collection. This paper proposes a new document clustering method using semantic features and fuzzy relations for solving the problems of ontology and matrix factorization approaches. The proposed method can improve the quality of document clustering because the clustered documents use fuzzy relation values between semantic features and terms to distinguish clearly among dissimilar documents in clusters. The selected cluster label terms can represent the inherent structure of a document set better by using semantic features based on non-negative matrix factorization, which is used in document clustering. The experimental results demonstrate that the proposed method achieves better performance than other document clustering methods.

암호화를 이용한 전자결재 시스템의 설계 및 구현 (Design and Implementation of Electronic Approval System using Encryption)

  • 장용철;오태석;오무송
    • 한국정보처리학회논문지
    • /
    • 제4권8호
    • /
    • pp.2060-2069
    • /
    • 1997
  • 컴퓨터를 이용한 정보처리가 일반화되고 컴퓨터 통신망을 통한 문서양식의 통폐합 및 간소화는 되었지만 문서의 결제는 여전히 수작업으로 이루어지고, 컴퓨터의 역기능이 급증하면서 문서에 대한 보안 사항들의 부정 유출도 심해서 기업의 기밀이 타기업으로 넘어가 커다란 타격을 받는 경우가 발생하여 이를 개선하는 방안으로 문서를 효율적으로 이용하고 중요한 문서에 대한 보안유지와 문서결재의 신속성을 추구하며 보관된 문서는 변형된 Vernam의 암호화 기법을 이용하여 클라이언트/서버간에 기능을 분담할 수 있는 전자결제 시스템을 설계 및 구현한다.

  • PDF

MSER-b 이진화 기법을 이용한 스마트폰 문서 이미지 보정 기법 (Rectification of Document Image on Smartphone Using MSER-b Binarization)

  • 유영중;문상호;박성호
    • 한국정보통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.201-207
    • /
    • 2015
  • 스마트폰 카메라로 생성한 문서 이미지는 촬영 방법에 따라 일반 스캐너에 비해 회전 왜곡과 원근 왜곡이 발생한다. 본 논문에서는 MSER-b 통해 조명에 영향을 적게 받는 이미지를 생성하고 텍스트 이미지의 특성을 고려한 텍스트 영역 윤곽선 검출 기법을 제안하고 이를 통해 왜곡된 문서 이미지를 보정하여 프린터 품질의 이미지로 복원하였다. 그리고 제안한 기법의 성능 평가를 위해 현재 서비스되고 있는 타사의 제품과 비교하였으며, 다양한 왜곡에 대하여 효과적으로 처리가 가능함을 실험을 통해 보였다.

비접촉 근거리 무선통신을 이용한 문서관리 시스템의 설계 및 구현 (Design and Implementation of Document Management System using Near Field Communication)

  • 김철호;이우용;황민태
    • 한국멀티미디어학회논문지
    • /
    • 제17권5호
    • /
    • pp.613-622
    • /
    • 2014
  • In spite of the convenience and cost-effectiveness of an electronic document management system the paper-type documents still should be stored for a comparison against the original documents. In this paper, for the efficient management of paper documents, we designed and implemented a document management system using smart devices equipped with NFC(Near Field Communication) technology. To implement the proposed system we designed a database for document management and developed an Android application for smart device using Eclipse 3.0 and Java programming. Whenever we touch the smart phone on the NFC tags which are attached to the paper-type documents and document boxes, it is possible to registering, searching and carrying in and out services for documents and boxes. This study provides smart phone users with systematic, economical and convenient paper-type documents management functions, and thus enhances the business efficiency.

문서 영상의 기울기 검출을 위한 기준선 탐색 기법 (Baseline Searching Method for Document Skew Detection)

  • 신명진;김도연;차의영
    • 한국멀티미디어학회논문지
    • /
    • 제10권2호
    • /
    • pp.218-225
    • /
    • 2007
  • 본 논문은 문자 인식 등을 통한 문서 자동 처리 시스템을 위해서 스캔 과정에서 발생할 수 있는 문서의 기울기를 정확하게 검출하는 기법을 제안한다. 제안한 알고리즘은 처리 속도 향상을 위해 영상을 축소한 다음 형태학적 연산과 연결 성분 분석 방법으로 기울기 검출 대상 영역(ROI)을 먼저 설정한 후 설정된 영역 내에서 문서의 기울기 정보를 가지고 있는 기준선을 탐색하는 방법으로 정확하게 기울어진 각도를 검출할 수 있게 하였다. 기존의 형태학적 연산을 기반으로 한 기울기 검출 기법과 비교하고 다양한 종류의 대용량 문서 영상을 대상으로 한 실험 및 분석을 통해 제안한 기울기 검출 방법의 정확도 및 효율성을 증명하였다.

  • PDF

SGML을 이용한 특허정보처리 연구 (A Study of Patent Document Processing by SGML)

  • 권영숙
    • 정보관리연구
    • /
    • 제30권3호
    • /
    • pp.44-54
    • /
    • 1999
  • SGML(Standard Generalized Markup Language)의 디스크립션은 WIPO(World Intellectual Property Organization) Standard ST.32의 디스크립션과 더불어 자세히 기술되고있다. SGML의 이용에 대한 이점이 강조되고 있으며, 그것은 시스템 독립적이며 특허출판 및 전문 데이터베이스구축에 타당성이 있다는 것이다. WIPO Standard ST.32를 적용한 특허문헌의 내용구조는 ST.32에 따라 작성한 DTD로 표현하고 텍스트 자체는 DTD에 따른 범용 마크업을 사용하여 기술한다. 본고에서는 전체문헌, 특정 서브문서, 문단 등의 계층구조와 표, 도면, 화학구조식 등의 비계층구조로 되어 있는 문서구조를 어떻게 표현하는가에 대하여 예를들어 설명하였다. 그리고 특허 문헌처리에서 SGML의 효과에 대하여 논의하였다.

  • PDF