• 제목/요약/키워드: Document Images

검색결과 182건 처리시간 0.024초

A Keyword Matching for the Retrieval of Low-Quality Hangul Document Images

  • 나인섭;박상철;김수형
    • 한국문헌정보학회지
    • /
    • 제47권1호
    • /
    • pp.39-55
    • /
    • 2013
  • It is a difficult problem to use keyword retrieval for low-quality Korean document images because these include adjacent characters that are connected. In addition, images that are created from various fonts are likely to be distorted during acquisition. In this paper, we propose and test a keyword retrieval system, using a support vector machine (SVM) for the retrieval of low-quality Korean document images. We propose a keyword retrieval method using an SVM to discriminate the similarity between two word images. We demonstrated that the proposed keyword retrieval method is more effective than the accumulated Optical Character Recognition (OCR)-based searching method. Moreover, using the SVM is better than Bayesian decision or artificial neural network for determining the similarity of two images.

History Document Image Background Noise and Removal Methods

  • Ganchimeg, Ganbold
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제5권2호
    • /
    • pp.11-24
    • /
    • 2015
  • It is common for archive libraries to provide public access to historical and ancient document image collections. It is common for such document images to require specialized processing in order to remove background noise and become more legible. Document images may be contaminated with noise during transmission, scanning or conversion to digital form. We can categorize noises by identifying their features and can search for similar patterns in a document image to choose appropriate methods for their removal. In this paper, we propose a hybrid binarization approach for improving the quality of old documents using a combination of global and local thresholding. This article also reviews noises that might appear in scanned document images and discusses some noise removal methods.

영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색 (Keyword Spotting on Hangul Document Images Using Image-to-Image Matching)

  • 박상철;손화정;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.357-364
    • /
    • 2005
  • 본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안한다. 본 시스템은 문자 분리, 검색어 영상 생성, 특징 추출 그리고 이미지 매칭 과정으로 구성된다. 매칭 과정에서 차원이 다른 두 가지 특징 벡터를 이용한다. 8쪽 분량의 문서 영상을 한국정보과학회 웹사이트에서 다운로드하였고, 그 문서로부터 1600개의 한글단어 영상을 획득하여 실험데이터로 사용하였다 그 결과 제안한 시스템은 기존에 제안된 영상-기반 한글 단어 검색 시스템보다 성능이 크게 향상되었음을 알 수 있었다.

문서 영상의 영역 분류와 회전각 검출 (A Block Classification and Rotation Angle Extraction for Document Image)

  • 모문정;김욱현
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.509-516
    • /
    • 2002
  • 본 논문에서는 그림, 글자, 표, 직선 등과 같은 다양한 정보를 포함하는 문서 영상 인식에 대한 효율적인 알고리즘을 제안한다. 이 시스템은 문서영상의 기울짐을 보정하기 위한 회전각검출 단계, 불필요한 배경영역을 제거하는 단계, 문서영상에 내재된 각 구성요소를 검출하는 분류 단계로 구성된다. 알고리즘은 문서의 기울어짐에 의해서 발생되는 오류를 최소화하기 위한 회전각 검출과정과 검출된 회전각을 기반으로 문서를 보정하는 전처리단계를 수행한다. 입력된 문서영상의 수평성분과 수직성분만을 이용하여 회전각을 검출하고, 문서의 구성요소 검출과정에서 불필요한 배경영역을 제거함으로써 계산시간을 최소화하였다. 그리고 영상에 내재된 그림영역, 글자영역, 표영역, 직선영역 둥의 다양한 구성요소를 분류한다. 제안한 문서 인식 시스템의 성능 평가를 위해서 다양한 문서영상에 제안한 방법을 적용하고 성공적인 결과를 보인다.

전자도서관에서의 JBIG 기반 이전 문서영상 서비스 방안 (A Service Strategy of Binary Document Images based on JBIG in Digital Library)

  • 한영미;김민환
    • 한국멀티미디어학회논문지
    • /
    • 제1권1호
    • /
    • pp.37-44
    • /
    • 1998
  • 최근 SGML을 이용한 문서정보와 구축에 관한 연구가 많이 이루어지고 있으나, 현재 운영되고 있는 전자도서관에서는 기존의 출판물 문서를 이진 문서영상으로 스캐닝하여 사용자에게 그대로 서비스하는 방식을 이용하고 있다. 이때, 주로 200dpi로 스캐닝한 문서영상에 대하 TIFF 영상포맷에서의 ITU-T T.6 압축방법을 사용하여 제공하고 있는데, 이진 문서영상의 질 저하 현상과 낮은 압축율로 인해 어려움을 겪고 있다. 이에, 본 연구에서는 문서영상 데이터베이스의 확장성 및 효용성과 서비스 질의 향상성을 고려하여, 문서영상의 스캐닝 해상도는 600dpi가 적당하며, 압축방법은 JBIG이 타당함을 제시하였다. 아울러, 사용자 장비인 모니터와 프린터를 통한 서비스의 특성을 분석하여 이진 문서영상의 해상도를 단계별로 높여 서비스하는 방안을 제시함으로써, JBIG의 단점인 과다한 복구시간 문제를 해결하였다. 대표적인 문서영상들에 대한 실험을 통해, JBIG의 높은 압축율 및 제시된 단계별 서비스 방안의 타당성을 확인하였다.

  • PDF

Mongolian Traditional Stamp Recognition using Scalable kNN

  • Gantuya., P;Mungunshagai., B;Suvdaa., B
    • International journal of advanced smart convergence
    • /
    • 제4권2호
    • /
    • pp.170-176
    • /
    • 2015
  • The stamp is one of the crucial information of traditional historical and cultural for nations. In this paper, we purpose to detect official stamps from scanned document and recognize the Mongolian traditional, historical stamps. Therefore we performed following steps: first, we detect official stamps from scanned document based on red-color segmentation and document standard. Then we collected 234 traditional stamp images with 6 classes and 100 official stamp images from scanned document images. Also we implemented the processing algorithms for noise removing, resize and reshape etc. Finally, we proposed a new scale invariant classification algorithm based on KNN (k-nearest neighbor). In the experimental result, our proposed a method had shown proper recognition rate.

카메라 획득 문서영상에서의 글자모양 왜곡보정 (Character Shape Distortion Correction of Camera Acquired Document Images)

  • 장대근;김의정
    • 한국정보통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.680-686
    • /
    • 2006
  • 스캐너로 획득한 문서영상을 대상으로 문자인식을 하는 경우와 달리 카메라로 획득한 문서 영상을 대상으로 문자인식을 수행할 경우 카메라 렌즈의 특성과 카메라와 피사체간의 위치와 각도의 불일치에 의해 글자모양의 왜곡이 발생한다. 따라서 이러한 왜곡들로 인해 실제로 사용이 가능한 카메라 문자인식 기술의 개발이 쉽지 않았다. 본 논문에서는 문서 영상을 카메라로 획득할 때 발생하는 3차원의 비선형적 왜곡을 2차원의 선형 변환을 이용하여 근사화함으로써 왜곡된 글자모양을 교정한다. 또한 변환과정에서 글자와 글자줄을 추출하여 상하로는 글자줄의 배열방향을, 좌우로는 문자획의 기울어진 각도를 측정함으로써 왜곡으로 인해 사변형 형태로 변형된 글자영역 즉 변환영역을 자동으로 설정함으로써 부가적인 정보의 획득 없이 문서영상 자체만으로 기하하적 왜곡보정이 가능하다.

카메라기반의 왜곡이 보정된 흑백 문서 영상 생성 (Distortion Corrected Black and White Document Image Generation Based on Camera)

  • 김진호
    • 한국콘텐츠학회논문지
    • /
    • 제15권11호
    • /
    • pp.18-26
    • /
    • 2015
  • 스캐너 대신 카메라를 이용하여 문서의 사본 영상을 촬영하면 촬영 각도에 따라 기하학적 왜곡이 발생하거나 그림자가 생길 수 있다. 본 논문에서는 카메라로 촬영한 문서 영상으로부터 왜곡을 보정하고 그림자 영향을 제거한 흑백 문서 영상 생성 알고리즘을 제안하였다. 카메라 렌즈의 방사 왜곡으로 인해 휘어진 테두리를 펴거나 촬영 각도에 따라 유입된 문서 외부 영역을 제거하기 위한 기하학적 보정을 위해 2차 미분 필터 기반의 문서 테두리 검출 방안을 마련하였다. 그리고 적응적 이진화 방법으로 그림자를 제거한 흑백 문서 영상을 생성하였다. 제안한 왜곡 보정 흑백 문서 영상 생성 알고리즘을 스마트 폰 카메라로 촬영한 문서 영상들을 대상으로 실험한 결과 우수한 처리 결과를 얻을 수 있었다.

에지 방향 히스토그램을 이용한 텍스트 문서 영상의 워터마킹 (A Watermarking for Text Document Images using Edge Direction Histograms)

  • 김영원;오일석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권2호
    • /
    • pp.203-212
    • /
    • 2004
  • 워터마킹은 멀티미디어 컨텐츠의 저작권을 보호하기 위한 방법이다. 이러한 미디어 중에서 텍스트 문서는 블록/줄/단어의 계층 구조와 배경/전경의 확연한 구분 같은 고유한 특성을 나타내므로, 텍스트 문서를 위한 워터마킹 알고리즘은 이러한 특성을 잘 반영하여 설계하여야 한다. 본 논문은 명암을 갖는 텍스트 문서 영상을 위한 워터마킹 알고리즘을 제안한다. 워터마크 신호는 에지 방향 히스토그램을 통해서 삽입된다. 문서 영상의 부분 영상들은 모두 유사한 성질을 갖는다는 ‘부분 영상 일관성’을 제시한다. 한글 영상, 영문 영상, 한문 문서 영상을 대상으로 부분 영상 일관성을 조사하여, 부분 영상 일관성은 언어에 무관하며 다양한 문서 영상에 적용할 수 있음을 보인다. 워터마크 신호를 삽입하기 위하여 에지방향 히스토그램을 조작하였으며 다양한 실험을 통해 알고리즘의 비 인지성과 강인성을 분석하고 평가하였다.

Noise Removal using Support Vector Regression in Noisy Document Images

  • Kim, Hee-Hoon;Kang, Seung-Hyo;Park, Jai-Hyun;Ha, Hyun-Ho;Lim, Dong-Hoon
    • 응용통계연구
    • /
    • 제25권4호
    • /
    • pp.669-680
    • /
    • 2012
  • Noise removal of document images is a necessary step during preprocessing to recognize characters effectively because it has influences greatly on processing speed and performance for character recognition. We have considered using the spatial filters such as traditional mean filters and Gaussian filters, and wavelet transformed based methods for noise deduction in natural images. However, these methods are not effective for the noise removal of document images. In this paper, we present noise removal of document images using support vector regression. The proposed approach consists of two steps which are SVR training step and SVR test step. We construct an optimal prediction model using grid search with cross-validation in SVR training step, and then apply it to noisy images to remove noises in test step. We evaluate our SVR based method both quantitatively and qualitatively for noise removal in Korean, English and Chinese character documents, and compare it to some existing methods. Experimental results indicate that the proposed method is more effective and can get satisfactory removal results.