• Title/Summary/Keyword: 문서 영상처리

Search Result 159, Processing Time 0.024 seconds

Document Understanding using Partial Matching Method (부분 매칭을 이용한 서식 이해에 관한 연구)

  • 변영철;윤성수;김경환;최영우;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.443-445
    • /
    • 1999
  • 여러 가지 유형의 서식 문서를 자동으로 처리하려면 서식을 이해하는데 필요한 항목 영상을 추출하기에 앞서 서식을 분류(classification)해야 한다. 서식을 분류함에 있어서 서식 영상 전체를 다룰 경우 상당한 시간이 걸릴 수 있다. 왜냐하면 일반적으로 서식 문서 영상의 크기는 일반 문자 영상에 비해 상당히 클 뿐만 아니라 대상 서식 문서의 유형도 많아질 수 있기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위한 방법으로서 DP 매칭에 의한 부분 매칭 방법을 제안하고자 한다. 실험 결과, 제안하는 방법은 서식 문서의 전체가 아닌 일부 영역만을 비교함으로써 인식 시간과 인식률 면에서 서식 문서를 효과적으로 처리할 수 있었다.

  • PDF

Keyword Spotting on Hangul Document Images Using Image-to-Image Matching (영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색)

  • Park Sang Cheol;Son Hwa Jeong;Kim Soo Hyung
    • The KIPS Transactions:PartB
    • /
    • v.12B no.3 s.99
    • /
    • pp.357-364
    • /
    • 2005
  • In this paper, we propose an accurate and fast keyword spotting system for searching user-specified keyword in Hangul document images by using two-level image-to-image matching. The system is composed of character segmentation, creating a query image, feature extraction, and matching procedure. Two different feature vectors are used in the matching procedure. An experiment using 1600 Hangul word images from 8 document images, downloaded from the website of Korea Information Science Society, demonstrates that the proposed system is superior to conventional image-based document retrieval systems.

Automatic Title Detection by Spatial Feature and Projection Profile for Document Images (공간 정보와 투영 프로파일을 이용한 문서 영상에서의 타이틀 영역 추출)

  • Park, Hyo-Jin;Kim, Bo-Ram;Kim, Wook-Hyun
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.11 no.3
    • /
    • pp.209-214
    • /
    • 2010
  • This paper proposes an algorithm of segmentation and title detection for document image. The automated title detection method that we have developed is composed of two phases, segmentation and title area detection. In the first phase, we extract and segment the document image. To perform this operation, the binary map is segmented by combination of morphological operation and CCA(connected component algorithm). The first phase provides segmented regions that would be detected as title area for the second stage. Candidate title areas are detected using geometric information, then we can extract the title region that is performed by removing non-title regions. After classification step that removes non-text regions, projection is performed to detect a title region. From the fact that usually the largest font is used for the title in the document, horizontal projection is performed within text areas. In this paper, we proposed a method of segmentation and title detection for various forms of document images using geometric features and projection profile analysis. The proposed system is expected to have various applications, such as document title recognition, multimedia data searching, real-time image processing and so on.

Practical Page Segmentation using Connected Components and Color Information (연결요소와 색상정보를 이용한 실제적 문서영상 분할)

  • Kim, Pyeoung-Kee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.1
    • /
    • pp.273-285
    • /
    • 2000
  • While page segmentation is an important step in document recognition, there haven's been many researches on it. More improvement is still needed on the segmentation of document elements in complicated or color documents. In this paper, I present a new page segmentation method which can segment pages with multiple columns, dotted lines, graphics, and photographs. I extract all connected components using contour following and combine them depending on the size and positional information of them. Separate text location is done for non-text color regions to extract possible text lines. To see the performance of the proposed method, experiments are done for 180 documents. Four commercial OCR programs are also tested and the proposed method showed the best result.

  • PDF

모폴로지를 이용한 문서 영상내의 특징영역 추출

  • 이상협;이경무
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1996.06a
    • /
    • pp.67-75
    • /
    • 1996
  • 컴퓨터를 이용한 문서정보의 처리를 위해서는 기본적으로 문서영상내의 각 특징영역을 분리하는 것이 필수적이다. 본 논문에서는 노이즈가 존재하는 non-manhattan layout 이치 문서영상내의 halftone 이미지, 선 및 텍스트 등의 중요한 특징영역들을 자동으로 구분 추출하는 효과적인 알고리즘을 제안한다. 제안한 알고리즘의 기본적인 아이디어는 먼저 처리속도의 고속화를 위하여 원본 영상을 축소시키는 것이 필수적인 바, 축소 시 노이즈의 제거와 동시에 축소된 영상 내에서 원하는 영역의 특징들이 잘 나타나도록 하는 임계치 축소기법을 제안 사용하여 축소영상을 만든 다음, 축소영상에 다양한 모폴로지 필터를 적용함으로써 각 알고리즘의 성능을 이용한 노이즈 문서영상을 이용한 시뮬레이션을 통하여 보인다.

  • PDF

A new segmentation method for non-manhattan layout document images using connected component (연결요소 특징을 이용한 복잡한 문서영상의 구조 분석)

  • 이상협;이경무
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1997.11a
    • /
    • pp.71-74
    • /
    • 1997
  • 본 논문은 일반적으로 제약 없는 형식 문서 즉, 논-맨하탄(non-manhattan) 형식의 이진문서영상을 분석하는 기법으로서, 연결요소기법에 기반한 특징추출과 이를 이용한 영역분리 및 분류에 관한 새로운 방법을 제안한다. 제안한 방식은 바텀-업(bottom-up)방식으로서 먼저 처리속도의 고속화와 축소시 특징 영역보존을 위해 임계치 축소기법을 사용하고, 축소된 이진 문서영상내의 각 연결된 검은 화소의 집합을 개체화하고 개체의 특성에 따라 텍스트, 신성분, 해프톤, 도형 그리고 표 등으로 분류한다. 영역분류는 두단계로 이루어지는데, 1차분류에서는 우선, B/W 비, 면적, 외각 테두리의 높이와 너비 비, 테두리선유무 등의 특징을 이용하여 해프톤, 수평 수직선, 테두리(표 및 도형)영역을 분리한다. 이후 2차 분류에서는 문자성분의 수평결합을 통한 텍스트행 성분을 추출한다. 마지막 후처리 과정으로 표분석 알고리듬을 통하여 테두리 영역중 표와 도형을 정확히 구분하고, 또한 도형에 관련한 문서성분을 해당 도형 개체에 연결하는 작업을 수행함으로써 완벽한 영역분류를 한다. 다양한 문서영상을 이용한 시뮬레이션을 통해 제안한 알고리듬의 성능을 입증한다.

  • PDF

Component Analysis and Classification for Rotated Document Image (회전된 문서영상에서의 구성요소 분석 및 분류)

  • 모문정;김욱현
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.169-172
    • /
    • 2001
  • 본 논문에서는 회전된 문서에서의 회전각 검출과 문서에 포함된 그림, 글자, 표, 직선과 같은 구성요소를 자동으로 분석하고 분류하는 방법을 제안한다. 본 연구는 입력영상을 획득하는 과정에서 발생되는 회전각에 의해 발생되는 오류를 최소화하기 위한 회전각 검출단계, 각 구성요소 검출에 불필요한 배경제거 단계, 각 구성요소의 특성을 통한 구성요소 분류단계로 이루어진다. 제안한 문서 인식 시스템의 성능 평가를 위해서 다양 한 문서에 제안한 방법을 적용하고, 성공적인 결과를 보인다.

  • PDF

Text Extraction by Skew Normalization and Block Split & Merge (기울기 보정과 블록 분할 합병을 통한 문자 추출)

  • 김도현;차의영;강민경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.424-426
    • /
    • 2001
  • 신문, 잡지, 공문서, 영수증 등의 문서로부터 필요한 정보를 자동화하여 처리할 수 있는 문서영상 이해 시스템의 구현에 있어서 문서영상에 존재하는 문자를 추출하는 연구는 문자 인식의 전처리 단계로서 매우 중요한 의미를 지니고 있다. 하지만 현 시점에서 문서 자체가 가지는 다양한 형태 및 배경 등에 의하여 범용화되고 일반화된 방법을 찾기란 매우 어려운 실정이다. 본 논문에서는 특히 배경이 선이나 도표 등으로 이루어진 문서 영상에서 Hough Transform을 사용하여 기울어짐을 보정하고 문자들이 선에 겹친 부분을 효과적으로 보정하며 추출된 영역에 대한 분할 및 합병 과정을 거쳐 최종적으로 완전한 문자 영역을 추출하는 방법에 대하여 다룬다.

  • PDF

A Block Classification and Rotation Angle Extraction for Document Image (문서 영상의 영역 분류와 회전각 검출)

  • Mo, Moon-Jung;Kim, Wook-Hyun
    • The KIPS Transactions:PartB
    • /
    • v.9B no.4
    • /
    • pp.509-516
    • /
    • 2002
  • This paper proposes an efficient algorithm which recognizes the mixed document image consisting of the images, texts, tables, and straight lines. This system is composed of three steps. The first step is the detection of rotation angle for complementing skewed images, the second is detection of erasing an unnecessary background region and last is the classification of each component included in document images. This algorithm performs preprocessing of detecting rotation angles and correcting documents based on the detected rotation angles in order to minimize the error rate by skewness of the documentation. We detected the rotation angie using only horizontal and vertical components in document images and minimized calculation time by erasing unnecessary background region in the detecting process of component of document. In the next step, we classify various components such as image, text, table and line area included in document images. we applied this method to various document images in order to evaluate the performance of document recognition system and show the successful experimental results.

Document Image Segmentation and Classification using Texture Features and Structural Information (텍스쳐 특징과 구조적인 정보를 이용한 문서 영상의 분할 및 분류)

  • Park, Kun-Hye;Kim, Bo-Ram;Kim, Wook-Hyun
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.11 no.3
    • /
    • pp.215-220
    • /
    • 2010
  • In this paper, we propose a new texture-based page segmentation and classification method in which table region, background region, image region and text region in a given document image are automatically identified. The proposed method for document images consists of two stages, document segmentation and contents classification. In the first stage, we segment the document image, and then, we classify contents of document in the second stage. The proposed classification method is based on a texture analysis. Each contents in the document are considered as regions with different textures. Thus the problem of classification contents of document can be posed as a texture segmentation and analysis problem. Two-dimensional Gabor filters are used to extract texture features for each of these regions. Our method does not assume any a priori knowledge about content or language of the document. As we can see experiment results, our method gives good performance in document segmentation and contents classification. The proposed system is expected to apply such as multimedia data searching, real-time image processing.