• 제목/요약/키워드: 문서영상 분석

검색결과 120건 처리시간 0.026초

효과적인 이진화를 위한 영상개선기법의 정의 및 구현 (Definition and Implementation of Image Enhancement Techniques for Efficient Binarization)

  • 최경주;변혜란;이일병
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권2호
    • /
    • pp.284-296
    • /
    • 1999
  • 문자 인식 및 영상 인식 분야의 대부분의 연구들은 이진영상(binary image)을 바탕으로 이루어진다. 하지만, 입력영상에서 보다 많은 정보를 얻기 위해 명도영상(grayscale image) 으로 입력받아 필요한 정보를 추출한후 이진영상으로 변환하여 처리하는 방법도 많이 사용되고 있다. 이런 경우, 명도영상으로부터의 보다 깨끗한 이진영상의 획득 여부는 시스템의 성능과도 밀접한 관계가 있다. 본 논문에서는 기존의 대부분의 이진화 방법과는 달리, 실제 이진화를 수행하기 이전에 여러 가지 필터링 기법을 사용하여 영상의 질을 개선시키는 영상개선기법을 사용한후, 기존의 이진화방법을 사용하여 명도영상을 이진화하는 방법을 제안하고자 한다. 영상의 질을 개선시키기 위해서 BM 필터링, 경게선 개선 필터링, Erosion필터링 방법을 사용하였으며 , 기존의 이진화방법으로는 전역적 이진화 방법중 하나로써 클래스간 분산을 이용한 Ostu 방법[1]을 사용하였다. 다양한 종류의 문서를 대상으로 실험하였는데 평가실험에 사용된 영상은 문서 특성에 따라 균일하지 않은 배경을 가진 영상, 순수하게 텍스트로만 구성된 영상, 선성분이 많으며 명도값이 다양하게 나타나는 영상, 텍스트와 선성분이 함께있는 영상 등 크게 4가지 부류로 구분하였고, 평가대상 영상에 대해 매개변수의 개수, 끊어진/잃어버린 /뭉게진 물체가 적은 정도, 실행속도, 매개변수 결정의 용이성, 잡영이 적은 정도를 평가기준으로 선정한 후, 정량적인 평가가 어려운 항목에 대해서는 9개의 등급으로 나누어 이진화 된 영상의 특성을 분석, 평가하였다.

복합문서 개체 검색 시스템- [IN2] DOR (Composite Document Object Retrieval and Searching System-[IN2] DOR)

  • 안태성;임중수;김명훈;안우람;이경일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.113-118
    • /
    • 2003
  • 기존 문서 검색 시스템의 경우 단순히 문서 내에서 텍스트를 추출한 후 그 텍스트를 색인, 검색하는 형태를 가지고 있었다. 본 논문에서는 MS Word, Excel, HWP 등 다양한 형태의 문서에서 텍스트, 표, 이미지, 차트, 동영상 등의 문서 개체를 분석, 색인하고 이를 검색하는 시스템의 개발 방법을 제외하였다. 제안된 시스템은 문서의 내부 자료 구조를 CDML(Composite Document Markup Language)로 변환하고, 이를 색인, 저장함으로 기존의 전문 검색 시스템의 한계를 효과적으로 극복했으며, 문서 내의 검색 대상 개체로 자동 이동하고 하일라이팅 시키는 기술을 구현함으로 사용자 편익성을 높였다. 개발된 시스템의 성능을 평가한 결과, 다양한 문서 형식에 대해 평균 97% 이상의 CDML변환 성공률과 개체 검색 성공률을 보였으며, 이진 파일에서 직접 개체를 추출함으로 매우 높은 분석 및 색인 속도가 달성되었음을 확인할 수 있었다. 본 논문에서 소개된 새로운 패러다임의 문서 검색 솔루션을 통해 다양한 기술적 상업적 파급 효과가 기대되고 있다.

  • PDF

문서 영상의 정교한 기하적 구조분석을 위한 지식베이스 시스템 (A Knowledge-based System for Analyzing Sophisticated Geometric Structure of Document Images)

  • 이경호;최윤철;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권11호
    • /
    • pp.795-813
    • /
    • 2001
  • 문서 영상으로부터 논리적인 구성 요소를 추출하여 전자 문서를 생성하기 위해서는 정교한 수준의 기하적인 구조 분석이 선행되어야 한다. 본 논문은 과학기술 논문을 대상으로 정교한 수준의 기하적인 구조 분석을 지원하기 위하여 지식베이스에 기반한 방법을 제안한다. 제안된 지식베이스는 과학기술 논문 유형이 공통적으로 갖는 기하적인 특성은 물론이고 출판물 특유의 특성에 대한 지식을 규칙 형태로 표현한다. 제안된 방법은 상향식과 하향식의 복합 기법을 사용하며 영역분할과 식별의 두 단계로 구성된다. 일반적으로 영역분할에 의하여 분할된 영역과 레이아웃을 구성하는 복합 객체사이에는 일-대-일의 대응관계가 존재하지 않는다. 따라서 제안된 방법은 분할된 영역을 추가로 분할하거나 통합하면서 이미지, 드로잉, 그리고 테이블 등의 비 텍스트 객체는 물론이고 텍스트 라인이나 수식과 같은 텍스트객체를 식별한다. 제안된 방법의 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문영상으로 실험한 결과, 제안된 방법은 99% 이상의 실험 영상에 대한 기하적인 구조 분석에 성공하여 기존 방법에 비해 정교한 수준의 성능을 보였다.

  • PDF

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

인쇄체 문자 인식기의 성능 평가에 관한 연구 (A Study on Implementation of Printed Character Recognition System And Performance Evaluation)

  • 김민수;강은영;김우성;한선화;김진형
    • 한국정보처리학회논문지
    • /
    • 제7권11호
    • /
    • pp.3584-3591
    • /
    • 2000
  • 본 논문에서는 국내의 대표적인 상용인식기들의 성능을 평가하기 위한 평가 방법과 평가 기준을 제안한다. 제안한 평가 기준으로 상용화된 오프라인 문자인식기들과 실험실 인식기를 비교해본 후 각각의 특성을 분석해 보았다. 인식에 필요한 대상 문서는 400 DPI로 스캔한 1000여개의 문서영상과 수작업으로 작성한 원문이 존재하는 KT 테스트 컬렉션을 사용하였다. 본 논문에서 인식기의 성능을 평가하기 위해 문자단위 인식률 측정 방법을 제안하였다. 비교를 위한 문서의 유형을 제안하여, 단일 특성을 가지는 문서, 복합 특성을 가지는 문서 등으로 비교·분석하였다.

  • PDF

디지털 포렌식을 위한 프린터 특징 추출 및 분석 (Printer Feature Extraction for Digital Forensics)

  • 이하경;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.231-233
    • /
    • 2012
  • 컴퓨터 및 프린터 기술의 발전으로 디지털 문서 활용 사례가 전 분야에 확산되면서 디지털 문서의 위 변조 범죄가 증가하고 많은 사회적인 문제를 야기하고 있다. 이러한 컴퓨터를 이용한 범죄의 증거를 수집하고 분석하기 위해 디지털 포렌식 기술의 발전이 더욱 중요해지고 있다. 디지털 포렌식은 PC나 휴대폰 등 각종 디지털 매체 등에 남아 있는 디지털 정보들을 수집 분석해 범죄 단서를 찾는 컴퓨터 법의학이다. 본 논문에서는 프린터기로 출력된 문서의 고해상도 영상현미경 이미지를 사용하여 원본 여부를 판별 할 수 있는 프린터기 동일 여부 판별 기술을 제안한다.

  • PDF

손으로 설계한 서식 문서의 문자 영역 분리 및 서식 벡터화 (Text Area Segmentation and Layout Vectorization of Off-line Handwritten Forms)

  • 김병용;권오석
    • 한국정보처리학회논문지
    • /
    • 제7권10호
    • /
    • pp.3086-3097
    • /
    • 2000
  • 본 논문에서는 손으로 자유스럽게 그린 서식 문서에서 문자 영역을 분리하고, 이 중 선 성분을 벡터화하는 방법을 제안한다. 제안된 방법은 우선 이진화 및 세선화 과정에서의 데이터 손실을 방지하기 위해 스캔한 영상에 DRC 알고리즘을 적용한다. 그리고 영상의 기울어짐을 교정하기 위해 세선화된 영상에 허프 변환을 적용하여 기울어짐을 추정하고 교정한 다음, 서식의 구조를 이루는 선 성분을 추출해 낸다. 그리고 문자 영역은 연결 요소 분석법에 의해 문자 영역을 나타내는 데이터로 변환되며, 추출된 선 성분을 정렬, 합병 및 교정처리를 통해 벡터화 된다. 제안된 방법의 실효성을 입증하기 위해 각각 25명의 다른 사람이 필기구에 제한을 두지 않고 하나는 자를 사용하여 작성하고 다른 하나는 자를 사용하지 않고 작성한 서식에 대해 실험한 결과 전체 750개의 벡터 집합 중에서 전처리를 하지 않은 경우에는 666개, 전처리를 한 경우에는 746개의 서식 벡터 검출에 성공하여 그 유효성을 확인할 수 있었다.

  • PDF

세금계산서 상에서의 관심 데이터 추출 (Field Data Extraction on Tax Form Image)

  • 정재영;유돈극
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2001년도 춘계학술대회논문집:21세기 신지식정보의 창출
    • /
    • pp.268-279
    • /
    • 2001
  • 본 논문에서는 세금 계산서 상에서의 관심 영역 및 관심 영역 내의 데이터를 추출하는 알고리즘을 제안한다. 먼저, 입력되는 세금 계산서 영상의 색상 정보를 이용하여 서식을 자동으로 추출한다. 추출된 서식 영상을 가지고 문서의 기울기 및 관심 대상 영역의 위치를 파악한 후, 원 영상에 대하여 관심영역을 추출한다. 관심영역에 대한 히스토그램을 분석하여 바탕 영역으로부터 인식 대상 데이터를 추출한다. 제안한 알고리즘을 다양한 화질의 세금 계산서 영상에 대하여 적용한 결과, 정확하게 관심 영역을 분할해내고 인식 대상 데이터를 추출할 수 있음을 보인다.

  • PDF

문서 영상의 그림 영역에서 효과적인 단어 영상 추출에 관한 연구 (A Study on an Efficient method of Word Decomposition from Document Images)

  • 정창부;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.689-692
    • /
    • 2006
  • 본 논문에서는 그림 영역에서 단어 영상을 효과적으로 추출하는 방법을 제안한다. 제안 방법은 문자 성분과 그래픽 성분을 분류하기 위하여 구성 원소들의 통계값을 이용하는 상자그림 분석을 응용하고, 분류된 문자 성분들에 대하여 지역적 밀집도를 분석하여 문자 영역을 추출한다. 추출된 문자 영역에서 문자열 및 단어 영상을 추출하는 방법은 투영 히스토그램 분석 등을 적용한다. 제안 방법은 임계치 대신에 그림 영역의 통계값을 이용하였기 때문에 그림의 형태 변화에 민감하지 않으며, 지역적 밀집도 분석으로 보다 정확한 문자 영역을 추출하였다.

  • PDF

시맨틱 주석을 이용한 내용 기반 데이터 검색 (Content based data search using semantic annotation)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.429-436
    • /
    • 2011
  • 인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.