문서 이미지에서 문자 추출과 3차원 면적-가중치 그래프를 이용한 단어 그룹핑

Text Extraction and Word Grouping using 3D Area-Weighted Graph in Document

  • 옥세영 (부산대학교 전자계산학과 그래픽스 응용 연구실) ;
  • 박환철 (부산대학교 전자계산학과 그래픽스 응용 연구실) ;
  • 조환규 (부산대학교 전자계산학과 그래픽스 응용 연구실)
  • 발행 : 1998.10.01

초록

이미지 분석이나 데이터 베이스 인덱싱 또는 종이 문서를 전자 문서화 하는 문제는컴퓨터 비젼 응용분야에서 중요 관심사가 되어왔다. 이러한 문제들을 처리하기 위해서는 제일 먼저 이미지와 문자가 혼합되어 있는 문서에서 자동으로 문자와 이미지들을 분리해 내는 과정이 필수 적이다. 본 논문에서는 신문이나 광고등에서 볼 수 있는 이미지, 음각 문자와 양각 문자가 섞여 있는 문서에서 문자만을 추출하는 알고리즘을 제안한다. 이 알고리즘은 Run-length code를 이용하여 문자나 이미지의 경계선(bound) 모양의 특징을 추출하여 음각 문자와 이미지, 양각 문자를 구분한다. 그리고 추출된 글자들을 3차원 공간상에 매핑한 후 3차원 면적 가중치 그래프를 이용하여 관련된 단어들로 묶어주는 3차원 그룹핑 알고리즘을 제시한다. 실험결과로는 추출된 문자와 그룹핑된 결과를 보여준다.

키워드