• Title/Summary/Keyword: Lexicon-Driven Post-Processing

Search Result 2, Processing Time 0.016 seconds

Wine Label Character Recognition in Mobile Phone Images using a Lexicon-Driven Post-Processing (사전기반 후처리를 이용한 모바일 폰 영상에서 와인 라벨 문자 인식)

  • Lim, Jun-Sik;Kim, Soo-Hyung;Lee, Chil-Woo;Lee, Guee-Sang;Yang, Hyung-Jung;Lee, Myung-Eun
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.5
    • /
    • pp.546-550
    • /
    • 2010
  • In this paper, we propose a method for the postprocessing of cursive script recognition in Wine Label Images. The proposed method mainly consists of three steps: combination matrix generation, character combination filtering, string matching. Firstly, the combination matrix generation step detects all possible combinations from a recognition result for each of the pieces. Secondly, the unnecessary information in the combination matrix is removed by comparing with bigram of word in the lexicon. Finally, string matching step decides the identity of result as a best matched word in the lexicon based on the levenshtein distance. An experimental result shows that the recognition accuracy is 85.8%.

Off-Line Recognition of Unconstrained Handwritten Korean Words using Over-Segementation and Lexicon Driven Post-Processing Techniques (과다 분리 및 사전 후처리 기법을 이용한 한글이 포함된 무제약 필기 문자열의 오프라인 인식)

  • Jeong, Seon-Hwa;Kim, Su-Hyeong
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.647-656
    • /
    • 1999
  • 본 논문에서는 오프라인 무제약 필기 한글 단어를 인식하기 위한 시스템을 제안한다. 제안된 단어 인식 시스템은 크게 다석가지 모듈-문자 분리,조합행렬생성, 특징 추출, 문자인식, 사전 후처리 -로 구성되어 있다. 문자 분리 모듈은 입력된 단어 영상을 하나의 문자보다 더 작은 이미지 조각으로 과다 분리하며 , 조합 행렬 생성모듈에서는 동적 프로그래밍 기법을 이용하여 분리된 이미지 조각들로부터 사전상의 모든 단어들과 대응되는 가능한 모든 조합을 생성한다. 문자인식모듈은 각 그룹에 대하여 일괄적으로 얻어진 특징과 유니그램을 이용하여 문자인식을 수행한다. 마지막으로 사전 후처리 모듈에서는 각 그룹에 대한 문자인식 결과와 단어 사전을 사용하여 입력단어에 대한 최종 인식 결과를 도출한다. 본 문에서 제안한 방법은 문자 분리, 문자 인식 및 후처리를 상호 보완적으로 결합함으로써 한글이 포함된 무제약 필기 문자열을 효과적으로 인식할 수 있다. 제안된 시스템의 성능을 평가하기 위하여 실제 우편 봉투 상에 쓰여진 필기 한글 단어 200개를 대상으로 실험을 하였다. 실험 결과 200개의 단어중 172개의 단어를 정인식하여 86%의 정확도를 얻을 수 있었으며 나머지 28개의 오인식된 단어들을 분석한 결과 대부분의 오류는 문자 인식기의 낮은 신뢰도 때문임을 알 수 있었다. 또한, 하나의 단어를 인식하기 위하여 약 2초가 소요되었다.