• 제목/요약/키워드: Manchu character recognition

검색결과 3건 처리시간 0.019초

만주문자 인식을 위한 전처리 방법에 관한 연구 (A Study on the Preprocessing for Manchu-Character Recognition)

  • 최민석;이충호
    • 융합신호처리학회논문지
    • /
    • 제14권2호
    • /
    • pp.90-94
    • /
    • 2013
  • 만주문자로 기록된 문헌의 디지털화에 대한 연구는 아직 초기 단계이다. 본 논문은 만주문자의 인식을 위한 전처리 방법을 제안한다. 만주문자의 전처리 단계는 세선화와 문자단위 분리가 중요하다. 본 논문에서는 기존 세선화 방법인 Hilditch 세선화 알고리듬을 개선하여 만주문자의 세선화 오류를 보완하고 각 문자단위를 좌우측으로 분류하지 않고 문자의 삐침이 존재하는 위치점 사이의 중심점을 이용하여 분리하여 내는 실제적인 방법을 제안하고 있다. 실험을 통하여 만주문자로 이루어진 단어의 세선화와 문자단위 분류에 적용하여 그 유효성을 보여주고 있다.

Manchu Script Letters Dataset Creation and Labeling

  • Aaron Daniel Snowberger;Choong Ho Lee
    • Journal of information and communication convergence engineering
    • /
    • 제22권1호
    • /
    • pp.80-87
    • /
    • 2024
  • The Manchu language holds historical significance, but a complete dataset of Manchu script letters for training optical character recognition machine-learning models is currently unavailable. Therefore, this paper describes the process of creating a robust dataset of extracted Manchu script letters. Rather than performing automatic letter segmentation based on whitespace or the thickness of the central word stem, an image of the Manchu script was manually inspected, and one copy of the desired letter was selected as a region of interest. This selected region of interest was used as a template to match all other occurrences of the same letter within the Manchu script image. Although the dataset in this study contained only 4,000 images of five Manchu script letters, these letters were collected from twenty-eight writing styles. A full dataset of Manchu letters is expected to be obtained through this process. The collected dataset was normalized and trained using a simple convolutional neural network to verify its effectiveness.

만주 글자의 단위를 추출하는 효율적인 방법 (An Efficient Method to Extract Units of Manchu Characters)

  • 스노우버거 아론 다니엘;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.617-619
    • /
    • 2021
  • 만주 문자는 세로로 씌여지며 한 단어 안에서는 띄어쓰기 없이 이어져 있기 때문에 문자를 인식하기 전에 글자영역 분리와 글자를 이루는 단위를 분리해 내는 전처리과정이 필요하다. 본 논문에서는 글자영역을 추출하고 글자의 단위를 끊어내는 전처리 방법을 기술한다. 기존 연구가 단어별 또는 문자단위로 인식하는 방법을 전제로 하거나, 이어져 있는 글자의 줄기를 없앤 후 남는 부분으로 인식하는 것과 달리, 본 방법은 인식 가능한 단위별로 글자를 끊어낸 다음 그 단위의 합성으로 글자를 인식하는 방법에 적용할 수 있다. 실험을 통하여 본 방법의 유효성을 검증하였다.

  • PDF