• 제목/요약/키워드: Manchu script

검색결과 2건 처리시간 0.017초

Manchu Script Letters Dataset Creation and Labeling

  • Aaron Daniel Snowberger;Choong Ho Lee
    • Journal of information and communication convergence engineering
    • /
    • 제22권1호
    • /
    • pp.80-87
    • /
    • 2024
  • The Manchu language holds historical significance, but a complete dataset of Manchu script letters for training optical character recognition machine-learning models is currently unavailable. Therefore, this paper describes the process of creating a robust dataset of extracted Manchu script letters. Rather than performing automatic letter segmentation based on whitespace or the thickness of the central word stem, an image of the Manchu script was manually inspected, and one copy of the desired letter was selected as a region of interest. This selected region of interest was used as a template to match all other occurrences of the same letter within the Manchu script image. Although the dataset in this study contained only 4,000 images of five Manchu script letters, these letters were collected from twenty-eight writing styles. A full dataset of Manchu letters is expected to be obtained through this process. The collected dataset was normalized and trained using a simple convolutional neural network to verify its effectiveness.

어문청정 빅데이터 분석: 위문기거 일례 (A Big Data Analysis of Yumentingzheng: Weiwenqiju as an Example)

  • 스노우버거 다니엘 아론;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.624-626
    • /
    • 2021
  • 청나라 황제가 신하들과 정사를 논한 내용을 기록한 중국의 어문청정은, 한국의 조선실록과 같은 중요한 문서이다. 본 논문은 만주글자로 쓰여진 어문청정을 빅데이터 분석하기 위한 방법과 그 단계를 기술한다. 만주글자로 씌여진 문서의 빅데이터 분석에는 사전에 해결해야 할 많은 문제가 있으며 이에 대한 연구가 선행되어야 한다. 본 논문에서는 앞으로 이루어질 사전 연구를 통하여 만주 글자로 씌여진 텍스트가 라틴문자로 전사된 단계에서, R언어를 이용하여 빅데이터 분석을 하는 방법을 제안하였다. 제안된 방법에서는 어문청정을 전사하는 방식은 압카이 방식을 채택하였고, 위문기거 부분의 텍스트를 이용하여 빅데이터 분석 결과를 제시하였다.

  • PDF