• Title/Summary/Keyword: font recognition

Search Result 67, Processing Time 0.02 seconds

Construction of Printed Hangul Character Database PHD08 (한글 문자 데이터베이스 PHD08 구축)

  • Ham, Dae-Sung;Lee, Duk-Ryong;Jung, In-Suk;Oh, Il-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.11
    • /
    • pp.33-40
    • /
    • 2008
  • The application of OCR moves from traditional formatted documents to the web document and natural scene images. It is usual that the new applications use not only standard fonts of Myungjo and Godic but also various fonts. The conventional databases which have mainly been constructed with standard fonts have limitations in applying to the new applications. In this paper, we generate 243 image samples for each of 2350 Hangul character classes which differs in font size, quality, and resolution. Additionally each sample was varied according to binarization threshold and rotational transformation. Through this process 2187 samples were generated for each character class. Totally 5,139,450 samples constitutes the printed Hangul character database called the PHD08. In addition, we present the characteristics and recognition performance by an commercial OCR software.

Recognition of Printed Hangul Text Using Circular Pattern Vectors (원형 패턴 벡터를 이용한 인쇄체 한글 인식)

  • Jeong, Ji-Ho;Choe, Tae-Yeong
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.3
    • /
    • pp.269-281
    • /
    • 2001
  • This thesis deals with a novel font-dependent Hangul recognition algorithm invariant to position translation, scaling, and rotation using circular pattern vectors. The proposed algorithm removes noise from input letters using binary morphology and generates the circular pattern vectors. The generated circular pattern vectors represent spatial distributions on several concentric circles from the center of gravity in a given letter. Then the algorithm selects the letter minimizing the distance between the reference vectors and the generated circular pattern vectors. In order to estimate performances of the proposed algorithm, the completed Batang Hangul 2,350 letters were used as test images with scaling and rotational transformations. Experimental results show that the proposed algorithm are better than conventional algorithm using the ring projection in the recognition rates of Hangul letters with scaling and rotational transformation.

  • PDF

A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja (인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구)

  • 김정한;조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.3
    • /
    • pp.232-247
    • /
    • 1991
  • This paper proposes a new classification algorithm using characteristic and structural information of printed Hanja as preliminary stages of Hanja-character recognition. Hanja is difficult for not only recognition but classification as many character and complicated structure. In this paper, to solve thie problem, extracted common subpattern in classified pattern after processing type classification fot Hanja pattern. First, we extracted subpattern, after we process preprecessing about input of character pattern, extracting directional segment, labeling on 4-directional pattern and 12 type classified using structural information based on the subpattern existing region of character pattern. Though the experiment, this study obtained that classified rate of Hanja is 93.07% on 1800 character of educational Hanja and 90.12% on 4888 character of KS C5601 standard TRIGEM LBP Hanja font and saw that as extracting subpattern at classified data was this paper possibly applied to the recognition.

  • PDF

Large-Scale Hangul Font Recognition Using Deep Learning (딥러닝을 이용한 대규모 한글 폰트 인식)

  • Yang, Jin-Hyeok;Kwak, Hyo-Bin;Kim, In-Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.8-12
    • /
    • 2017
  • 본 연구에서는 딥러닝을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 폰트는 디자인 분야에 있어서 필수적인 요소이며 문화적으로도 중요하다. 한글은 영어권 언어에 비해 훨씬 많은 문자를 포함하고 있기 때문에 한글 폰트 인식은 영어권 폰트 인식보다 어렵다. 본 연구에서는 최근 다양한 영상 인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 한글 폰트 인식을 수행하였다. 과거에 이루어진 대부분의 폰트 인식 연구에서는 불과 수 십 종의 폰트 만을 대상으로 하였다. 최근에 이르러서야 2000종 이상의 대용량 폰트 인식에 대한 연구결과가 발표되었으나, 이들은 주로 문자의 수가 적은 영어권 문자들을 대상으로 하고 있다. 본 연구에서는 CNN을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 많은 수의 폰트를 인식하기 위해 두 가지 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다. 특히, 본 연구에서는 3300종의 한글 폰트를 효과적으로 인식하면서도 학습 시간과 파라미터의 수를 줄이고 구조를 단순화하는 방향으로 모델을 개선하였다. 제안하는 모델은 3300종의 한글 폰트에 대하여 상위 1위 인식률 94.55%, 상위 5위 인식률 99.91%의 성능을 보였다.

  • PDF

Large-Scale Hangul Font Recognition Using Deep Learning (딥러닝을 이용한 대규모 한글 폰트 인식)

  • Yang, Jin-Hyeok;Kwak, Hyo-Bin;Kim, In-Jung
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.8-12
    • /
    • 2017
  • 본 연구에서는 딥러닝을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 폰트는 디자인 분야에 있어서 필수적인 요소이며 문화적으로도 중요하다. 한글은 영어권 언어에 비해 훨씬 많은 문자를 포함하고 있기 때문에 한글 폰트 인식은 영어권 폰트 인식보다 어렵다. 본 연구에서는 최근 다양한 영상 인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 한글 폰트 인식을 수행하였다. 과거에 이루어진 대부분의 폰트 인식 연구에서는 불과 수 십 종의 폰트 만을 대상으로 하였다. 최근에 이르러서야 2000종 이상의 대용량 폰트 인식에 대한 연구결과가 발표되었으나, 이들은 주로 문자의 수가 적은 영어권 문자들을 대상으로 하고 있다. 본 연구에서는 CNN을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 많은 수의 폰트를 인식하기 위해 두 가지 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다. 특히, 본 연구에서는 3300종의 한글 폰트를 효과적으로 인식하면서도 학습 시간과 파라미터의 수를 줄이고 구조를 단순화하는 방향으로 모델을 개선하였다. 제안하는 모델은 3300종의 한글 폰트에 대하여 상위 1위 인식률 94.55%, 상위 5위 인식률 99.91%의 성능을 보였다.

  • PDF

A Neural Net Classifier for Hangeul Recognition (한글 인식을 위한 신경망 분류기의 응용)

  • 최원호;최동혁;이병래;박규태
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.27 no.8
    • /
    • pp.1239-1249
    • /
    • 1990
  • In this paper, using the neural network design techniques, an adaptive Mahalanobis distance classifier(AMDC) is designed. This classifier has three layers: input layer, internal layer and output layer. The connection from input layer to internal layer is fully connected, and that from internal to output layer has partial connection that might be thought as an Oring. If two ormore clusters of patterns of one class are laid apart in the feature space, the network adaptively generate the internal nodes, whhch are corresponding to the subclusters of that class. The number of the output nodes in just same as the number of the classes to classify, on the other hand, the number of the internal nodes is defined by the number of the subclusters, and can be optimized by itself. Using the method of making the subclasses, the different patterns that are of the same class can easily be distinguished from other classes. If additional training is needed after the completion of the traning, the AMDC does not have to repeat the trainging that has already done. To test the performance of the AMDC, the experiments of classifying 500 Hangeuls were done. In experiment, 20 print font sets of Hangeul characters(10,000 cahracters) were used for training, and with 3 sets(1,500 characters), the AMDC was tested for various initial variance \ulcornerand threshold \ulcorner and compared with other statistical or neural classifiers.

  • PDF

A Two-Layer Classifier for Recognition of Multi-font and Multi-size Characters in Multi-lingual Documents (다중 언어에서 다중 활자체 및 다중 크기의 문자 인식을 위한 2계층 분류기)

  • Chi, Su-Young;Moon, Kyung-Ae;Oh, Weon-Geun;Kim, Tai-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.93-97
    • /
    • 1996
  • 본 논문에서는 2 계층 분류기를 이용하여 일반적인 문서(보고서, 책, 잡지, 워드프로세서에서 출력 된 양식) 내의 다중 크기 및 다중 활자체의 인식을 위한 효과적인 방법을 제안하고 구현하였다. 다중언어 문자를 효과적으로 인식하기 위한 2 계층 분류기를 제안하였는데 이는 폰트 독립적 분류기와 폰트 의존적 분류기로 구성되어 있다. 제안된 방법의 성능 평가를 위하여 사무실에서 많이 사용하는 59 종류의 폰트와 각 폰트 당 3가지 크기의 글꼴과, 스캐너에서 지원되는 3가지 농도의 총 489개의 서로 다른 부류를 갖는 3,593,172 자를 대상으로 학습시킨 뒤에 일반 문서를 가지고 펜티엄 PC 상에서 인식 실험을 수행하였다. 실험 결과, 2계층 분류기를 갖는 시스템에서 96-98%의 인식률과 초당40자 이상의 인식 속도를 보여줌으로써 일반적인 문서에서 다중 크기 및 다중 활자체의 문자 인식에 매우 실용적인 가치가 있음을 확인했다.

  • PDF

Digit Segmentation in Digit String Image Using CPgraph (CPgraph를 이용한 숫자열 영상에서 숫자 분할)

  • Oh, Jeong-su
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.9
    • /
    • pp.1070-1075
    • /
    • 2019
  • In this paper, I propose an algorithm to generate an input digit image for a digit recognition system by detecting a digit string in an image and segmenting the digits constituting the digit string. The proposed algorithm detects blobbed digit string through blob detection, designates a digit string area and corrects digit string skew using the detected blob information. And the proposed algorithm corrects the digit skew and determines the boundary points for the digit segmentation in the corrected digit sequence using three CPgraphs newly defined in this paper. In digit segmentation experiments using the image group including digit strings printed with a range of the font sizes and the image group including handwritten digit strings, the proposed algorithm successfully segments 100% and 90% of the digits in each image group.

The Font Recognition of Printed Hangul Documents (인쇄된 한글 문서의 폰트 인식)

  • Park, Moon-Ho;Shon, Young-Woo;Kim, Seok-Tae;Namkung, Jae-Chan
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.8
    • /
    • pp.2017-2024
    • /
    • 1997
  • The main focus of this paper is the recognition of printed Hangul documents in terms of typeface, character size and character slope for IICS(Intelligent Image Communication System). The fixed-size blocks extracted from documents are analyzed in frequency domain for the typeface classification. The vertical pixel counts and projection profile of bounding box are used for the character size classification and the character slope classification, respectively. The MLP with variable hidden nodes and error back-propagation algorithm is used as typeface classifier, and Mahalanobis distance is used to classify the character size and slope. The experimental results demonstrated the usefulness of proposed system with the mean rate of 95.19% in typeface classification. 97.34% in character size classification, and 89.09% in character slope classification.

  • PDF

Digitization of Old Korean Texts with Obsolete Korean Characters and Suggestion for Improvement of Information Sharing (옛한글 문서의 전자문서화와 정보공유 방법 제안)

  • Kim, Ha Young;Yoo, Woo Sik
    • Journal of Conservation Science
    • /
    • v.37 no.3
    • /
    • pp.255-269
    • /
    • 2021
  • A vast amount of materials-such as prints, woodblock prints, manuscripts, old novels, and letters-written in old Korean and using old grammar and/or obsolete characters, are collected in many institutions, including the Jangseogak at the Academy of Korean Studies. Digitization of these texts has required a prolonged manual inputting process. Individual researchers, who majored in old Korean, have read and typed the characters into electronic documents, which depends upon individual skill, effort, and approach, and is particularly limiting because none can be significantly increased. To date, only a small proportion of the old Korean document collections, currently kept in storage, have been digitized and made available to the public. Even the electronic formats of the texts prove difficult to displaying correctly, due to the incompatibility between the old Korean characters and the character set on today's electronic devices. To improve the techniques and efficiency of digitizing old Korean texts, it is necessary to develop optical character recognition (OCR), which will analyze images of old Korean documents, as well as input, display, and storage methods.