• 제목/요약/키워드: font recognition

검색결과 67건 처리시간 0.02초

Hough Transform과 부분 그래프 패턴을 이용한 한글 인식에 관한 연구 (A Study on the Hangul Recognition Using Hough Transform and Subgraph Pattern)

  • 구하성;박길철
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.185-196
    • /
    • 1999
  • 본 논문에서는 부분 그래프 패턴과 신경망을 이용한 새로운 한글 오프라인 인식 시스템을 제안하였다. 문자를 입력으로 받아 세선화를 행한 후 위치에 관한 잡음 제거 기능을 갖는 균형화를 수행하고 인식단의 첫번째 단계에서 순환 성분을 추출하고 인식한다. 부블럭 HT 공간에서 끝점, 굴곡점, 분기점의 특징점을 추출하고 추출된 특징점 사이의 관계를 조사하여 부분 그래프 패턴을 구성한다. 종모음이 올 수 있는 구역을 할당하고 종모음 후보점을 추출하여 미리 조사된 부분 그래프 패턴 사전과 비교하여 종모음을 추출한다. 같은 방법으로 횡모음을 추출한 후 간단한 구조 해석적 방법으로 모음을 인식한다. 본 논문의 성능비교를 위하여 실험은 활자체의 경우 가장 많이 쓰이는 명조체와 고딕체 그리고 필기체를 대상으로 한다. 고딕체의 경우 인식율 98.9%, 명조체의 경우 인식율 98.2%, 필기체의 경우 92.5% 이었다. 다중 자형 인식을 위하여 필기체와 활자체의 구분 없이 구한 전체 시스템의 인식율은 94.8% 이었다.

  • PDF

글자체파일의 컴퓨터프로그램저작물성 판단에 대한 비판 (Comment on the Copyrightability of Font-files as Computer Program)

  • 정진근
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권2호
    • /
    • pp.17-24
    • /
    • 2019
  • 글자체파일의 무단 이용이 사회적으로 문제가 되고 있다. 이러한 가운데, 우리 법원은 글자체파일을 컴퓨터프로그램으로 인식한다. 글자체를 컴퓨터에서 이용할 수 있도록 디지털화한 글자체파일이 컴퓨터프로그램인가? 이러한 인식은 컴퓨터프로그램과 데이터를 구별하지 못 함으로써 발생하는 것이다. 반면, 전문가들의 인식은 글자체파일을 컴퓨터프로그램으로 인식하지 않는다. 이와 관련하여, 2014년에 INI파일이 컴퓨터프로그램이 아니며, 단지 데이터 파일에 불과하다는 판례가 있었다. 특히, CAD 파일들 역시 외형상 지시명령을 포함하고 있다는 점에서, 대법원의 태도는 컴퓨터프로그램과 데이터 간의 구별을 어렵게 할 뿐이다. 대법원의 판결은 변경될 필요가 있다. 아울러, 글자체파일을 보호하기 위한 새로운 법제도가 마련되어야 한다.

한글 글꼴 유사성 판단을 위한 획 요소 속성의 영향력 분석 (A Study on Influence of Stroke Element Properties to find Hangul Typeface Similarity)

  • 박동연;전자연;임서영;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권12호
    • /
    • pp.1552-1564
    • /
    • 2020
  • As various styles of fonts were used, there were problems such as output errors due to uninstalled fonts and difficulty in font recognition. To solve these problems, research on font recognition and recommendation were actively conducted. However, Hangul font research remains at the basic level. Therefore, in order to automate the comparison on Hangul font similarity in the future, we analyze the influence of each stroke element property. First, we select seven representative properties based on Hangul stroke shape elements. Second, we design a calculation model to compare similarity between fonts. Third, we analyze the effect of each stroke element through the cosine similarity between the user's evaluation and the results of the model. As a result, there was no significant difference in the individual effect of each representative property. Also, the more accurate similarity comparison was possible when many representative properties were used.

NMF를 이용한 영문자 활자체 폰트 분류 (Font Classification of English Printed Character using Non-negative Matrix Factorization)

  • 이창우;강현;정기철;김항준
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.65-76
    • /
    • 2004
  • 최근 대부분의 문서들이 전자적으로 생성되고 많은 고문서들이 이미지 형태로 전자화되고 있다. 이미지 형태의 전자 문서들은 정보 추출과 데이터베이스화에 많은 어려움이 있기 때문에, 이러한 문서를 효율적으로 관리하고 검색하기 위한 문서구조분석 방법과 문자 인식을 위한 많은 연구가 필요하다. 본 논문은 폰트의 구분 특성(font discrimination features)들이 폰트이미지의 공간적으로 지역적인 특징들에 기반함을 가정한 방법으로써, 객체의 부분기반 표현들을 학습할 수 있는 NMF(non-negative matrix factorization) 알고리즘을 사용하여 폰트를 자동으로 분류하는 방법이다. 제안된 방법은 부분기반의 비지도 학습 방법(part-based unsupervised learning technique)을 이용하여 전체의 폰트 이미지들로부터 각 폰트들의 구분 특징인 부분을 학습하고, 학습된 부분들을 특징으로 사용하여 폰트를 분류하는 방법이다. 실험결과에서 폰트 이미지들의 공간적으로 국부적인 특징들이 조사되고, 그 특징들이 폰트의 식별을 위한 적절성을 보인다. 제안된 방법이 기존의 문자인식, 문서 검색 시스템들의 전처리기로 사용되면, 그 시스템들의 성능을 향상시킬 것으로 기대된다.

한영 혼용문서 인식을 위한 다중 폰트 이미지로부터 한글과 영어의 구별 (Distinction of Korean and English Characters from Multi-font Images for the Recognition of Mixed Document Composed of Korean and English)

  • 전일수
    • 한국산업정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.52-58
    • /
    • 1999
  • 본 논문에서는 한\ulcorner영 혼용문서인식을 위해 다중 크기, 다중 활자체에 적용 가능한 한글과 영어를 구별하는 알고리즘을 제안한다. 제안된 방법에서는 글자의 종횡비, 연결요소의 수, 좌상단의 획이미지 존재 여부, 그리고 바(bar)를 입력 이미지에 대해 좌상우하의 순서로 진행해 가면서 바를 검출하고, 이들을 이용하여 한글과 영어를 구별한다. 제안된 방법을 문서 작성 시 널리 사용되는 ?글의 명조체, 신명조체, 고딕체, 궁서체에 대해 실험하여 그 성능의 우수성을 입증하였다.

  • PDF

오류 역전파 알고리즘을 이용한 영문자의 폰트 분류 방법에 관한 연구 (Front Classification using Back Propagation Algorithm)

  • 정민철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.65-77
    • /
    • 2004
  • 본 연구에서는 영문 단어로부터 폰트를 분류하기 위해 연역적이고 국부적인 폰트 분류 방법을 제안한다. 이는 문자 인식 전에 한 단어에서 폰트를 분류하는 것을 말한다. 폰트 분류를 위해 활자 특성인 어센더(ascender), 디센더(descender)와 세리프(serif)가 사용된다. 입력 단어로부터 어센더(ascender), 디센더(descender)와 세리프(serif)가 추출되어 경사도 특징 벡터가 추출되고, 그 특징 벡터는 인공 신경망에 의해 입력 단어에 대한 2가지 폰트 스타일, 3가지 폰트 그룹, 7가지 폰트 이름이 분류된다. 제안된 연역적이고 국부적인 폰트 분류 방법은 폰트 정보가 문자 분할기와 문자 인식기에 사용될 수 있게 한다. 나아가, 특정 폰트에 따른 Mono-Font 문자 분할기와 Mono-Font문자 인식기로 구성되는 OCR시스템을 구성할 수 있는 것을 가능하게 한다. 실험 결과는 평균 95.4 퍼센트의 높은 폰트 분류율을 보였다. 본 논문에서 7가지 폰트분류를 위해 제안된 방법은 그 외 다른 폰류 분류에도 적용될 수 있다.

  • PDF

MSFM: Multi-view Semantic Feature Fusion Model for Chinese Named Entity Recognition

  • Liu, Jingxin;Cheng, Jieren;Peng, Xin;Zhao, Zeli;Tang, Xiangyan;Sheng, Victor S.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1833-1848
    • /
    • 2022
  • Named entity recognition (NER) is an important basic task in the field of Natural Language Processing (NLP). Recently deep learning approaches by extracting word segmentation or character features have been proved to be effective for Chinese Named Entity Recognition (CNER). However, since this method of extracting features only focuses on extracting some of the features, it lacks textual information mining from multiple perspectives and dimensions, resulting in the model not being able to fully capture semantic features. To tackle this problem, we propose a novel Multi-view Semantic Feature Fusion Model (MSFM). The proposed model mainly consists of two core components, that is, Multi-view Semantic Feature Fusion Embedding Module (MFEM) and Multi-head Self-Attention Mechanism Module (MSAM). Specifically, the MFEM extracts character features, word boundary features, radical features, and pinyin features of Chinese characters. The acquired font shape, font sound, and font meaning features are fused to enhance the semantic information of Chinese characters with different granularities. Moreover, the MSAM is used to capture the dependencies between characters in a multi-dimensional subspace to better understand the semantic features of the context. Extensive experimental results on four benchmark datasets show that our method improves the overall performance of the CNER model.

Character Recognition Algorithm using Accumulation Mask

  • Yoo, Suk Won
    • International Journal of Advanced Culture Technology
    • /
    • 제6권2호
    • /
    • pp.123-128
    • /
    • 2018
  • Learning data is composed of 100 characters with 10 different fonts, and test data is composed of 10 characters with a new font that is not used for the learning data. In order to consider the variety of learning data with several different fonts, 10 learning masks are constructed by accumulating pixel values of same characters with 10 different fonts. This process eliminates minute difference of characters with different fonts. After finding maximum values of learning masks, test data is expanded by multiplying these maximum values to the test data. The algorithm calculates sum of differences of two corresponding pixel values of the expanded test data and the learning masks. The learning mask with the smallest value among these 10 calculated sums is selected as the result of the recognition process for the test data. The proposed algorithm can recognize various types of fonts, and the learning data can be modified easily by adding a new font. Also, the recognition process is easy to understand, and the algorithm makes satisfactory results for character recognition.

Low-Quality Banknote Serial Number Recognition Based on Deep Neural Network

  • Jang, Unsoo;Suh, Kun Ha;Lee, Eui Chul
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.224-237
    • /
    • 2020
  • Recognition of banknote serial number is one of the important functions for intelligent banknote counter implementation and can be used for various purposes. However, the previous character recognition method is limited to use due to the font type of the banknote serial number, the variation problem by the solid status, and the recognition speed issue. In this paper, we propose an aspect ratio based character region segmentation and a convolutional neural network (CNN) based banknote serial number recognition method. In order to detect the character region, the character area is determined based on the aspect ratio of each character in the serial number candidate area after the banknote area detection and de-skewing process is performed. Then, we designed and compared four types of CNN models and determined the best model for serial number recognition. Experimental results showed that the recognition accuracy of each character was 99.85%. In addition, it was confirmed that the recognition performance is improved as a result of performing data augmentation. The banknote used in the experiment is Indian rupee, which is badly soiled and the font of characters is unusual, therefore it can be regarded to have good performance. Recognition speed was also enough to run in real time on a device that counts 800 banknotes per minute.

효과적인 도서목록 검색을 위한 개선된 OCR알고리즘에 관한 연구 (Improvement OCR Algorithm for Efficient Book Catalog RetrievalTechnology)

  • 하문;백영현;문성룡
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.152-159
    • /
    • 2010
  • 본 논문에서는 기울어진 문자, 다양한 크기, 글씨체, 흐린 문자를 포함한 입력영상의 문자 복원과 인식, 효율적인 도서 검색을 위한 광학문자인식 알고리즘을 제안한다. 본 논문에서 제안한 광학문자 인식알고리즘은 검출부와 인식부로 구성되며, 검출부에서는 복잡한 배경에서 정확한 도서 영역 검출을 위하여 로버츠 에지 연산자와 허도로프 거리 알고리즘을 적용하여 필요한 영역을 검출하였다. 또한 인식부에서는 문자의 크기와 경사도, 부분 손실 등의 영상에 강인성을 갖는 바이큐빅 보간법을 적용하여 데이터 손실 복원과, 반자동 기울기를 갖는 입력 영상의 보정을 하였다. 모의실험 결과 기존 알고리즘 보다 인식률에서는 6%, 검색시간에서는 1.077초 더 우수함을 확인하였다.