• 제목/요약/키워드: Handwritten Data

검색결과 91건 처리시간 0.02초

GoogLenet 기반의 딥 러닝을 이용한 향상된 한글 필기체 인식 (Improved Handwritten Hangeul Recognition using Deep Learning based on GoogLenet)

  • 김현우;정유진
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.495-502
    • /
    • 2018
  • 딥 러닝 기술의 등장으로 여러 나라의 필기체 인식은 높은 정확도 (중국어 필기체 인식은 97.2%, 일본어 필기체 인식은 99.53%)를 보인다. 하지만 한글 필기체는 한글의 특성으로 유사글자가 많은데 비해 문자의 데이터 수는 적어 글자 인식에 어려움이 있다. 하이브리드 러닝을 통한 한글 필기체 인식에서는 lenet을 기반으로 하여 낮은 레이어를 가진 모델을 사용하여 한글 필기체 데이터베이스 PE92에서 96.34%의 정확도를 보여주었다. 본 논문에서는 하이브리드 러닝에서 사용하였던 데이터 확장 기법(data augmentation)이나 multitasking을 사용하지 않고도 GoogLenet 네트워크를 기본으로 한글 필기체 데이터에 적합한 더 깊고 더 넓은 CNN(Convolution Neural Network) 네트워크를 도입하여 PE92 데이터베이스에서 98.64%의 정확도를 얻었다.

HANDWRITTEN HANGUL RECOGNITION MODEL USING MULTI-LABEL CLASSIFICATION

  • HANA CHOI
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제27권2호
    • /
    • pp.135-145
    • /
    • 2023
  • Recently, as deep learning technology has developed, various deep learning technologies have been introduced in handwritten recognition, greatly contributing to performance improvement. The recognition accuracy of handwritten Hangeul recognition has also improved significantly, but prior research has focused on recognizing 520 Hangul characters or 2,350 Hangul characters using SERI95 data or PE92 data. In the past, most of the expressions were possible with 2,350 Hangul characters, but as globalization progresses and information and communication technology develops, there are many cases where various foreign words need to be expressed in Hangul. In this paper, we propose a model that recognizes and combines the consonants, medial vowels, and final consonants of a Korean syllable using a multi-label classification model, and achieves a high recognition accuracy of 98.38% as a result of learning with the public data of Korean handwritten characters, PE92. In addition, this model learned only 2,350 Hangul characters, but can recognize the characters which is not included in the 2,350 Hangul characters

수기정보 전자화 기술 기반의 농축산물 생산이력정보 수집 시스템 (A Production Traceability Information Gathering System based on Handwritten Data Digitalization Technology in Agro-livestock Products)

  • 손봉기
    • 한국산학기술학회논문지
    • /
    • 제12권10호
    • /
    • pp.4632-4641
    • /
    • 2011
  • 이 논문에서는 농축산물 이력추적관리제의 성공적 도입 및 확대에 있어 중요한 기반요소인 생산이력정보를 효율적으로 수집할 수 있는 수기정보 전자화 기술 기반의 농축산물 생산이력정보 수집 시스템을 제안한다. 제안 시스템은 디지털펜으로 종이문서 형태의 관리대장 작성만으로 기록 대장과 동일한 디지털이미지를 생성하고, 필기체인식을 통해 기록 내용을 데이터베스화한다. 제안 시스템은 PC, PDA, 터치스크린 등의 정보 수집기기에 비해 이동성, 사용 편이성, 데이터 입력 속도 측면에서 뛰어나고, 열악한 농축산 작업 환경에서 사용하기 적합하기 때문에 전산능력과 시간적 여유가 없는 농가에서 효율적으로 양질의 생산이력정보를 수집할 수 있다. 수기정보 전자화 기술은 가공, 유통, 판매 단계의 종이문서 기반 정보취득 업무에 적용될 수 있으며, RFID/USN 기반 시스템과 연동하여 고도화된 이력추적관리 시스템 구축에 사용될 수 있다.

A Dataset of Online Handwritten Assamese Characters

  • Baruah, Udayan;Hazarika, Shyamanta M.
    • Journal of Information Processing Systems
    • /
    • 제11권3호
    • /
    • pp.325-341
    • /
    • 2015
  • This paper describes the Tezpur University dataset of online handwritten Assamese characters. The online data acquisition process involves the capturing of data as the text is written on a digitizer with an electronic pen. A sensor picks up the pen-tip movements, as well as pen-up/pen-down switching. The dataset contains 8,235 isolated online handwritten Assamese characters. Preliminary results on the classification of online handwritten Assamese characters using the above dataset are presented in this paper. The use of the support vector machine classifier and the classification accuracy for three different feature vectors are explored in our research.

필기체 문자 인식을 위한 문자 영상 데이터 구축에 관한 연구 (A Study of Construction of Character Image Data for Recognition Handwritten Text)

  • 이향란;고경철;이말례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 2000
  • In order to develop a character recognition system, it is an essential preceding work that gathers an image data of the standard. On this purpose a data of the digitized images of a handwritten characters was collected. The types of a gathered image data are Korean character, Chiness character, Numeral, English character, Special character, and so on. This paper deals with a handwritten character image data base, and the image data base different from the general storage structure of a lame capacity multimedia was designed and builded.

  • PDF

불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법 (Oversampling-Based Ensemble Learning Methods for Imbalanced Data)

  • 김경민;장하영;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권10호
    • /
    • pp.549-554
    • /
    • 2014
  • 필기체 낱글자 인식을 위해서 사용되는 데이터는 일반적으로 다수의 사용자들로부터 수집된 자연언어 문장들을 이용하기 때문에 해당 언어의 언어적 특성에 따라서 낱글자의 종류별 개수 차이가 매우 큰 특징이 있다. 일반적인 기계학습 문제에서 학습데이터의 불균형 문제는 성능을 저하시키는 중요한 요인으로 작용하지만, 필기체 인식에서는 데이터 자체의 높은 분산과 비슷한 모양의 낱글자 등이 성능 저하의 주요인이라 생각하기 때문에 이를 크게 고려하지 않고 있다. 본 논문에서는 이러한 데이터의 불균형 문제를 고려하여 필기체 인식기의 성능을 향상시킬 수 있는 과표본화 기반의 앙상블 학습 기법을 제안한다. 제안한 방법은 데이터의 불균형 문제를 고려하지 않은 방법보다 전체적으로 향상된 성능을 보일 뿐만 아니라 데이터의 개수가 부족한 낱글자들의 분류성능에 있어서도 향상된 결과를 보여준다.

CFG 방법을 이용한 필기체 한글에서의 자소추출과 인식에 관한 연구 (A Study on Phoneme Extractions and Recognitions for Handwritten Korean Characters using Context-Free Grammar)

  • 김형래;박인갑;서동필;김에녹
    • 전자공학회논문지B
    • /
    • 제29B권9호
    • /
    • pp.8-16
    • /
    • 1992
  • This paper presents a method which can recognized the Handwritten Korean characters by using a Context-Free Grammar. The input characters are thinned in order to dwindle the mount of data, the thinned characters are converted into one-dimension strings according to six-forms. when the point of contact among phonemes is found, two phonemes are seperated respectively by marking the index mark (\) at the points. The Context-Free Grammar to input characters is classified into group grammars concerning the similarity of phonemes, input characters are parsed by making use of the Pushdown automata method. As the bent parts in the Handwritten characters are found frequently, We try to correct the bent parts by using the parsing distance measure, which recognize characters according to minium value caused by measuring the weight distance between two sentences. In this experiment, the recognition rate shows 93.8% to 275 Handwritten Korean characters.

  • PDF

수기문서 전자화 프레임워크 기반의 교육시설 하자관리 시스템 (A Handwritten Document Digitalization Framework based Defect Management System in Educational Facilities)

  • 손봉기
    • 교육녹색환경연구
    • /
    • 제9권3호
    • /
    • pp.1-11
    • /
    • 2010
  • In the construction industry, IT based information system has been diversely applied to increase productivity. Although IT device such as PDA, RFID, Barcode, wireless network and web camera has been introduced to gather information in construction site, the effect of the IT device is limited, because of bringing about additional works of engineer. In this paper, we proposed a defect management system which is based on handwritten document digitalization framework for introducing applicability of new IT device, digital pen. By the proposed system, we can effectively gather and input defect information to defect management system by using digital pen and paper like conventional way. Applying the data gathering device, digital pen to defect management, it is able to increase productivity by improving work process, building up and utilizing defect information database of good quality.

Zerinke 모멘트와 신경망을 이용한 온라인 필기체 숫자 인식 (Recognition of Online Handwritten Digit using Zernike Moment and Neural Network)

  • 문원호;최연석;차의영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.205-208
    • /
    • 2010
  • 본 논문에서는 Zernike 모멘트와 backpropagation신경망을 이용한 온라인 필기체 숫자 인식 방법을 소개한다. 마우스로 통해 입력된 숫자 정보는 전처리를 통해 시간에 순서적이고, 연속적인 좌표 정보로 변환된다. 전처리된 입력 좌표는 Zernike 모멘트(moment)와 각도 특징(angulation feature)을 이용하여 각 숫자가 가지는 고유의 특징을 만들어 낸다. 이러한 특징은 크기, 모양, 틀어진 정도에 상관없이 항상 일정한 성질을 가진다. 제안된 방법으로 추출된 특징은 패턴 구분을 위해 back propagation 신경망의 입력으로 사용된다. 본 논문은 200개의 필기체 숫자 데이터베이스를 이용하여 실험을 한 결과, 제시된 방법은 적은 학습데이터만으로 학습이 가능할 뿐만 아니라 좋은 인식률을 보여준다.

  • PDF