• 제목/요약/키워드: text recognition

검색결과 670건 처리시간 0.027초

멀티모달 사용자 인터페이스를 위한 펜 제스처인식기의 구현 (Implementation of Pen-Gesture Recognition System for Multimodal User Interface)

  • 오준택;이우범;김욱현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(3)
    • /
    • pp.121-124
    • /
    • 2000
  • In this paper, we propose a pen gesture recognition system for user interface in multimedia terminal which requires fast processing time and high recognition rate. It is realtime and interaction system between graphic and text module. Text editing in recognition system is performed by pen gesture in graphic module or direct editing in text module, and has all 14 editing functions. The pen gesture recognition is performed by searching classification features that extracted from input strokes at pen gesture model. The pen gesture model has been constructed by classification features, ie, cross number, direction change, direction code number, position relation, distance ratio information about defined 15 types. The proposed recognition system has obtained 98% correct recognition rate and 30msec average processing time in a recognition experiment.

  • PDF

딥 러닝 기법을 활용한 이미지 내 한글 텍스트 인식에 관한 연구 (Research on Korea Text Recognition in Images Using Deep Learning)

  • 성상하;이강배;박성호
    • 한국융합학회논문지
    • /
    • 제11권6호
    • /
    • pp.1-6
    • /
    • 2020
  • 본 연구에서는 컴퓨터 비전의 분야 중 하나인 문자 인식에 관한 연구를 수행했다. 대표적인 문자인식 기법 중 하나인 광학식 문자 판독 기법의 경우 일정한 규격과 서식에서 벗어나게 되면 인식률이 떨어진다는 한계점이 있다. 따라서 본 연구에서는 딥 러닝 기법을 적용해 이러한 문제점을 해결하고자 한다. 또한 기존의 문자 인식 연구의 경우 대부분 영어 및 숫자 인식에 국한되어 있다. 따라서 본 연구는 한글 인식을 위한 딥 러닝 기반 문자 인식 알고리즘을 제시한다. 알고리즘은 1-NED 평가 방법에서 0.841의 점수를 얻었으며, 이는 영어 인식 결과와 비슷한 수치이다. 본 연구를 통해 딥 러닝 기반 한글 인식 알고리즘의 성능을 확인할 수 있으며, 이를 통해 향후 연구방향에 대해 제시한다.

Correction of Signboard Distortion by Vertical Stroke Estimation

  • Lim, Jun Sik;Na, In Seop;Kim, Soo Hyung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권9호
    • /
    • pp.2312-2325
    • /
    • 2013
  • In this paper, we propose a preprocessing method that it is to correct the distortion of text area in Korean signboard images as a preprocessing step to improve character recognition. Distorted perspective in recognizing of Korean signboard text may cause of the low recognition rate. The proposed method consists of four main steps and eight sub-steps: main step consists of potential vertical components detection, vertical components detection, text-boundary estimation and distortion correction. First, potential vertical line components detection consists of four steps, including edge detection for each connected component, pixel distance normalization in the edge, dominant-point detection in the edge and removal of horizontal components. Second, vertical line components detection is composed of removal of diagonal components and extraction of vertical line components. Third, the outline estimation step is composed of the left and right boundary line detection. Finally, distortion of the text image is corrected by bilinear transformation based on the estimated outline. We compared the changes in recognition rates of OCR before and after applying the proposed algorithm. The recognition rate of the distortion corrected signboard images is 29.63% and 21.9% higher at the character and the text unit than those of the original images.

한글 음식 메뉴 인식을 위한 OCR 기반 어플리케이션 개발 (Development an Android based OCR Application for Hangul Food Menu)

  • 이규철;유지상
    • 한국정보통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.951-959
    • /
    • 2017
  • 본 논문에서는 스마트폰으로 음식 메뉴를 촬영한 영상으로부터 글자를 인식하는 안드로이드 기반의 한글 음식 메뉴 인식 어플리케이션을 설계하고 구현한다. Optical Character Recognition (OCR) 기술은 크게 전처리, 인식 그리고 후처리 과정으로 구분된다. 전처리 과정에서는 Maximally Stable Extremal Regions (MSER) 기법을 이용하여 글자를 추출한다. 인식 과정에서는 무료 OCR 엔진인 Tesseract-OCR을 이용하여 글자를 인식한다. 후처리 과정에서는 음식 메뉴에 대한 사전 DB를 이용하여 잘못된 결과를 수정한다. 제안하는 기법의 성능을 평가하기 위해 실제 메뉴판을 DB로 이용하여 인식 성능을 비교 측정하는 실험을 진행하였다. 구글 플레이스토어에 있는 글자 인식 어플리케이션인 OCR Instantly Free, Text Scanner 그리고 Text Fairy와 인식률 측정 실험을 진행하였으며 실험 결과 제안하는 기법이 다른 기법보다 평균적으로 14.1% 높은 인식률을 보여주는 것을 확인하였다.

Real Scene Text Image Super-Resolution Based on Multi-Scale and Attention Fusion

  • Xinhua Lu;Haihai Wei;Li Ma;Qingji Xue;Yonghui Fu
    • Journal of Information Processing Systems
    • /
    • 제19권4호
    • /
    • pp.427-438
    • /
    • 2023
  • Plenty of works have indicated that single image super-resolution (SISR) models relying on synthetic datasets are difficult to be applied to real scene text image super-resolution (STISR) for its more complex degradation. The up-to-date dataset for realistic STISR is called TextZoom, while the current methods trained on this dataset have not considered the effect of multi-scale features of text images. In this paper, a multi-scale and attention fusion model for realistic STISR is proposed. The multi-scale learning mechanism is introduced to acquire sophisticated feature representations of text images; The spatial and channel attentions are introduced to capture the local information and inter-channel interaction information of text images; At last, this paper designs a multi-scale residual attention module by skillfully fusing multi-scale learning and attention mechanisms. The experiments on TextZoom demonstrate that the model proposed increases scene text recognition's (ASTER) average recognition accuracy by 1.2% compared to text super-resolution network.

음소별 GMM을 이용한 화자식별 (Speaker Identification using Phonetic GMM)

  • 권석봉;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.185-188
    • /
    • 2003
  • In this paper, we construct phonetic GMM for text-independent speaker identification system. The basic idea is to combine of the advantages of baseline GMM and HMM. GMM is more proper for text-independent speaker identification system. In text-dependent system, HMM do work better. Phonetic GMM represents more sophistgate text-dependent speaker model based on text-independent speaker model. In speaker identification system, phonetic GMM using HMM-based speaker-independent phoneme recognition results in better performance than baseline GMM. In addition to the method, N-best recognition algorithm used to decrease the computation complexity and to be applicable to new speakers.

  • PDF

textNAS의 다변수 시계열 데이터로의 적용 및 손동작 인식 (TextNAS Application to Multivariate Time Series Data and Hand Gesture Recognition)

  • 김기덕;김미숙;이학만
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.518-520
    • /
    • 2021
  • 본 논문에서는 텍스트 분류에 사용된 textNAS를 다변수 시계열 데이터에 적용 가능하도록 수정하여 이를 통한 손동작 인식 방법을 제안한다. 이를 사용하면 다변수 시계열 데이터 분류를 통한 행동 인식, 감정 인식, 손동작 인식 등 다양한 분야에 적용 가능하다. 그리고 분류에 적합한 딥러닝 모델을 학습을 통해 자동으로 찾아줘 사용자의 부담을 덜어주며 높은 성능의 클래스 분류 정확도를 얻을 수 있다. 손동작 인식 데이터셋인 DHG-14/28과 Shrec'17 데이터셋에 제안한 방법을 적용하여 기존의 모델보다 높은 클래스 분류 정확도를 얻을 수 있었다. 분류 정확도는 DHG-14/28의 경우 98.72%, 98.16%, Shrec'17 14 class/28 class는 97.82%, 98.39%를 얻었다.

  • PDF

OCR 엔진 기반 분류기 애드온 결합을 통한 이미지 내부 텍스트 인식 성능 향상 (Scene Text Recognition Performance Improvement through an Add-on of an OCR based Classifier)

  • 채호열;석호식
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1086-1092
    • /
    • 2020
  • 일상 환경에서 동작하는 자율 에이전트를 구현하기 위해서는 이미지나 객체에 존재하는 텍스트를 인식하는 기능이 필수적이다. 주어진 이미지에 입력 변환, 특성 인식, 워드 예측을 적용하여 인식된 텍스트에 존재하는 워드를 출력하는 과정에 다양한 딥러닝 모델이 활용되고 있으며, 딥뉴럴넷의 놀라운 객체 인식 능력으로 인식 성능이 매우 향상되었지만 실제 환경에 적용하기에는 아직 부족한 점이 많다. 본 논문에서는 인식 성능 향상을 위하여 텍스트 존재 영역 감지, 텍스트 인식, 워드 예측의 파이프라인에 OCR 엔진과 분류기로 구성된 애드온을 추가하여 기존 파이프라인이 인식하지 못한 텍스트의 인식을 시도하는 접근법을 제안한다. IC13, IC15의 데이터 셋에 제안 방법을 적용한 결과, 문자 단위에서 기존 파이프라인이 인식하는데 실패한 문자의 최대 10.92%를 인식함을 확인하였다.

Weibo Disaster Rumor Recognition Method Based on Adversarial Training and Stacked Structure

  • Diao, Lei;Tang, Zhan;Guo, Xuchao;Bai, Zhao;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3211-3229
    • /
    • 2022
  • To solve the problems existing in the process of Weibo disaster rumor recognition, such as lack of corpus, poor text standardization, difficult to learn semantic information, and simple semantic features of disaster rumor text, this paper takes Sina Weibo as the data source, constructs a dataset for Weibo disaster rumor recognition, and proposes a deep learning model BERT_AT_Stacked LSTM for Weibo disaster rumor recognition. First, add adversarial disturbance to the embedding vector of each word to generate adversarial samples to enhance the features of rumor text, and carry out adversarial training to solve the problem that the text features of disaster rumors are relatively single. Second, the BERT part obtains the word-level semantic information of each Weibo text and generates a hidden vector containing sentence-level feature information. Finally, the hidden complex semantic information of poorly-regulated Weibo texts is learned using a Stacked Long Short-Term Memory (Stacked LSTM) structure. The experimental results show that, compared with other comparative models, the model in this paper has more advantages in recognizing disaster rumors on Weibo, with an F1_Socre of 97.48%, and has been tested on an open general domain dataset, with an F1_Score of 94.59%, indicating that the model has better generalization.

Text classification 방법을 사용한 행동 인식, 손동작 인식 및 감정 인식 (Action recognition, hand gesture recognition, and emotion recognition using text classification method)

  • 김기덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.213-216
    • /
    • 2021
  • 본 논문에서는 Text Classification에 사용된 딥러닝 모델을 적용하여 행동 인식, 손동작 인식 및 감정 인식 방법을 제안한다. 먼저 라이브러리를 사용하여 영상에서 특징 추출 후 식을 적용하여 특징의 벡터를 저장한다. 이를 Conv1D, Transformer, GRU를 결합한 모델에 학습시킨다. 이 방법을 통해 하나의 딥러닝 모델을 사용하여 다양한 분야에 적용할 수 있다. 제안한 방법을 사용해 SYSU 3D HOI 데이터셋에서 99.66%, eNTERFACE' 05 데이터셋에 대해 99.0%, DHG-14 데이터셋에 대해 95.48%의 클래스 분류 정확도를 얻을 수 있었다.

  • PDF