• 제목/요약/키워드: text recognition

검색결과 670건 처리시간 0.03초

웹 기반의 화자확인시스템 설계에 관한 연구 (A Study on the Design of Web-based Speaker Verification System)

  • 이재희;강철호
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.23-30
    • /
    • 2000
  • 본 연구에서는 인터넷 웹 기반의 화자확인시스템을 설계하였다. 웹 기반의 화자확인 시스템에 적용할 화자인식기법을 선정하기 위해 문자종속 화자인식기법들(DTW, DHMM, SCHMM)의 성능 및 특징들을 컴퓨터 시뮬레이션을 통하여 비교 평가하였다. 컴퓨터 시뮬레이션 결과를 이용하여 웹 기반의 화자확인시스템에 적합한 인식성능 및 초기 학습발음수를 갖는 DHMM을 화자인식기법으로 선정하고 이를 분산처리환경에서 동작하도록 Activex, DCOM기술을 이용하여 3계층방식으로 설계하였다.

  • PDF

시각장애인 보조를 위한 영상기반 휴먼 행동 인식 시스템 (Image Based Human Action Recognition System to Support the Blind)

  • 고병철;황민철;남재열
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.138-143
    • /
    • 2015
  • 본 논문에서는 시각장애인의 장면인식 보조를 위해, 귀걸이 형 블루투수 카메라와 행동인식 서버간의 통신을 통해 휴먼의 행동을 인식하는 시스템을 제안한다. 먼저 시각장애인이 귀걸이 형 블루투수 카메라를 이용하여 원하는 위치의 장면을 촬영하면, 촬영된 영상은 카메라와 연동된 스마트 폰을 통해 인식서버로 전송된다. 인식 서버에서는 영상 분석 알고리즘을 이용하여 휴먼 및 객체를 검출하고 휴먼의 포즈를 분석하여 휴먼 행동을 인식한다. 인식된 휴먼 행동 정보는 스마트 폰에 재 전송되고 사용자는 스마트 폰을 통해 text-to-speech (TTS)로 인식결과를 듣게 된다. 본 논문에서 제안한 시스템에서는 실내 외에서 촬영된 실험데이터에 대해서 60.7%의 휴먼 행동 인식 성능을 보여 주었다.

딥러닝 모델을 활용한 실시간 인쇄물 문자 탐지 시스템 (Real-time Printed Text Detection System using Deep Learning Model)

  • 최예준;김송원;문미경
    • 한국전자통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.523-530
    • /
    • 2024
  • 웹페이지나 디지털 문서 등과 같은 온라인에서는 사용자가 검색하고 싶은 특정 단어나 특정 문구를 실시간으로 검색하는 기능이 있다. 인쇄된 도서나 참고서 등과 같은 인쇄물에는 실시간으로 특정 단어나 특정 문구를 찾는 기능이 없어 어려움을 겪는 경우가 많다. 본 논문에서는 텍스트를 탐지(Detection)하는 딥러닝 모델과 텍스트를 인식(Recognition)하는 OCR을 활용한 실시간 문자 탐지 시스템의 개발내용에 관해 기술한다. 본 연구에서는 EAST 모델을 사용하여 텍스트를 탐지하는 방법, 탐지한 텍스트를 EasyOCR을 사용하여 인식하는 방법, 인식한 텍스트를 사용자가 검색하고 싶은 특정 단어나 특정 문구를 비교하여 bounding box로 나타내는 방법을 제안한다. 이 시스템을 통해 사용자는 도서나 참고서 등과 같은 인쇄물에서 실시간으로 검색하고 싶은 특정 단어나 특정 문구를 찾아 필요한 정보를 쉽고 빠르게 찾는 것에 효과적일 것을 기대한다.

뉴스 비디오 자막 추출 및 인식 기법에 관한 연구 (Study on News Video Character Extraction and Recognition)

  • 김종열;김성섭;문영식
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.10-19
    • /
    • 2003
  • 비디오 영상에 포함되어 있는 자막은 비디오의 내용을 함축적으로 표현하고 있기 때문에 비디오 색인 및 검색에 중요하게 사용될 수 시다. 본 논문에서는 뉴스 비디오로부터 폰트, 색상, 자막의 크기 등과 같은 사전 지식 없이도 자막을 효율적으로 추출하여 인식하는 방법을 제안한다. 문자 영역의 추출과정에서 문자영역은 뉴스 비디오의 여러 프레임에 걸쳐나 나오기 때문에 인길 프레임의 차영상을 통해서 동일한 자막 영역이 존재하는 프레임을 자동적으로 추출한 후, 이들의 시간적 평균영상을 만들어 인식에 사용함으로써 인식률을 향상한다. 또한, 평균 영상의 외각선 영상을 수평, 수직방향으로 투영한 값을 통해 문자 영역을 찾아 Region filling, K-means clustering을 적용하여 배경들을 완벽하게 제거함으로써 최종적인 자막 영상을 추출한다. 자막 인식과정에서는 문사 영역 추출과정에서 추출된 글자영상을 사용하여 white run, zero-one transition과 같은 비교적 간단한 특징 값을 추출하여 이를 비교함으로써 인식과정을 수행한다. 제한된 방법을 다양한 뉴스 비디오에 적용하여 문자영역 추출 능력과 인식률을 측정한 결과 우수함을 확인하였다.

청각장애인을 위한 음성인식 기반 메시지 전송 시스템 (Speech Recognition based Message Transmission System for the Hearing Impaired Persons)

  • 김성진;조경우;오창헌
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1604-1610
    • /
    • 2018
  • 음성인식 서비스는 청각장애인에게 화자의 음성을 텍스트로 변환하여 시각화함으로써 의사소통의 보조적인 수단으로 사용되고 있다. 하지만 강의실 및 회의실과 같은 개방된 환경에서는 다수의 청각장애인에게 음성인식 서비스를 제공하기 힘들다. 이를 위해 주변 환경에 따라 음성 인식 서비스를 효율적으로 제공하기 위한 방법이 필요하다. 본 논문에서는 화자의 음성을 인식하여 변환된 텍스트를 다수의 청각장애인에게 메시지로 전달하는 시스템을 제안한다. 제안하는 시스템은 다수의 사용자에게 동시에 메시지를 전달하기 위해 MQTT 프로토콜을 사용한다. MQTT 프로토콜의 QoS level 설정에 따른 제안 시스템의 서비스 지연을 확인하기 위해 종단 간 지연을 측정하였다. 측정 결과 가장 신뢰성이 높은 QoS level 2와 0간의 지연이 111ms로 대화 인식에 큰 영향을 끼치지 않음을 확인하였다.

한국어 자동 발음열 생성 시스템을 위한 예외 발음 연구 (A Study on Exceptional Pronunciations For Automatic Korean Pronunciation Generator)

  • 김선희
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.57-67
    • /
    • 2003
  • This paper presents a systematic description of exceptional pronunciations for automatic Korean pronunciation generation. An automatic pronunciation generator in Korean is an essential part of a Korean speech recognition system and a TTS (Text-To-Speech) system. It is composed of a set of regular rules and an exceptional pronunciation dictionary. The exceptional pronunciation dictionary is created by extracting the words that have exceptional pronunciations, based on the characteristics of the words of exceptional pronunciation through phonological research and the systematic analysis of the entries of Korean dictionaries. Thus, the method contributes to improve performance of automatic pronunciation generator in Korean as well as the performance of speech recognition system and TTS system in Korean.

  • PDF

워드이미지로부터 영문인식을 위한 트루타입 특성 추출 (Deriving TrueType Features for Letter Recognition in Word Images)

  • SeongAh CHIN
    • 한국시뮬레이션학회논문지
    • /
    • 제11권3호
    • /
    • pp.35-48
    • /
    • 2002
  • In the work presented here, we describe a method to extract TrueType features for supporting letter recognition. Even if variously existing document processing techniques have been challenged, almost few methods are capable of recognize a letter associated with its TrueType features supporting OCR free, which boost up fast processing time for image text retrieval. By reviewing the mechanism generating digital fonts and birth of TrueType, we realize that each TrueType is drawn by its contour of the glyph table. Hence, we are capable of deriving the segment with density for a letter with a specific TrueType, defined by the number of occurrence over a segment width. A certain number of occurrence appears frequently often due to the fixed segment width. We utilize letter recognition by comparing TrueType feature library of a letter with that from input word images. Experiments have been carried out to justify robustness of the proposed method showing acceptable results.

  • PDF

Pilot Experiment for Named Entity Recognition of Construction-related Organizations from Unstructured Text Data

  • Baek, Seungwon;Han, Seung H.;Jung, Wooyong;Kim, Yuri
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.847-854
    • /
    • 2022
  • The aim of this study is to develop a Named Entity Recognition (NER) model to automatically identify construction-related organizations from news articles. This study collected news articles using web crawling technique and construction-related organizations were labeled within a total of 1,000 news articles. The Bidirectional Encoder Representations from Transformers (BERT) model was used to recognize clients, constructors, consultants, engineers, and others. As a pilot experiment of this study, the best average F1 score of NER was 0.692. The result of this study is expected to contribute to the establishment of international business strategies by collecting timely information and analyzing it automatically.

  • PDF

온톨로지를 이용한 tesseract 기반의 OCR 모델 인식률 향상에 관한 연구 (A Study on the Improvement of Tesseract-based OCR Model Recognition Rate using Ontology)

  • 황치곤;윤대열;윤창표
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.438-440
    • /
    • 2021
  • 기계학습의 발전에 따라 다양한 분야에 인공지능 기법이 적용되고 있다. 이 분야 중 이미지에 있는 문자를 텍스트로 변환하는 OCR 기법이 있다. HP에서 개발된 tesseract는 그 기법의 하나다. 그러나 이미지의 문자를 인식하는 인식률이 아직은 낮다. 이를 위해 본 연구에서는 온톨로지를 이용하여 문맥을 인지시키는 후처리 과정을 통해서 이미지의 문자 변환율에 향상을 기하고자 한다.

  • PDF

Digital enhancement of pronunciation assessment: Automated speech recognition and human raters

  • Miran Kim
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.13-20
    • /
    • 2023
  • This study explores the potential of automated speech recognition (ASR) in assessing English learners' pronunciation. We employed ASR technology, acknowledged for its impartiality and consistent results, to analyze speech audio files, including synthesized speech, both native-like English and Korean-accented English, and speech recordings from a native English speaker. Through this analysis, we establish baseline values for the word error rate (WER). These were then compared with those obtained for human raters in perception experiments that assessed the speech productions of 30 first-year college students before and after taking a pronunciation course. Our sub-group analyses revealed positive training effects for Whisper, an ASR tool, and human raters, and identified distinct human rater strategies in different assessment aspects, such as proficiency, intelligibility, accuracy, and comprehensibility, that were not observed in ASR. Despite such challenges as recognizing accented speech traits, our findings suggest that digital tools such as ASR can streamline the pronunciation assessment process. With ongoing advancements in ASR technology, its potential as not only an assessment aid but also a self-directed learning tool for pronunciation feedback merits further exploration.