• 제목/요약/키워드: Automatic Speech Recognition

검색결과 213건 처리시간 0.023초

자동음성인식 기술을 이용한 모바일 기반 발음 교수법과 영어 학습자의 발음 향상에 관한 연구 (The Study on Automatic Speech Recognizer Utilizing Mobile Platform on Korean EFL Learners' Pronunciation Development)

  • 박아영
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1101-1107
    • /
    • 2017
  • 본 논문은 스마트폰의 플랫폼에 내장되어 있는 자동음성인식 기술을 활용하여 영어 학습자의 발음에 대한 즉각적인 문자 피드백을 제공하는 모바일 기반 발음 교수법이 영어 학습자의 자음 발음 (V-B, R-L, G-Z) 인식과 출력에 미치는 영향에 대해 연구했다. 특히, 자동음성인식 기술을 이용한 모바일 기반 발음 교수법을 사용한 그룹, 전통적인 교사 중심의 발음 교수법 그룹, 그리고 이 둘을 합친 하이브리드 교수법 그룹으로 나누어 영어 학습자의 발음 평가 결과를 (인지, 출력) 비교, 분석했다. ANCOVA를 이용한 분석 결과, 영어 학습자의 발음 출력에 있어 하이브리드 교수법 그룹이 (M=82.71, SD =3.3) 전통적인 교수법 그룹 (M=62.6, SD=4.05) 보다 유의미하게 높은 결과를 나타냈다 (p<.05).

동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구 (A Study on Analysis of Variant Factors of Recognition Performance for Lip-reading at Dynamic Environment)

  • 신도성;김진영;이주헌
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.471-477
    • /
    • 2002
  • 최근 립리딩에 대한 연구는 음성인식방법에 있어서 부가적인 정보를 제공하여 잡음환경에서 견인한 음성 인식을 하거나 음성정보의 부가적인 특징벡터로 사용하기 위한 방법으로 연구되고 있다. 그러나 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적 환경에서의 견인성에 대해서는 연구된 바가 없다. 현재 우리는 입술정보만을 이용한 자동22단어 인식기를 만들었으며, 이미지 기반 립리딩의 성능은 53.54%의 성능을 가지고 있다. 본 연구에서는 기 구현된 립리딩 시스템을 기반으로 하여, 립리딩 성능이 환경 적인 변화에 대해서 얼마나 안정할 수 있는지, 그리고 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전. 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션 된 데이터와 동적 변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다.

펄스 도플러 레이더에서 HMM을 이용한 이동표적의 도플러 오디오 신호 식별 (Classification of Doppler Audio Signals for Moving Target Using Hidden Markov Model in Pulse Doppler Radar)

  • 심재훈;이정호;배건성
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.624-629
    • /
    • 2018
  • 감시 및 정찰용 펄스 도플러 레이더(Pulse Doppler Radar : PDR)에서 이동표적의 식별은 일반적으로 레이더 운용자의 도플러 오디오 신호 청취 및 훈련 경험을 바탕으로 수행된다. 본 논문에서는 음성인식 분야에서 널리 이용되는 Mel Frequency Cepstral Coefficients(MFCC) 특징 파라미터와 Hidden Markov Model(HMM) 식별 기법을 이용하여 이동 표적의 클래스를 자동 식별하는 방법을 제안하고, 시뮬레이션을 통해 식별성능을 분석하고 검증하였다.

하이브리드 자동 통역지원 시스템에 관한 연구 (A Study of Hybrid Automatic Interpret Support System)

  • 임총규;박병호;박주식;강봉균
    • 산업경영시스템학회지
    • /
    • 제28권3호
    • /
    • pp.133-141
    • /
    • 2005
  • The previous research has been mainly focused on individual technology of voice recognition, voice synthesis, translation, and bone transmission technical. Recently, commercial models have been produced using aforementioned technologies. In this research, a new automated translation support system concept has been proposed by combining established technology of bone transmission and wireless system. The proposed system has following three major components. First, the hybrid system consist of headset, bone transmission and other technologies will recognize user's voice. Second, computer recognized voice (using small server attached to the user) of the user will be converted into digital signal. Then it will be translated into other user's language by translation algorithm. Third, the translated language will be wirelessly transmitted to the other party. The transmitted signal will be converted into voice in the other party's computer using the hybrid system. This hybrid system will transmit the clear message regardless of the noise level in the environment or user's hearing ability. By using the network technology, communication between users can also be clearly transmitted despite the distance.

청각장애인의 이스포츠 중계방송 및 게임 스트리머 콘텐츠 시청 편의성 증대를 위한 자막 동기화 보정 연구 (A Study on subtitle synchronization calibration to enhance hearing-impaired persons' viewing convenience of e-sports contents or game streamer contents)

  • 신동환;김정수;김창원
    • 한국게임학회 논문지
    • /
    • 제19권1호
    • /
    • pp.73-84
    • /
    • 2019
  • 본 연구는 e-sports 중계 콘텐츠 및 게임 스트리머 콘텐츠에 대한 청각장애인들의 시청 편의성을 위해 제공되는 자막의 서비스의 품질을 높이는 방안을 제시하기 위한 연구이다. 일반적으로 방송 콘텐츠의 자막 파일은 속기사에 의해 방송 중에 수동 작성되므로 원본 콘텐츠 대비 3~5초의 자막표시 지연이 필연적이다. 이에, 본 연구에서는, 음성인식 기술을 활용한 동기화 자동 보정 시스템의 구성을 제안하였다. 또한 이 시스템을 활용한 콘텐츠 적용실험을 진행하였으며 최종 결과로 자막 데이터의 동기화 오차 시간을 1초 이내로 줄일 수 있음을 확인 하였다.

자동 전화번호 안내를 위한 한국어 대용량 음성 인식 시스템 (A Korean Large Vocabulary Speech Recognition System for Automatic Telephone Number Query Service)

  • 구준모;김형순;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • 제11권1E호
    • /
    • pp.86-97
    • /
    • 1992
  • 인식어휘수가 1160단어이며 자동 전화번호 안내에 사용될 수 있는 한국어 대용량 음성 인식 시 스템에 관하여 소개하였다. 이 시스템은 네 개의 부시스템으로 구성되어 있다. 첫 번째는 HMM 방식으 로 입력음성중의 단어를 인식하는 처리부에서 인식할 어휘를 제한하므로써 인식시간을 감축시켜 주는 인식 시간 감축부이다. 이 부시스템은 언어학적 정보뿐만 아니라 음향학적 정보도 이용한다. 마지막은 음성인식 시스템의 파라미터를 새로운 화자의 음성에 신속하게 적응시켜 주는 화자적응부이다. 마지막 부시스템은 VQ 적응방식과 스펙트럼 mapping 방식에 근거한 HMM 파라미터 적응방식을 이용한다. 또 한, 본 논문에서는 대용량 음성인식 시스템의 성능을 향상시키기 위한 최근의 연구결과들에 관하여 살 펴보았다. 이 연구들은 화자 독립 음성인식을 위한 음향학적 처리부와 인식 시간 감축부의 성능향상에 초점이 맞추어져 있다. 마지막으로 화자적응을 위한 새로운 연구결과라도 기술하였다.

  • PDF

Language Model Adaptation Based on Topic Probability of Latent Dirichlet Allocation

  • Jeon, Hyung-Bae;Lee, Soo-Young
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.487-493
    • /
    • 2016
  • Two new methods are proposed for an unsupervised adaptation of a language model (LM) with a single sentence for automatic transcription tasks. At the training phase, training documents are clustered by a method known as Latent Dirichlet allocation (LDA), and then a domain-specific LM is trained for each cluster. At the test phase, an adapted LM is presented as a linear mixture of the now trained domain-specific LMs. Unlike previous adaptation methods, the proposed methods fully utilize a trained LDA model for the estimation of weight values, which are then to be assigned to the now trained domain-specific LMs; therefore, the clustering and weight-estimation algorithms of the trained LDA model are reliable. For the continuous speech recognition benchmark tests, the proposed methods outperform other unsupervised LM adaptation methods based on latent semantic analysis, non-negative matrix factorization, and LDA with n-gram counting.

VoiceXML을 이용한 음성 인식시스템에서의 ASP 모듈 연구 (A Study On The ASP Module Using VoiceMXL in Automatic Speech Recognition System)

  • 장준식;김민석;윤재석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 추계종합학술대회
    • /
    • pp.609-612
    • /
    • 2001
  • 본 연구에서는 VoiceXML의 용이한 확장성과 GSL(Grammar Specific Language)을 사용하여 사람이 말하는 자연어를 컴퓨터가 잘 이해할 수 있게 기호화 하고 이를 컴퓨터가 어떻게 인식하는가에 대해 다루어 보았다. 그리고 Voice Portal 항공정보시스템을 구축하여 사용자가 원하는 정보를 들려 줄 수 있게 하기 위한 ASP(Active Server rage)모듈을 작성하여 Voice Portal 항공정보시스템상에서 그 효율성을 실험하여 보았다.

  • PDF

음성인식 텍스트 분석을 통한 자동 일정 관리 시스템 개발에 관한 연구 (A Study on the Development of Automatic Schedule Management System through Speech Recognition Text Analysis)

  • 이해미;조위덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.279-282
    • /
    • 2022
  • 컴퓨터가 마이크 등의 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술인 음성 인식 기술과 인공지능 기술을 결합한 음성 대화 시스템에 대한 연구 진행 및 제품 출시가 활발하게 이루어지고 있다. 기존의 시스템을 사용하면서 날짜와 시간 외의 정보 추출 정도가 빈약하거나 자동 등록이 되지 않는 문제점을 확인하였다. 음성 인식 기술을 통해 얻은 텍스트에서 보다 많은 정보를 추출하고, 자동 등록 및 알림과 맛집 등 추가 정보 제공 시스템을 구축하는 것을 목표로 하였다.

CTC Ratio Scheduling을 이용한 Joint CTC/Attention 한국어 음성인식 (Joint CTC/Attention Korean ASR with CTC Ratio Scheduling)

  • 문영기;조용래;조원익;조근식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-41
    • /
    • 2020
  • 본 논문에서는 Joint CTC/Attention 모델에 CTC ratio scheduling을 이용한 end-to-end 한국어 음성인식을 연구하였다. Joint CTC/Attention은 CTC와 attention의 장점을 결합한 모델로서 attention, CTC 단일 모델보다 좋은 성능을 보여주지만, 학습이 진행될수록 CTC가 attention의 학습을 저해하는 요인이 된다. 본 논문에서는 이러한 문제를 해결하기 위해, 학습 진행에 따라 CTC의 비율(ratio)를 줄여나가는 CTC ratio scheduling 방법을 제안한다. CTC ratio scheduling를 이용하여 학습한 결과물은 기존 Joint CTC/Attention, 단일 attention 모델 대비 좋은 성능을 보여주는 것을 확인하였다.

  • PDF