• 제목/요약/키워드: Automatic Speech Recognition

검색결과 213건 처리시간 0.023초

대화형 음성 인식 항공정보 시스템에서의 ASP 모듈에 관한 연구 (A Study On the ASP Module in Conversational Automatic Speech Recognition Flight Information System)

  • 윤재석;장준식
    • 한국정보통신학회논문지
    • /
    • 제6권4호
    • /
    • pp.595-603
    • /
    • 2002
  • 본 연구에서는 VoiceXML을 이용하여 전화를 통한 대화형 음성인식 항공정보시스템을 개발하였으며 ASP(Active Server Page)모듈을 작성하여 VXML 코딩을 최적화하여 효율성을 증대시켰다. 그리고 GSL(Grammar Specific Language)을 사용하여 사람이 말하는 자연어를 어떻게 하면 컴퓨터가 잘 이해할 수 있게 만들 수 있는지에 연구의 중점을 두었으며 이렇게 설계된 시스템을 실험을 통해 그 효과를 검증해 보았다.

고령층의 디지털 소외 방지를 위한 ASR(Automatic Speech Recognition, 음성 인식 기술) 기반 복지 정보 검색 모델 연구 (ASR (Automatic Speech Recognition)-based welfare information search model to prevent digital alienation of the elderly)

  • 하장원;임화랑;정동규;이혜원;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.771-772
    • /
    • 2023
  • 복지 정보와 인터넷 사용에 대한 이해도가 낮은 고령층의 디지털 소외 문제를 해결하고자, 고령층 친화 UI/UX 및 음성 인식 기술 등의 기술을 활용한 <고령층의 디지털 소외 방지를 위한 ASR 기반 복지 정보 검색 모델>의 개발을 제안한다.

Acoustic-Phonetic Phenotypes in Pediatric Speech Disorders;An Interdisciplinary Approach

  • Bunnell, H. Timothy
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.31-36
    • /
    • 2006
  • Research in the Center for Pediatric Auditory and Speech Sciences (CPASS) is attempting to characterize or phenotype children with speech delays based on acoustic-phonetic evidence and relate those phenotypes to chromosome loci believed to be related to language and speech. To achieve this goal we have adopted a highly interdisciplinary approach that merges fields as diverse as automatic speech recognition, human genetics, neuroscience, epidemiology, and speech-language pathology. In this presentation I will trace the background of this project, and the rationale for our approach. Analyses based on a large amount of speech recorded from 18 children with speech delays will be presented to illustrate the approach we will be taking to characterize the acoustic phonetic properties of disordered speech in young children. The ultimate goal of our work is to develop non-invasive and objective measures of speech development that can be used to better identify which children with apparent speech delays are most in need of, or would receive the most benefit from the delivery of therapeutic services.

  • PDF

확률적 스펙트럼 차감법을 이용한 잡은 환경에서의 음성인식 (Noisy Speech Recognition using Probabilistic Spectral Subtraction)

  • 지상문;오영환
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.94-99
    • /
    • 1997
  • 본 논문에서는 잡음환경에서의 음성인식을 위하여 잡음의 확률적 특성과 음성모델을 이용하는 확률적 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음음성에서 차감하여 잡음을 제거함로, 추정한 잡음의 형태가 음성인식기에 입력되는 잡음음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음의 제거가 불가능하다. 이러한 단점을 보완하기 위해서 여러 가지 형태를 가지는 잡음의 원형을 사용하여, 잡음음성에서 잡음을 제거하는 방법을 사용하였다. 잡음의 확률적인 특성을 여러 개의 잡음원형으로 나타내므로, 스펙트럼 차감법은 입력음성에 대해서 확률적으로 수행되어 잡음이 제거된 다중의 스펙트럼을 출력하게 되고, 인식시에는 조용한 환경의 음성으로 학습된 음성모델에 따른 최적의 스펙트럼을 이용하여 인식을 수행한다. 또한 정적인 파라미터와 동적인 특징파라미터를 동시에 고려하여 잡음을 영향을 최소화하므로 보다 효과적인 잡음처리가 가능하다. 제안한 방법의 타당성을 실험적으로 검증하기 위해서, 잡음환경의 음성인식에 적용하였다. SNR 10 dB인 50개의 고립단어에 대한 실험결과, 잡음처리를 하지 않았을 경우 72.75%, 스펙트럼 차감법은 80.25%, 제안한 방법을 사용하였을 경우는 86.25%의 인식률을 얻음으로써, 효과적인 잡음처리 방법임을 확인할 수 있었다.

  • PDF

시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구 (Study on the Improvement of Speech Recognizer by Using Time Scale Modification)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.462-472
    • /
    • 2004
  • 본 논문에서는 자동 음성 인식기의 성능 저하를 일으키는 요인으로서 발성 속도의 변동에 따를 성능 저하를 보상하기 위한 기법을 제안하였다. 새로운 기법의 제안에 앞서서. 먼저 발성 속도의 변화에 따른 기존의 은닉 마코프 모델을 이용한 음성 인식기의 성능을 정량적으로 분석하였다. 이러한 분석을 통해 발성 속도에 따른 유의한 성능 저하를 관찰하고, 주어진 음성으로부터 발성 속도를 정량적으로 나타낼 수 있는 변수를 도입하였다. 발성 속도를 학습 시 사용한 음성과 유사하게 변화시키기 위해 본 논문에서는 음성 신호에 대한 시간축 변환을 사용하였으며, 최종적으로 발성 속도에 따라 선택적으로 시간축 변환을 적용하여 발성 속도의 변동에 따른 음성 인식의 성능 저하를 보상할 수 있는 기법을 제안하였다. 10자리의 이동통신용 전화번호를 이용한 음성 인식의 실험을 통해, 제안된 기법은 빠르게 발성하는 음성에 대해 15.5%의 오류율 감소를 가져오는 것을 확인할 수 있었다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

신호의 복원된 위상 공간을 이용한 오디오 상황 인지 (A new approach technique on Speech-to-Speech Translation)

  • ;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.239-240
    • /
    • 2009
  • We live in a flat world in which globalization fosters communication, travel, and trade among more than 150 countries and thousands of languages. To surmount the barriers among these languages, translation is required; Speech-to-Speech translation will automate the process. Thanks to recent advances in Automatic Speech Recognition (ASR), Machine Translation (MT), and Text-to-Speech (TTS), one can now utilize a system to translate a speech of source language to a speech of target language and vice versa in affordable manner. The three phase process establishes that the source speech be transcribed into a (set of) text of the source language (ASR) before the source text is translated into the target text (MT). Finally, the target speech is synthesized from the target text (TTS).

시각장애인용 웹사이트 자동생성 툴 개발 (Development of Automatic Creating Web-Site Tool for the Blind)

  • 백현기;하태현
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권4호
    • /
    • pp.467-474
    • /
    • 2007
  • 본 연구는 시각장애인을 위해 음성 인식, 음성 합성 기술을 이용하여 일반인과 마찬가지로 개인의 특성에 맞는 홈페이지를 구축하게 하는 웹 사이트 자동 생성 툴을 개발 하였다. 이 연구에서 개발한 툴을 이용하여 시각 장애인은 개인 맞춤 정보 생성 기능과 관리기능을 통해 일반인과 의사소통을 원활하게 할 수 있다. 또한 이 툴은 기본적인 명령어를 음성인식으로 처리할 수 있게 지원하며, 음성출력이 지원되는 TTS등을 추가적으로 제공한다. 따라서 본 연구개발의 결과물은 시각장애인들이 사회적 소외감을 없애며, 정보화 시대에 동등한 위치에서 생활 할 수 있도록 하는데 중요한 역할을 할 것이다.

  • PDF

Spoken-to-written text conversion for enhancement of Korean-English readability and machine translation

  • HyunJung Choi;Muyeol Choi;Seonhui Kim;Yohan Lim;Minkyu Lee;Seung Yun;Donghyun Kim;Sang Hun Kim
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.127-136
    • /
    • 2024
  • The Korean language has written (formal) and spoken (phonetic) forms that differ in their application, which can lead to confusion, especially when dealing with numbers and embedded Western words and phrases. This fact makes it difficult to automate Korean speech recognition models due to the need for a complete transcription training dataset. Because such datasets are frequently constructed using broadcast audio and their accompanying transcriptions, they do not follow a discrete rule-based matching pattern. Furthermore, these mismatches are exacerbated over time due to changing tacit policies. To mitigate this problem, we introduce a data-driven Korean spoken-to-written transcription conversion technique that enhances the automatic conversion of numbers and Western phrases to improve automatic translation model performance.

A Study on Learning Mathematics for Machine Learning

  • Jun, Sang Pyo
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.257-263
    • /
    • 2019
  • This paper is a study on mathematical aspects that can be basic for understanding and applying the contents of machine learning. If you are familiar with mathematics in the field of computer science, you can create algorithms that can diversify researches and implement them faster, so you can implement many real-life ideas. There is no curriculum standard for mathematics in the field of machine learning, and there are many absolutely lacking mathematical contents that are taught in the curriculum presented at existing universities. Machine learning now includes speech recognition systems, search engines, automatic driving systems, process automation, object recognition, and more. Many applications that you want to implement combine a large amount of data with many variables into the components that the programmer generates. In this course, the mathematical areas required for computer engineer (CS) practitioners and computer engineering educators have become diverse and complex. It is important to analyze the mathematical content required by engineers and educators and the mathematics required in the field. This paper attempts to present an effective range design for the essential processes from the basic education content to the deepening education content for the development of many researches.