• 제목/요약/키워드: 음성기반

검색결과 2,243건 처리시간 0.036초

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.123-126
    • /
    • 2000
  • STC(Sinusoidal Transform Coding) 방식은 음성신호의 주파수 영역에서 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 방식을 말한다. 저전송률 STC 방식에서는 전송되는 정보량을 줄이기 위해 스펙트럼 피크를 대신해 음성신호의 스펙트럼 포락선 정보와, 피치정보를 이용하여 얻어지는 고조파 성분들을 정현파로 모델링하여 음성을 합성한다. 본 논문에서는 음성신호의 정현파 모델에 기반하여 2.4kbps 전송속도를 갖는 음성부호화 알고리즘을 제안하였으며, 실험결과로 합성음의 파형과 스펙트럼 특성, 위상특성, 그리고 MOS(Mean Opinion Score) 테스트를 이용한 합성음의 음질을 비교/분석 하였다.

  • PDF

VoiceXML기반 HUVOIS 음성처리 솔루션 (HUVOIS speech service solution based on VoiceXML)

  • 김문식
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.33-34
    • /
    • 2004
  • 통화 위주의 기능이 주류를 이루고 있던 전화 서비스시장에 다양한 정보를 제공하기 위한 첨단 부가서비스를 제공하기 위해서는 인터넷과의 연동, 음성인식, 음성합성, 음성녹음 등의 요소들을 제공할 수 있어야 하며, 여러 고객의 다양한 요구사항을 수용하기 위한 서비스 시나리오의 개발 방법이 제공되어야 한다. HUVOIS solution 은 WWW 콘서시엄의 표준에 따른 VoiceXML 2.0 인터프리터 엔진과 음성인식엔진, 음성합성엔진을 수용하였으며 신규 부가서비스를 쉽고 빠르게 제공할 수 있는 환경을 제공하기 위하여 개발되었다. 본 논문에서는 KT가 개발한 HUVOIS 솔루션과 이를 이용한 각종 서비스 및 사업에 대하여 기술하였다.

  • PDF

음성 인식 정보를 사용한 감정 인식 (Emotion Recognition using Speech Recognition Information)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.425-428
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종 감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

  • PDF

치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식 (Deep learning-based speech recognition for Korean elderly speech data including dementia patients)

  • 문정현;강준서;김기웅;배종빈;이현준;임창원
    • 응용통계연구
    • /
    • 제36권1호
    • /
    • pp.33-48
    • /
    • 2023
  • 본 연구에서는 발화자가 동물이나 채소와 같은 일련의 단어를 무작위로 일 분 동안 말하는 한국어 음성 데이터에 대한 자동 음성 인식(ASR) 문제를 고려하였다. 발화자의 대부분은 60세 이상의 노인이며 치매 환자를 포함하고 있다. 우리의 목표는 이러한 데이터에 대한 딥러닝 기반 자동 음성 인식 모델을 비교하고 성능이 좋은 모델을 찾는 것이다. 자동 음성 인식은 컴퓨터가 사람이 말하는 말을 자동으로 인식하여 음성을 텍스트로 변환할 수 있는 기술이다. 최근 들어 자동 음성 인식 분야에서 성능이 좋은 딥러닝 모델들이 많이 개발되어 왔다. 이러한 딥러닝 모델을 학습시키기 위한 데이터는 대부분 대화나 문장 형식으로 이루어져 있다. 게다가, 발화자들 대부분은 어휘를 정확하게 발음할 수 있어야 한다. 반면에, 우리 데이터의 발화자 대부분은 60세 이상의 노인으로 발음이 부정확한 경우가 많다. 또한, 우리 데이터는 발화자가 1분 동안 문장이 아닌 일련의 단어를 무작위로 말하는 한국어 음성 데이터이다. 따라서 이러한 일반적인 훈련 데이터를 기반으로 한 사전 훈련 모델은 본 논문에서 고려하는 우리 데이터에 적합하지 않을 수 있으므로, 우리는 우리의 데이터를 사용하여 딥러닝 기반 자동 음성 인식 모델을 처음부터 훈련한다. 또한 데이터 크기가 작기 때문에 일부 데이터 증강 방법도 적용한다.

근단 배경 잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on G.729A Speech Codec Parameter Under Near-End Background Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.392-400
    • /
    • 2009
  • 본 논문에서는 근단 (Near-End) 잡음 환경에서 ITU-T의 표준 음성부호화기인 G.729A CS-ACELP 기반의 효과적인 음성강화 기법을 제시한다. 일반적으로 다양한 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 기존의 음성강화 시스템과는 대조적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 음성부호화기에 기반하여, 원단으로부터 수신된 비트스트림 파라미터 중 여기신호(excitation signal)를 강화하는 알고리즘을 제시한다. 구체적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 G.729A CS-ACELP의 부호화기를 통해 배경 잡음의 여기신호를 추정하고, 추정된 배경 잡음의 여기신호를 기반으로 원단 화자로부터 전송된 음성 신호의 여기신호를 강화시키는데, 특별히 G.729A 복호화기내에서 원단의 음성 신호를 직접 강화하는 알고리즘을 제안한다. 제안된 음성 강화 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 SNR 복구 기법과 비교해서 우수한 성능을 보여주었다.

스펙트럼 기반 여기신호 추출을 통한 HMM기반 음성합성기의 음질 개선 방법 (Spectrum Based Excitation Extraction for HMM Based Speech Synthesis System)

  • 이봉진;김성우;백순호;김종진;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.82-90
    • /
    • 2010
  • 본 논문에서는 HMM기반 음성합성시스템에서 합성음의 음질 개선을 위한 방법으로 스펙트럼 정보에 기반한 여기신호 추출방법을 제안한다. 제안된 방법은 스펙트럼 정보와 여기신호를 함께 통계적 모델로 만든 후에 합성 과정에서 스펙트럼 정보를 기반으로 여기신호를 추출해 냄으로써 스펙트럼 파라메터에 가장 적합한 여기신호를 사용할 수 있다. 제안된 방법으로 합성음의 음질을 MUSHRA 테스트 및 WB-FESQ점수를 통해 확인해 본 결과, 비슷한 조건에서 기존에 사용되는 STRAIGHT 방법을 이용한 합성음보다 좋은 음질을 얻을 수 있었다.

캡션정보 및 음성인식을 이용한 내용기반 비디오 정보 색인 및 검색에 관한 연구 (A Study on the Content-Based Video Information Indexing and Retrieval Using Closed Caption and Speech Recognition)

  • 손종목;김진웅;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.141-145
    • /
    • 1999
  • 뉴스나 드라마, 영화 등의 비디오에 대한 검색 시 일반 사용자의 요구에 가장 잘 부합되는 결과를 얻기 위해 비디오 데이터의 의미적 분석과 색인을 만드는 것이 필요하다. 일반적으로 음성신호가 비디오 데이터의 내용을 잘 나타내고 비디오와 동기가 이루어져 있으므로, 내용기반 검색을 위한 비디오 데이터 분할에 효율적으로 이용될 수 있다 본 논문에서는 캡션 정보가 주어지는 방송뉴스 프로그램을 대상으로 효율적인 검색, 색인을 위한 비디오 데이터의 분할에 음성인식기술을 적용하는 방법을 제안하고 그에 따른 실험결과를 제시한다.

  • PDF

실시간 FM 방송중 음악/음성 검출에 관한 연구 (A Study on Real-time Discrimination of FM Radio Broadcast Speech/Music)

  • 황진만;강동욱;김기두
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2136-2139
    • /
    • 2003
  • 본 논문은 FM 라디오 방송중의 오디오 신호를 블록단위로 음악 및 음성을 검출하는 알고리즘에 대한 것으로, 이를 기반으로 방송중의 노래(가요, 팝, 클래식‥‥)만을 자동으로 인식하여 녹음하는 알고리즘을 개발한다. 본 논문에서는 기존에 제안되었던 것[1-4]과 같이 단지 음악과 음성을 구분함과 동시에 음악구간의 논리적 조합으로 이루어진 노래를 자동으로 인식하여 녹음하는 것을 알고리즘의 최종 목표로 한다. 알고리즘의 접근 역시 기존의 음소단위의 모델링을 거치는 GMM 기반의 접근이 아니기 때문에 모델링에 대한 훈련과정이 필요 없고, 시간영역에서의 오디오신호가 가지고 있는 직관적인 특징을 분석함으로써 비교적 적은 연산으로 실시간 구현이 가능하다.

  • PDF

MPEG IoMT 에서의 자연어 인터페이스 표준화 (Natural Language Interface for MPEG IoMT)

  • 최미란
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.281-284
    • /
    • 2019
  • 본 논문에서는 최근 인공지능 기반의 자연어이해기술을 활용한 자연어 인터페이스 표준화 현황을 소개하고 사물기반의 미디어 사물간의 기능들을 표준화하고 있는 MPEG IoMT 표준에서의 자연어 인터페이스 구현 내용을 소개한다. 자연어 인터페이스에는 음성인식 기술, 음성합성 기술, 언어처리 기술, 질의응답기술, 음성 자동통역 기술등이 포함되며 언어지능으로서의 자연어 인터페이스를 사물 인터넷 환경에서 구현하기 위해 MPEG IoMT 의 표준화된 포맷과 활용 방식을 소개한다.

  • PDF

음성 및 동영상 객체 인식 기반 요리 보조 시스템 개발 (Development of a Cooking Assistance System Based on Voice and Video Object Recognition)

  • 이종환;곽희웅;박기수;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.727-729
    • /
    • 2022
  • 모바일 서비스에서 음성인식을 활용한 애플리케이션이 가져다 주는 편리함으로 레시피 애플리케이션에 접목시켜 데이터베이스를 사용한 레시피 추천, Google Video Intelligence API를 사용하여 객체 영상분할, Google Assistant를 활용한 음성인식을 기반으로 한 레시피 애플리케이션을 제공한다.