• 제목/요약/키워드: Voice Synthesis

검색결과 103건 처리시간 0.031초

연결형 합성음성을 이용한 경보음의 주관적 위급도 정량화 (Quantifying the Urgency Perception of Voice Alarm Generated by Concatenative Synthesizer)

  • 장필식;이경태
    • 대한인간공학회지
    • /
    • 제25권2호
    • /
    • pp.63-70
    • /
    • 2006
  • This paper presents an experimental study of the factors modulating the urgency perception of voice alarm generated by concatenative synthesizers. Four experiments were conducted using psycho-physical approach in which 105 participants made magnitude estimation for urgency perception of various voice alarm stimuli. Experiment 1 identified 6 acoustic and non-acoustic factors modulating the perceived urgency of synthesized voice alarm. Experiment 2, 3 and 4 quantified the relations between the objective changes in each of the quantifiable parameters and the subjective changes in urgency perception. This research has implications for the design and implementation of synthesized voice alarm systems where urgency mapping is required.

Intelligent Peripheral의 특수 음성 자원을 이용한 Universal Personal Telecommunications 서비스 (Universal Personal Telecommunications using Specialized Resource Functions in the Intelligent Peripheral)

  • 김기령;김태일;최고봉
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1506-1514
    • /
    • 1996
  • 본 논문은 지능형 정보 제공 시스템(IP:Intelligent Peripheral)의 특수 음성 자 원을 활용하여 음성 인증과 음성편집 기능을 추가한 새로운 종합 개인 통신(UPT: Universal Personal Telecommunication)을 제안한 것이다. 기존의 UPT 서비스가 인증 번호를 디지트로 입력하여 이용자의 인증 절차를 수행하던 것과는 달리, 본 연구에서 제안된 음성 인증 기능은 IP의 음성 검증 자원을 활용함으로써 서비스 절차를 간편하 게 하고, UPT 번호의 오용을 방지할 수 있게 한다. 또한, 미리 녹음된 음성 혹은 UPT 서비스 프로파일에 수록된 내용만을 서비스 이용자에게 음성 안내하던 기존의 UPT 서 비스와는 달리, 음성 편집 기능은 지능망 서비스 호 진행 중에 서비스 이용자로부터 음성을 수집하여 편집함으로써 UPT 이용자에게 발신자 통보, 메시지 전달 등의 다양 한 음성 정보 서비스의 제공을 가능하게 한다.

  • PDF

VOICE SOURCE ESTIMATION USING SEQUENTIAL SVD AND EXTRACTION OF COMPOSITE SOURCE PARAMETERS USING EM ALGORITHM

  • Hong, Sung-Hoon;Choi, Hong-Sub;Ann, Sou-Guil
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.893-898
    • /
    • 1994
  • In this paper, the influence of voice source estimation and modeling on speech synthesis and coding is examined and then their new estimation and modeling techniques are proposed and verified by computer simulation. It is known that the existing speech synthesizer produced the speech which is dull and inanimated. These problems are arised from the fact that existing estimation and modeling techniques can not give more accurate voice parameters. Therefore, in this paper we propose a new voice source estimation algorithm and modeling techniques which can not give more accurate voice parameters. Therefore, in this paper we propose a new voice source estimation algorithm and modeling techniques which can represent a variety of source characteristics. First, we divide speech samples in one pitch region into four parts having different characteristics. Second, the vocal-tract parameters and voice source waveforms are estimated in each regions differently using sequential SVD. Third, we propose composite source model as a new voice source model which is represented by weighted sum of pre-defined basis functions. And finally, the weights and time-shift parameters of the proposed composite source model are estimeted uning EM(estimate maximize) algorithm. Experimental results indicate that the proposed estimation and modeling methods can estimate more accurate voice source waveforms and represent various source characteristics.

  • PDF

GMM based Nonlinear Transformation Methods for Voice Conversion

  • Vu, Hoang-Gia;Bae, Jae-Hyun;Oh, Yung-Hwan
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.67-70
    • /
    • 2005
  • Voice conversion (VC) is a technique for modifying the speech signal of a source speaker so that it sounds as if it is spoken by a target speaker. Most previous VC approaches used a linear transformation function based on GMM to convert the source spectral envelope to the target spectral envelope. In this paper, we propose several nonlinear GMM-based transformation functions in an attempt to deal with the over-smoothing effect of linear transformation. In order to obtain high-quality modifications of speech signals our VC system is implemented using the Harmonic plus Noise Model (HNM)analysis/synthesis framework. Experimental results are reported on the English corpus, MOCHA-TlMlT.

  • PDF

중소형 선박을 위한 음성합성 기반 자동 안전항해 지원 서비스 제공 시스템 개발 (A Development of Automatic Safety Navigation Support Service Providing System for Medium and Small Ships based on Speech Synthesis)

  • 황훈규;김배성;우윤태
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.595-602
    • /
    • 2021
  • 우리나라의 경우, 중소형선박에 의한 해양사고의 발생 비중이 상대적으로 매우 높으며, 통계에 따르면 각종 안전지원 장비의 탑재 의무화에도 불구하고 크게 감소되지 않고 있는 실정이다. 본 논문에서는 대형선박에 비해 상대적으로 탑재 장비가 적은 중소형 선박을 위한 음성합성 기반 자동 안전항해 지원 서비스 제공 시스템의 아키텍처를 제안한다. 시스템의 주목적은 주변 선박들에게 VHF 무전기를 통해 합성된 음성 안전 메시지를 자동으로 제공하여 해양사고를 예방하는 것이다. 안전항해 지원 서비스는 GPS 및 AIS를 연계하여 음성 안전 지원 메시지를 합성하고, VHF를 통하여 자동으로 방송해주는 형태로 동작된다. 따라서 시스템을 구성하는 데이터 처리 모듈, 단계별 위험도 분석 모듈, 음성합성 안전 메시지 생성 모듈, VHF 방송장비 제어 모듈 등을 개발하였다. 또한, 개발한 시스템을 활용하여 실험실 수준의 테스트와 해상 실증 시험을 진행하였으며, 이를 통해 서비스 유용성을 검증하였다.

음성신호에서 천이구간의 근사합성에 관한 연구 (A Study on Approximation-Synthesis of Transition Segment in Speech Signal)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.167-173
    • /
    • 2005
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 논문에서는 같은 프레임 안에 유성음과 무정자음이 같이 존재하지 않도록 Zero Crossing Rate과 개별피치 펄스를 사용하여 무성자음을 포함한 천이구간을 추출하는 방법과 주파수대역을 분할하여 TSIUVC를 근사합성하는 방법을 제안한다. 실험결과, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성 할 수 있었으며, TSIUVC의 추출율은 여자와 남자음성에서 각각 $91\%$$96.2\%$를 얻었다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

주파수 영역의 선택정보를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Selected Information in a Frequency Domain)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.57-66
    • /
    • 2006
  • 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 새로운 멀티펄스 음성부호화 방식 (FBD-MPC)를 제안하였다. 실험결과, 여자 음성의 경우 TSIUVC 추출율은 84.8%(파열음), 94.9%(마찰음), 92.3%(파찰음), 남자 음성의 경우는 88%(파열음), 94.9%(마찰음), 92.3%(파찰음)의 결과를 얻었다. 아울러, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성할 수 있었으며, 유성음/무성음 선택정보를 이용한 MPC와 유성음/무음/TSIUVC를 이용한 FBO-MPC를 평가한 결과, FBO-MPC의 음질이 MPC의 음질에 비하여 개선되었음을 알 수 있었다.

  • PDF

VoiceXML을 이용한 VUI 지원 웹브라우저 개발 (Development of a Voice User Interface for Web Browser using VoiceXML)

  • 예상후;장민석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권2호
    • /
    • pp.101-111
    • /
    • 2005
  • 현재의 웹정보들은 주로 HTML로 기술되어 있으며, 이러한 정보를 얻기 위해 사용자들은 마우스와 키보드와 같은 입력장치를 사용한다. 이와 같이 기존의 GUI 환경은 인간의 가장 자연스러운 정보획득 수단의 하나인 음성을 지원하지 못하고 있다. 이러한 문제를 해결하기 위해 음성 인터페이스를 가진 여러 제품들이 개발되고 있다. 하지만 이들은 상호대화성이나 기존 웹환경을 수용한다는 측면에서 부족한 면을 가지고 있다. 본 논문에서는 현재 무르익어 가는 음성인식 기술과 XML의 파생언어인 VoiceXML을 이용하여, 기존의 인터페이스 환경을 XML 기반의 대화형 음성인터페이스 환경으로 대체하고자 한다. 이를 통해 기존의 인터페이스 환경을 수용한 VUI(Voice User Interface) 환경을 사용자에게 제공할 수 있다. 기존의 환경을 수용하기 위해 "XML Island" 기술을 이용하여 VoiceXML 문서를 HTML 문서에 포함시키며, 대표적인 정보획득화면인 메뉴, 게시판, 검색 엔진에 대한 대화형 음성 시나리오를 제안하고 있다.

음성기반 대화형 서비스 키오스크 설계 및 구현 (Design and Implementation of Voice-based Interactive Service KIOSK)

  • 김상우;최대준;송윤미;문일영
    • 실천공학교육논문지
    • /
    • 제14권1호
    • /
    • pp.99-108
    • /
    • 2022
  • 최근에 늘어가는 키오스크(KIOSK)의 수요에 따라 불편함을 호소하는 이용자가 많아졌다. 이에 음성 기반 대화형 서비스를 구현하여 손쉽게 메뉴 선택 및 주문을 가능하게 해주는 키오스크를 제작해 웹의 형태로 제공한다. Annyang API와 SpeechSynthesis API를 바탕으로 음성 기능을 구현하고 Dialogflow를 통해 사용자의 의도를 파악하는 과정을 Rest API를 기반으로 구현하는 방법에 대해 논한다. 또한 협업 필터링을 기반으로 추천 시스템을 적용하여 기존 키오스크의 낮은 소비자 접근성을 개선하였고, 음성인식 서비스 이용 도중 발생하는 비말로 인한 감염을 예방하기 위해 서비스 이용 전 마스크 착용을 확인하는 기능을 제공한다.

기저함수의 가중합을 이용한 음원의 모델링 (Voice Source Modeling Using Weighted Sum-of-Basis-Functions Model)

  • 강상기
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.171-174
    • /
    • 1998
  • 본 논문에서는 음성합성(speech synthesis) 및 부호화(coding) 시스템에 있어서 음원(voice source) 모델링에 관한 문제를 살펴보고자 한다. 기존의 음원 모델링 시스템이 가지고 있는 여러 문제들을 극복하고자 기저함수(basis function) 의 가중 합(weighted-sum)으로 음원을 모델링 하는 새로운 기법을 제안하고자 한다. 제안한 방법에서는 음원 파형(voice source waveform)을 적절히 표현하기 위해서 필터뱅크(filter bank)에 기초한 기저함수의 가중 합으로 나타낸다. 다양한 음원 특성을 효과적으로 나타내는 음원 파라미터를 구하기 위하여 EM(estimate maximize)에 기초한 구조에 관해 조사한다. 제안한 방법을 이용하여 다양한 유성음에 대해 실험을 수행하였다. 실험결과 제안한 추정(estimation) 방법 및 모델링 방법을 이용하면 기존의 방법에 비해 더 정확한 음원 파형을 추정할 수 있고, 다양한 음원 특성을 나타낼 수 있다. 또한 음성합성 및 부호화에서도 음성품질(voice quality)를 개선시킬 수 있으리라 기대된다.

  • PDF