• 제목/요약/키워드: Speech Synthesis

검색결과 381건 처리시간 0.023초

통신망환경 한국어 공통음성 DB 구축 (Common Speech Database Collection for Telecommunications)

  • 김상훈;박문환;김현숙
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.23-26
    • /
    • 2003
  • This paper presents common speech database collection for telecommunication applications. During 3 year project, we will construct very large scale speech and text databases for speech recognition, speech synthesis, and speaker identification. The common speech database has been considered various communication environments, distribution of speakers' sex, distribution of speakers' age, and distribution of speakers' region. It consists of Korean continuous digit, isolated words, and sentences which reflects Korean phonetic coverage. In addition, it consists of various pronunciation style such as read speech, dialogue speech, and semi-spontaneous speech. Thanks to the common speech databases, the duplicated resources of Korean speech industries are prohibited. It encourages domestic speech industries and activate speech technology domestic market.

  • PDF

한국어 CV단음절의 음소합성 (The Phoneme Synthesis of Korean CV Mono-Syllables)

  • 안점영;김명기
    • 한국통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 1986
  • 子音 音素/ㄱ, ㄷ, ㅂ, ㅈ/과 이에 대응한 硬音, 激音 그리고 母音 音素/ㅏ, ㅓ, ㅗ, ㅜ, ㅣ/로 구성된 韓國語 CV單音節을 偏自己相關方式으로 分析하고, 分析된 parameter를 적절히 제어하여 音素合成方法으로 이들 音節을 合成하였다. 분석결과 자음길이는 激音일 때 제일 길고, 硬音이 가장 짧았으며 이 音들의 gain도 비슷한 변화를 나타내었다. 그리고 平音뒤의 모음 pitch 주기가 가장 길고, 硬音, 激音으로 바뀌면 pitch주기가 짧아졌다. 子音 音素는 激音의 길이와 gain을 제어하여 합성하고 母音 音素는 平音뒤에 오는 母音의 pitch와 길이를 제어하여 합성하였다. 子音과 母音 音素를 結合시켜 CV單音節을 合成하였다. 實驗結果 合成音質은 대체로 양호하였고, 韓國語 音聲의 音素合成에 필요한 規則作成의 可能性을 확인하였다.

  • PDF

키프레임 얼굴영상을 이용한 시청각음성합성 시스템 구현 (Implementation of Text-to-Audio Visual Speech Synthesis Using Key Frames of Face Images)

  • 김명곤;김진영;백성준
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.73-88
    • /
    • 2002
  • In this paper, for natural facial synthesis, lip-synch algorithm based on key-frame method using RBF(radial bases function) is presented. For lips synthesizing, we make viseme range parameters from phoneme and its duration information that come out from the text-to-speech(TTS) system. And we extract viseme information from Av DB that coincides in each phoneme. We apply dominance function to reflect coarticulation phenomenon, and apply bilinear interpolation to reduce calculation time. At the next time lip-synch is performed by playing the synthesized images obtained by interpolation between each phonemes and the speech sound of TTS.

  • PDF

개별 피치펄스를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Individual Pitch Pulses)

  • 이시우
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.977-982
    • /
    • 2004
  • 본 연구에서는 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별피치 펄스를 이용한 새로운 멀티펄스 음성부호화 방식(띤-MPC)을 제안하였다. 여기에서, 개별피치 펄스의 추출률은 남자음성에서 96 여자음성에서 85%를 얻을 수 있었으며, 개별피치 펄스를 이용한 IP-MPC와 자기상관법의 피치정보를 이용한 MPC를 평가한 결과, IP-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

음성 입출력을 이용한 센서 제어 및 정보 획득 (Sensor Control and Aquisition Information Using Voice I/O)

  • 윤형진;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.495-496
    • /
    • 2018
  • 점점 더 회사들에서 인공지능 스피커를 내놓고 있는 가운데 스피커의 가격은 누군가에게는 부담이 될 수 있는 가격이 되었다. 약간의 전공지식과 손재주를 가지고 있다면 본인이 직접 입맛에 맞게 집안의 센서정보와 환경정보를 획득하는 AI 스피커를 만드는 일이 어렵지 않다. 그래서 본 논문에서는 라즈베리파이와 Google Cloud Speech(GCS), Naver의 Clova Speech Synthesis(CSS) API를 이용하여 인공지능 스피커를 구현한다.

  • PDF

휴먼-로봇 인터페이스를 위한 TTS의 개발 (Development of TTS for a Human-Robot Interface)

  • 배재현;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.135-138
    • /
    • 2006
  • The communication method between human and robot is one of the important parts for a human-robot interaction. And speech is easy and intuitive communication method for human-being. By using speech as a communication method for robot, we can use robot as familiar way. In this paper, we developed TTS for human-robot interaction. Synthesis algorithms were modified for an efficient utilization of restricted resource in robot. And synthesis database were reconstructed for an efficiency. As a result, we could reduce the computation time with slight degradation of the speech quality.

  • PDF

포르만트 VOCODER에 의한 한국어 음성합성에 관한 연구 (A Study on the Synthesis of Korean Speech by Formant VOCODER)

  • 허강인;이대영
    • 한국통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.699-712
    • /
    • 1989
  • 본 論文에서는 포르만트 VOCODER를 구성하여 한국어 음성합성에 대한 연구를 보고하였다. 음성 합성 파라메터로서는 1) 스펙트럼 모멘트법으로 구한 포르만트 F1, F2, F3 및 평균성도 길이에서 설정한 F4, F5. 2) AMDF를 이용한 최적 Comb법으로 구한 피치 주파수, 3) 단시간 평균에너지와 단시간 평균 진폭 4) Fant가 발표한 포르만트 주파수에서 대역폭 결정식, 5) 단시간 영교차율에 의한 유/무성 결정. 6) Rosenberg가 제시한 음원파형. 7) 가우시안 백색잡음원이다. 합성 결과는 원음성과 매우 잘 일치함을 보였다.

  • PDF

Enhanced Maximum Voiced Frequency Estimation Scheme for HTS Using Two-Band Excitation Model

  • Park, Jihoon;Hahn, Minsoo
    • ETRI Journal
    • /
    • 제37권6호
    • /
    • pp.1211-1219
    • /
    • 2015
  • In a hidden Markov model-based speech synthesis system using a two-band excitation model, a maximum voiced frequency (MVF) is the most important feature as an excitation parameter because the synthetic speech quality depends on the MVF. This paper proposes an enhanced MVF estimation scheme based on a peak picking method. In the proposed scheme, both local peaks and peak lobes are picked from the spectrum of a linear predictive residual signal. The average of the normalized distances of local peaks and peak lobes is calculated and utilized as a feature to estimate an MVF. Experimental results of both objective and subjective tests show that the proposed scheme improves the synthetic speech quality compared with that of a conventional one in a mobile device as well as a PC environment.

음성신호의기본주파수 검출 (On a Detection for the Fundamental Frequency of Speech Signals)

  • 배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.42-47
    • /
    • 1994
  • A pitch detector is an essential component in a variety of speech processing systems. Besides providing valuable insights into the nature of the exciation source for speech production, the pitch contour of an utterance is useful for recognizing speakers, aids-to-the handicapped, and is required in almost all speech analysis-synthesis system. Because of the importance of the pitch detection, a wide variety algorithms for pitch detection have been proposed in speech procesing literature. Thus, in this paper we discuss th evarious type of pitch detection algorithms which have been proposed until now. Then we provide th eperformance measurements for seven pitch detection algorithms.

  • PDF

FFT 켑스트럼의 처리시간 단축에 관한 연구 (On a Reduction of Computation Time of FFT Cepstrum)

  • 조왕래;김종국;배명진
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.57-64
    • /
    • 2003
  • The cepstrum coefficients are the most popular feature for speech recognition or speaker recognition. The cepstrum coefficients are also used for speech synthesis and speech coding but has major drawback of long processing time. In this paper, we proposed a new method that can reduce the processing time of FFT cepstrum analysis. We use the normal ordered inputs for FFT function and the bit-reversed inputs for IFFT function. Therefore we can omit the bit-reversing process and reduce the processing time of FFT ceptrum analysis.

  • PDF