• 제목/요약/키워드: 음성평가

검색결과 1,635건 처리시간 0.029초

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

유리창의 레이저 탐지음에 대한 음성명료도 분석 (Speech Intelligibility Analysis on the Laser Detected Sound of the Glass Windows)

  • 김석현;이현우;김희동
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.127-134
    • /
    • 2009
  • 본 연구에서는 다양한 두께의 유리창을 대상으로 레이저 원격 도청 가능성을 검토한다. MLS 신호음을 사용하여 유리창을 진동시키고 레이저 도플러센서로 진동음을 탐지한다. 탐지된 진동음으로부터 음성정보의 인식 수준인 음성명료도를 객관적으로 평가한다. 평가에는 변조전송함수에 근거하여 결정되는 음성전송지수를 사용한다. 또한, 외부 스피커와 유리창 교란기로 각각 교란파를 발생시켜, 배경소음과 도청방지기의 음성명료도에 대한 교란효과를 평가한다. 다양한 두께의 유리창을 대상으로 레이저 원격 도청음의 음성인식 수준과 국산 도청 방지장치의 도청방지 성능을 평가하는 데에 본 연구의 목적이 있다.

디지털 음성방식의 성능 비교에 대한 연구 (A Study on the Comparison of Digital Speech Coding Performance)

  • 배철수
    • 한국통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.881-890
    • /
    • 1992
  • 본 논문은 음성 시스템과 통신망에서 이용되는 음성 품질 평가 모델의 구축을 위한 기본 연구로서, 음성 부호화 평가 방법 중 주관적 평가에서 발생되는 여러 문제점을 해결하여 안정된 객관적 평가값을 얻기위해서, 여러 객관적 평가량과 주관적 평가량을 상호 비교한 후, 주관적 평가값에 적합한 객관적 평가량을 검토하였다.

  • PDF

양자화 왜곡에 대한 음성품질 평가 (Assessment on the Speech Quality for Quantization Distortion)

  • 김정환
    • 전자통신동향분석
    • /
    • 제10권4호통권38호
    • /
    • pp.129-142
    • /
    • 1995
  • 본 고에서는, 음성을 디지털로 부호화하여 전송함으로써 발생되는 신호 대 양자화왜곡 비(Q)의 개념 및 CODEC과의 관계를 분석하고, MNRU를 디지털 회로로 구현하는데 필요한 입력음성 신호레벨, 잡음의 통계적 성질 및 진폭제한이 음성품질에 미치는 영향을 살펴보았다. 또한, 본 연구에서 구현한 MNRU의 성능에 대해 주관평가 실험을 실시하여, 다른 나라의 주관평가 결과와 비교/분석하였다.

음성총괄평가

  • 정옥란
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1994년도 제2회 학술대회 심포지움
    • /
    • pp.101-109
    • /
    • 1994
  • 정상음성이란 개인의 음성 매개변수(vocal parameter), 즉 음도(pitch), 강도(loudness), 음질(quality), 유동성(flexibility) 등이 그 사람의 성, 연령, 환경, 체구 등에 적합한 음성을 말한다. 비정상적인 음성을 가진 음성자애 환자의 의뢰는 이비인후과 전문의에 의해 이루어지는 경우가 많고, 이 외에도 가족, 주변인, 환자의 교사 등에 의해 그리고 때때로 자가의뢰를 해오는 환자도 있다. (중략)

  • PDF

운율 분석용 DB 작성을 위한 자동 레이블러(Automatic labeler)의 성능 평가 및 유용성

  • 강상훈;이항섭;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.468-471
    • /
    • 1996
  • 이 논문에서는 대량의 음성합성용 운율 DB를 용이하게 구축하기 위해 음성번역시스템을 이용한 자동 레이블러의 성능을 다양한 음성데이타를 대상으로 평가하였다. 실험 결과 FM radio news문장, 대화체 문장 및 낭독체 문장 등에는 레이블링 대상 음소의 약 80% 이상이 오류가 30msec 이내인 범위로 레이블링 되며, 고립단어에 대해서는 약 60%의 성능을 보여주고 있다. 현재 당 연구실에서는 자동 레이블러를 이용하여 합성용 운율 DB 및 합성단위를 작성하고 있으며. 자동 레이블러를 이용함으로서 일관성 있는 레이블링 결과를 얻을 수 있을 환 아니라 작성하는데 소요되는 시간도 줄일 수 있었다

  • PDF

해외 음성 DB 구축 동향 (Activities of Speech DB construction out of Countries)

  • 이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.253-260
    • /
    • 1995
  • 음성정보처리 연구에 공통으로 이용 가능한 대량의 각종 음성 데이터를 수집, 편집, 배포하는 dfl은 연구 개발자의 입장에서는 분석, 합성, 인식등의 알고리즘 개발 평가에 이용 가능하며, 음성인식, 합성 시스템의 사용자 입장에서는 각종 시스템의 성능을 객관적으로 평가할 수 있다는 면에서 매우 중요하다. 본 논문에서는 국내 음성 DB 의 효율적인 구축을 위한 방안 도출에 참고하기 위하여 해외 각국의 구축 동향을 기관별, 형태별, 분야별로 구체적으로 정리하여 소개한다.

  • PDF

음향학적 모델에 의한 스펙트럼 필터 알고리즘 (Spectrum Filter Algorithm based on Acoustic Model)

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.770-772
    • /
    • 2016
  • 본 논문에서는 음성신호처리 시스템에 유용하게 사용되는 음성신호의 특징 파라미터를 출력하는 스펙트럼 필터모델을 사용하여, 배경잡음 환경 하에서 음성신호 중의 잡음을 제거하는 알고리즘을 제안한다. 따라서 본 논문에서는 배경잡음을 제거할 때 고려해야 할 인간의 청각특성이 포함된 음성의 진폭 스펙트럼에 의한 청각필터의 특성을 도입한다. 본 논문의 실험에서 사용한 성능평가의 방법으로는 음절 명료도의 테스트에 적합한 주관적인 평가인 주파수 영역에서의 스펙트럼 왜곡률(Spectral Distortion, SD)을 사용하여 실험결과를 비교하고 고찰한다.

  • PDF

음질 평가법의 표준과 연구 동향 - 전송 처리음 분야 (Review of Standard Sound Quality Assessment Methods for the Transmitted and Processed Sounds)

  • 오원근
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.214-226
    • /
    • 2013
  • 음질 평가는 좋은 소리를 만들기 위해 필수적인 요소이며, 음향의 특성과 대상 시스템에 따라 다양한 방법이 사용되고 있다. 본 논문에서는 음질 평가법의 전반적인 방법론 및 전송 처리된 음향 신호의 품질 평가법에 대해 ITU-T, ITU-R, IEC, 그리고 ANSI 등의 권고안에 기술된 국제 표준을 중심으로 요약하고 분석하였다. 분야별로는 음성 명료도, 음성 음질, 그리고 오디오 음질 평가법을 다루었으며, 현재 사용되는 권고안의 기술적인 내용과 최신 연구 동향 및 향후 발전 방향 등에 대해 기술하였다.