• 제목/요약/키워드: 음질평가

검색결과 353건 처리시간 0.02초

A Study on the Perception of Foreign Undergraduates on Online Lecture

  • Kim, Yoon-Hee;Lim, Eun-jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권9호
    • /
    • pp.203-212
    • /
    • 2020
  • 본 연구는 외국인 학습자들이 경험한 비대면 온라인 학부 강의에 대한 인식을 분석하여 온라인 강의의 문제점을 파악하고 개선안을 제안하는 데 목적이 있다. 연구를 위해 A 대학과 B 대학에서 온라인 강의를 수강한 외국인 학부생들을 대상으로 온라인 강의에 대한 인식을 조사하여 분석하였다. 이를 통해 앞으로 한국 대학에서 진행될 온라인 강의의 설계 방향과 보완책, 그리고 나아갈 방향 등을 탐색해 보았다. 본 연구의 결과, E 캠퍼스를 통한 비실시간 강의는 강의를 반복해서 학습할 수 있고 집에서 강의를 들을 수 있는 점을 장점으로 인식하고 있었다. Zoom을 활용한 실시간 강의는 교수-학습자간 소통이 가능함을 장점으로 인식하고 있었다. 두 가지 유형의 강의 모두 과제가 많고 강의가 끝날 때까지 지속적으로 집중하기 어려움을 단점으로 인식하고 있었다. 또한 앞으로의 고려할 점으로 강의 내용의 양과 과제의 양, 그리고 강의 영상의 음질과 상태임을 알수 있었다. 평가 방식으로는 오프라인 평가보다는 온라인 평가를 선호하였으며 절대 평가보다는 상대 평가를 선호하는 것으로 나타났다. 본 연구의 결과가 각 대학의 온라인 강의의 설계 방향과 온라인 콘텐츠 개발에 작은 보탬이 되기를 바란다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

공간감 인자로서의 고주파 대역 포락선 양이 시간차의 유효성 (Salience of Envelope Interaural Time Difference of High Frequency as Spatial Feature)

  • 서정훈;전상배;성굉모
    • 한국음향학회지
    • /
    • 제29권6호
    • /
    • pp.381-387
    • /
    • 2010
  • 다채널 오디오 코딩 시스템을 평가함에 있어서 음색 요소뿐만 아니라 공간감 요소 역시 큰 중요성을 갖는다. 이러한 이유로 양이 시간차 왜곡 (Interaural Time Difference Distortion, ITDDist), 양이 크기차 왜곡 (Interaural Level Difference Distortion, ILDDist), 양이 상관관계 왜곡 (Interaural Cross Correlation Distortion, IACCDist)과 같은 공간감 요소를 추가하여 기존의 음질 객관 평가 권고안인 ITU-R Rec. BS. 1387-1을 다채널 오디오 시스템에 적용하기 위한 시도가 있었다. 이 다채널 오디오 시스템을 위한 확장 모델에서는 Duplex 이론에 따라, 양이 시간차 왜곡은 1.5kHz 이하의 저주파 영역에 대해서만 계산되었으며, 양이 크기차 왜곡은 2.5kHz 이상의 고주파 영역에 대해서만 계산되었다. 하지만 고주파 영역에 있어서 포락선의 양이 시간차는 공간감 인지에 있어서, 특히 음상 정위에 있어서 중요한 역할을 한다. 이러한 고주파 영역 포락선의 양이 시간차 공간감 인지에 미치는 영향을 정량적으로 분석하기 위해 해당 인자를 계산하는 방법이 본 논문에서 소개된다. 또한, 이렇게 계산된 고주파 영역 포락선의 양이 시간차는 다채널 오디오의 주관평가 결과와 높은 상관관계를 가짐을 확인한다.

WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산 (A Fast Normalized Cross-Correlation Computation for WSOLA-based Speech Time-Scale Modification)

  • 임상준;김형순
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.427-434
    • /
    • 2012
  • WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.

악기별 분리처리를 통한 고음질 오디오 시스템 구현 (Implementation of the High-Quality Audio System with the Separately Processed Musical Instrument Channels)

  • 김태훈;이상학;김대경;이상찬
    • 한국음향학회지
    • /
    • 제32권4호
    • /
    • pp.346-353
    • /
    • 2013
  • 본 논문에서는 노래반주기를 위한 고음질 오디오 시스템 구현에 관한 내용을 담고 있다. 노래반주기의 중요한 기능인 키/템포 변환 음질의 개선을 위하여 악기별 채널 분리를 수행하였다. 악기별로 채널을 분리하여 처리함으로 고음질의 변환이 수행됨을 상관계수의 변화와 MOS 평가를 통하여 확인할 수 있었다. 구현된 오디오 시스템은 TI사의 32비트 부동 소수점과 고정 소수점 연산이 모두 가능한 DSP인 TMS320C6747를 이용하였으며 다채널의 WMA 복호화, MP3 부호화와 복호화, wav, EQ 및 템포/키 변환을 실시간으로 수행 가능하다. WMA 10채널로 구성되어 악기별 분리 처리가 가능도록 하였다. 또한 MP3 부호화/복호화는 녹음과 재생 기능으로 이용되고 wav 채널은 효과음 등으로 사용 가능하다.

AMR과 EVRC 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬 (Transcoding Algorithm for AMR and EVRC Vocoders Via Direct Parameter Transformation)

  • 이선일;유창동
    • 대한전자공학회논문지SP
    • /
    • 제39권6호
    • /
    • pp.696-708
    • /
    • 2002
  • 본 논문에서는 AMR과 EVRC 음성부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호부호화 알고리듬을 제안한다. 상호부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 Tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기가 음성을 부호화하기 위하여 공통적으로 사용하는 파라미터들이 직접 변환된다. 제안된 알고리듬은 파라미터 복호화, 프레임 분류, 모드 결정, 그리고 두가지 프레임형을 위한 상호부호화기로 구성된다. 상호부호화기는 LSP, 프레임 에너지, 적응 코드북을 위한 피치 지연, 고정 코드북 벡터, 그리고 양 코드북의 이득을 변환한다. 제안된 알고리듬을 다양한 방법으로 평가해본 결과 기존의 Tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질을 구현함을 확인할 수 있었다.

$TMS320C6701^TM$을 이용한 2.4kbps EHSX 음성 부호화기의 실시간 구현 (Real-time implementation of the 2.4kbps EHSX Speech Coder Using a $TMS320C6701^TM$ DSPCore)

  • 양용호;이인성;권오주
    • 한국통신학회논문지
    • /
    • 제29권7C호
    • /
    • pp.962-970
    • /
    • 2004
  • 본 논문에서는 TI사의 부동소수점 DSP인 TMS320C6701$^{TM}$을 이용한 2.4kbps EHSX(Enhanced Harmonic Stochastic Excitation) 음성부호화기의 실시간 구현 방법에 대해서 논한다. EHSX는 4khz의 대역폭을 갖는 음성신호를 2.4kbps의 비트율을 갖는 압축 패킷으로 변환하는 부호화 방법으로, 유/무성음에 따라 하모닉(Harmonic) 여기 부호화 방법과 CELP 부호화 방법을 선택적으로 사용하는 구조를 갖는다. 본 논문에서는 이러한 EHSX의 실시간 구현을 위해 연산량의 큰 비중을 차지하는 CELP 분석의 코드북 검색부분과 일부 IIR 필터링 부분에 대한 고정소수점 변환 방법과, 부호화시 하모닉 검색 및 피치 검색방법에 대한 알고리즘 상 연산량 감소 방법, DSP의 구조를 고려한 코드를 배치방법 등 연산량을 감소시키기 위한 최적화 방법을 제시한다. 설계된 음성 부호화기는 PESQ(perceptual evaluation of speech quality) ITU-T Recommendation P.862를 이용한 음질 평가 결과로서 약MOS 3.28을 얻었으며, 실시간으로 압축 및 복원을 수행한다.

Low Bit Rate을 고려한 8kbps FBD-MPC 방식에 관한 연구 (A Study on 8kbps FBD-MPC Method Considering Low Bit Rate)

  • 이시우
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.271-276
    • /
    • 2014
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 8kbps의 멀티펄스 음성부호화 방식(FBD-MPC)를 제안하였다. 기존의 8kbps MPC와 FBD-MPC의 SNRseg를 평가한 결과, FBD-MPC의 남자음성에서 0.5dB, 여자음성에서 0.2dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 FBD-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

스펙트럼 변이를 이용한 Soft Decision 기반의 음성향상 기법 (Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation)

  • 최재훈;장준혁;김남수
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.222-228
    • /
    • 2010
  • 본 논문에서는 비정상적인 배경 잡음 환경에서 음성향상을 위한 신호의 스펙트럼 변이 (Spectral Deviation)을 적용한 Soft Decision 기반의 잡음전력 수정 기법을 제안한다. 기존의 Soft Decision 기반의 잡음전력 추정에 있어서 잡음신호의 정상성(Stationarity)을 가정한 스무딩 파라미터를 사용하여 잡음전력을 추정하고 갱신하였지만, 잡음신호의 주파수적인 특성이 상대적으로 빠르게 변하는 비정상적인 환경에서는 강인하지 못한 단점을 가지게 된다. 본 논문에서는 신호의 스펙트럼 변이를 추정하여 정상적인 잡음 환경과 비정상적인 잡음 환경에 따라 적응적으로 잡음전력을 추정하고 갱신하여 잡음신호에 의해 오염된 음성신호를 향상시킨다. 제안된 알고리즘은 다양한 배경 잡음 환경에서 객관적인 음질측정 방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ)에 의해서 평가되었으며, 기존의 Soft Decision 기반의 음성 향상 기법과 비교하여 보다 향상된 성능을 보여주었다.

통합 음성/오디오 부호화를 위한 새로운 MPEG 참조 모델 (A New MPEG Reference Model for Unified Speech and Audio Coding)

  • 송정욱;오현오;강홍구
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.74-80
    • /
    • 2010
  • 음성 및 오디오 코덱은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전되어 왔다. 최근 방송 및 통신 시스템이 융합되는 흐름에 발맞추어 3GPP 및 ISO/IEC MPEG 등의 표준화 기관에서는 두 신호를 하나의 통합 코덱을 이용하여 압축 전송하기 위한 노력을 지속해 왔다. 그 일환으로 MPEG에서는 그 간의 표준화된 기술들을 통합하고, 다양한 주관적 음질 평가 결과를 기반으로 USAC (Unified speech and audio coding)이라고 불리는 코덱의 표준화를 진행 중이다. 그러나 USAC RM (Reference model) 소프트웨어의 구조적인 복잡성, 사용되지 않는 수많은 모듈로 인한 용량의 비대함, 그리고 부호화기의 열악한 성능 등으로 인하여 기존 RM을 개선하고자 하는 필요성이 지속적으로 제기되었다. 본 논문에서는 USAC에 포함된 주요 기술을 설명하고, 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 새롭게 설계된 RM 소프트웨어를 제안한다. 이는 2010년 4월 MPEG 회의에서 발표되었으며, 6월 모든 참여 기관을 위해 소스코드가 공개되었다.