• 제목/요약/키워드: Mean opinion score (MOS)

검색결과 94건 처리시간 0.025초

통계적 분석을 통한 무선 채널 품질이 사용자 체감 품질에 미치는 영향 분석 (The analysis of the impact of the wireless channel quality on the quality of experience (QoE) through statistical analysis)

  • 김범준
    • 한국전자통신학회논문지
    • /
    • 제9권4호
    • /
    • pp.491-498
    • /
    • 2014
  • 무선 접속을 통한 인터넷 서비스가 보편화된 최근 사람이 서비스를 이용하는 과정에서 실제로 느끼는 품질인 사용자 체감 품질(QoE; Quality of Experience)의 중요성이 더욱 강조되고 있는데 사용자 체감 품질은 서비스 품질 (QoS; Quality of Service)와 같이 객관적인 수치화가 불가능하다는 특징이 있다. 유선과는 달리 무선 접속을 통해서 제공되는 IP 서비스는 매우 많은 요인에 의해서 사용자 체감 품질이 영향을 받을 수 있다. 따라서 본 논문에서는 대표적인 무선 접속 서비스인 HSPA (High Speed Packet Access)를 통해서 음성 서비스가 제공될 때 측정 가능한 품질지표를 선정하고 이들에 대한 실측값을 통계적으로 분석하여 서비스 품질과 사용자 체감 품질 지표와의 상관관계를 밝히고자 한다. 분석 결과 RSSI (Received Signal Strength Indicator)와 전송 지연의 상관관계가 매우 높고 그에 이어 전송 지연과 MOS (Mean Opinion Score)와 매우 높은 상관관계를 가짐을 알 수 있었다.

침해가 있는 격자구조 애드-혹 네트워크의 전송성능 (Transmission Performance of Lattice Structure Ad-Hoc Network under Intrusions)

  • 김영동
    • 한국전자통신학회논문지
    • /
    • 제9권7호
    • /
    • pp.767-772
    • /
    • 2014
  • 임시망으로서 애드-혹 네트워크는 네트워크가 설치된 환경이나 구조에 의하여 많은 영향을 받는다. 본 논문에서는 센서 네트워크나 IoT(Internet of Things)와 같은 특수한 통신 환경에서 사용될 것으로 예상되는 격자구조 애드-혹 네트워크의 전송성능을 정보침해가 발생되는 측면에서 분석하고 대응 방안으로 모색하여 본다. 본 논문은 NS-2를 기반으로 한 컴퓨터 시뮬레이션을 사용하여 수행하였으며, 성능측정은 응용 서비스로 널리 사용되는 VoIP(Voice over Internet Protocol) 서비스를 대상으로 하였다. 성능 파라미터로는 MOS(Mean Opinion Score)와 호연결율을 사용하였다. 성능분석 결과 침해가 발생되는 애드-혹 네트워크에서 MOS의 경우 랜덤구조가 격자구조에 비하여 성능이 다소 높았고, 호연결율의 경우는 격자구조가 랜덤구조에 비하여 우수한 성능을 보였다.

Resource Allocation for Guaranteeing QoE in Mobile Communication Networks

  • Lee, Moon-Ho;Lee, Jong-Chan
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.45-50
    • /
    • 2017
  • This paper proposes a novel resource allocation scheme which allows to guarantee the user-perceived service quality for various high-quality mobile multimedia service such as interactive game, tactile internet service, remote emergency medical service or remote disaster handling robot control to a certain level in the mobile networks. In our proposed scheme, Mean Opinion Score(MOS), which represents the degree of user satisfaction for perceived quality, is determined based on the delay limit allowable to each service. Moreover resources are allocated in consideration of this MOS. Simulation results show that our proposed scheme can decrease the outage probability in comparison with existing schemes Moreover it can increase the total throughput as well.

고품질 내장형 음성합성 시스템을 위한 음성합성 DB구현 (The implementation of database for high quality Embedded Text-to-speech system)

  • 권오일
    • 대한전자공학회논문지SP
    • /
    • 제42권4호
    • /
    • pp.103-110
    • /
    • 2005
  • 음성 데이터베이스는 TTS 시스템에서 가장 중요한 요소 중의 하나이다. 특히, 내장형 TTS 시스템에서는 서버형 TTS 시스템에서보다 좀 더 작은 데이터베이스를 필요로 한다. 이러한 이유로, 음성합성 데이터의 압축과 통계적 축소과정의 비중은 내장형 TTS 시스템에서 아주 중요한 항목이라고 말할 수 있다. 그러나 이러한 압축과 통계적 축소과정은 합성음질의 저하를 유발시킨다. 본 논문에서는 고품질 내장형 TTS 시스템에서의 데이터 구축방법을 제안하며, MOS 테스트를 통한 합성음질을 검증한다.

CELP 부호화기를 위한 양방향 패킷 손실 은닉 알고리즘 (BS-PLC(Both Side-Packet Loss Concealment) for CELP Coder)

  • 이인성;황정준;정규혁
    • 대한전자공학회논문지TC
    • /
    • 제42권12호
    • /
    • pp.127-134
    • /
    • 2005
  • VoIP에서 패킷의 손실은 음성의 품질에 영향을 주는 가장 중요한 요인이다. 따라서 수신된 정보로부터 손실된 패킷을 복구하는 것은 중요하다. 따라서 본 논문은 VoIP에서 가장 많이 사용되는 CELP 부호화기를 위한 수신측 기반의 손실 패킷 복구방법을 제안한다. 제안하는 WSOLA(Waveform Shift OverLab Add)기반의 BS-PLC (Both Side Packet Loss Concealment) 방법은 패킷 손실이 발생하였을 경우 미래 패킷을 이용할 수 있는 경우와 그렇지 않을 경우로 나누고, LP(Linear prediction) 파라미터와 여기 신호를 복구한다. 미래 패킷을 이용할 수 없는 경우에는 과거에 전송된 정상 패킷만을 가지고 복원을 하며, 미래 패킷을 이용할 수 있을 경우에는 과거의 정상 패킷과 미래의 정상 패킷을 동시에 이용하여 손실된 패킷을 복구한다. 연속 패킷 손실 환경은 Gilbert 모델로 설정하였고, 제안한 알고리즘을 VoIP에서 가장 많이 사용되는 CELP 음성부호화기인 G.729에 적용하여 성능을 비교한다. 성능 비교를 위해 손실율을 변화시키면서 SNR(Signal to Noise)와 MOS(Mean Opinion Score)측정하였고, 제안한 방법을 G.729의 패킷 손실 은닉 방법과 비교하였다. 실험 결과, 평균 손실률이 $20\%$에서도 SNR은 2dB, MOS값은 0.3정도로의 음질 개선을 보였다.

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.123-126
    • /
    • 2000
  • STC(Sinusoidal Transform Coding) 방식은 음성신호의 주파수 영역에서 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 방식을 말한다. 저전송률 STC 방식에서는 전송되는 정보량을 줄이기 위해 스펙트럼 피크를 대신해 음성신호의 스펙트럼 포락선 정보와, 피치정보를 이용하여 얻어지는 고조파 성분들을 정현파로 모델링하여 음성을 합성한다. 본 논문에서는 음성신호의 정현파 모델에 기반하여 2.4kbps 전송속도를 갖는 음성부호화 알고리즘을 제안하였으며, 실험결과로 합성음의 파형과 스펙트럼 특성, 위상특성, 그리고 MOS(Mean Opinion Score) 테스트를 이용한 합성음의 음질을 비교/분석 하였다.

  • PDF

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 한국통신학회논문지
    • /
    • 제27권3A호
    • /
    • pp.196-204
    • /
    • 2002
  • STC(Sinusoidal Transform Coding) 방식은 주파수 영역에서 음성신호의 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 음성부호화 방식을 말한다. 저전송률 STC 방식에서는 스펙트럼의 모든 피크를 이용하는 대신, 기본 주파수와 고조파에 해당하는 스펙트럼 포락선에서의 크기와 그때의 위상을 이용하여 음성을 합성한다. 본 논문에서는 정현파 모델에 기반한 2.4kbps 음성부호화 알고리즘을 제안한다. 피치정보는 모든 스펙트럼 피크를 사용한 합성음과 선택된 주파수와 고조파를 이용한 합성음과의 평균자승에러를 이용하여 추정하고, 위상정보는 여기신호 펄스의 시작시기를 나타내는 onset time과 성도 모델 전달함수의 위상을 이용하여 얻는다. 크기정보는 SEEVOC 알고리즘과 선형예측계수를 이용하여 추정한다. 실험결과, 합성음의 스펙트럼 특성은 원음성의 포만트 정보를 대부분 가지고 있으며, 위상정보도 원음성의 위상을 잘 따라감을 확인하였다. 합성음의 음질평가를 위해서 informal한 MOS(Mean Opinion Score) 테스트를 시행하였으며, 2.0kbps의 HVXC와 비교하여 대체적으로 MOS 3.1 이상의 음질을 얻을 수 있었다.

Proposed Assessment for Quality of Experience of Live IPTV in Home Environments

  • Jeong, Jongpil;Choi, Jae-Young
    • International journal of advanced smart convergence
    • /
    • 제4권1호
    • /
    • pp.18-30
    • /
    • 2015
  • As the speed of networks that subscribers can use has greatly increased, demand for high-quality broadcast content, such as from Internet Protocol Television (IPTV) and Video on Demand (VoD), is likewise increasing. Therefore, while broadcasters are increasing content and channels, they are striving to improve consumer quality of experience (QoE) to differentiate themselves from competitors, including by producing higher physical-quality content. Recently, subjective measurement methods have been internationally standardized as the most reliable approach for measuring and evaluating IPTV QoE. However, a majority of these methods are performed in experimental environments and are based on the extremely brief viewing period of approximately ten seconds using original reference videos. It is actually difficult to apply standard evaluation methods based on a ten-second viewing interval to assess real broadcast watching of IPTV or other services that involve a longer time (i.e., more than thirty minutes). In this paper, we therefore propose a method that accommodates actual viewing environments. Using the mean opinion score, we experimentally analyze the effects of evaluation interval changes under actual conditions in which IPTV service is provided. In addition, we propose improvements by applying the results into actual live broadcast IPTV service and by analyzing consumer service QoE.

한국어 text-to-speech(TTS) 시스템을 위한 엔드투엔드 합성 방식 연구 (An end-to-end synthesis method for Korean text-to-speech systems)

  • 최연주;정영문;김영관;서영주;김회린
    • 말소리와 음성과학
    • /
    • 제10권1호
    • /
    • pp.39-48
    • /
    • 2018
  • A typical statistical parametric speech synthesis (text-to-speech, TTS) system consists of separate modules, such as a text analysis module, an acoustic modeling module, and a speech synthesis module. This causes two problems: 1) expert knowledge of each module is required, and 2) errors generated in each module accumulate passing through each module. An end-to-end TTS system could avoid such problems by synthesizing voice signals directly from an input string. In this study, we implemented an end-to-end Korean TTS system using Google's Tacotron, which is an end-to-end TTS system based on a sequence-to-sequence model with attention mechanism. We used 4392 utterances spoken by a Korean female speaker, an amount that corresponds to 37% of the dataset Google used for training Tacotron. Our system obtained mean opinion score (MOS) 2.98 and degradation mean opinion score (DMOS) 3.25. We will discuss the factors which affected training of the system. Experiments demonstrate that the post-processing network needs to be designed considering output language and input characters and that according to the amount of training data, the maximum value of n for n-grams modeled by the encoder should be small enough.