• 제목/요약/키워드: 음질평가

검색결과 353건 처리시간 0.022초

개선된 머리전달함수를 이용한 3차원 입체음향 성능 개선 연구 (A Study on Enhancement of 3D Sound Using Improved HRTFS)

  • 구교식;차형태
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.557-565
    • /
    • 2009
  • 인간의 청각기관은 소리의 방향과 거리인지에 있어서 여러 가지의 정보들을 복합적으로 이용한다. 이러한 양 귀에 들어오는 소리세기의 차이, 위상의 차이, 그리고 주파수 스펙트럼의 차이 등의 정보들을 종합적으로 포함하고 있는 것이 머리전달함수 (HRIF: Head Related Transfer Function)이다. 2채널 음향재생 시스템에서 이 머리전달함수를 이용하여 다채널 입체음향을 재생하는 방법이 많이 쓰이고 있다. 그러나 머리전달함수의 비개인화적인 특성 때문에 양쪽 귀까지의 거리가 같아지는 혼돈원추 상에서는 앞/뒤 방향 지각에 대한 혼돈을 주게 됨으로써 입체감을 저하시키게 된다. 본 논문에서는 입체음향을 생성하기 위해 머리전달함수를 사용하는 과정예서 발생하는 혼돈원추 문제점을 해결하기 위한 알고리즘을 제안한다. 각 머리전달함수의 주파수 차 및 인간의 청각 특성을 이용하여 각 방향에 해당하는 머리전달함수의 주파수 스펙트럼 특성을 조절하였다. 본 알고리즘의 성능을 평가하기 위하여 음상정위 테스트 및 청감 테스트를 실시하였으며 실험 결과 헤드폰을 기반으로 한 2채널 입체음향 시스템에서 향상된 입체음향을 재생하였다. 더불어 구현된 입체음향의 음질의 열화도 적음을 확인할 수 있었다.

원단 잡음 환경에서 Soft Decision에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on Soft Decision Under Far-End Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.379-385
    • /
    • 2008
  • 본 논문에서는 근단 (Hear-End)및 원단 (Far-End) 잡음 환경에서 효과적인 음성 강화 기법을 제시한다. 일반적으로 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 구체적으로, 추정된 근단 화자의 배경 잡음 전력을 기반으로 원단 화자의 음성 전력을 강화시키는데, 특별히 근단 환경에서도 잡음이 존재하는 일반적인 경우를 고려하여, 잡음에 오염된 원단 음성 신호중 잡음을 제외한 실제 음성 신호만 강화하는 개선된 알고리즘을 제안한다 제안된 음성 강과 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 음성 강화기법과 비교해서 우수한 성능을 보여주었다.

모음 유형과 표준문단의 문장 위치가 음성장애 환자의 청지각적 및 켑스트럼 및 스펙트럼 분석에 미치는 효과 (Effects of vowel types and sentence positions in standard passage on auditory and cepstral and spectral measures in patients with voice disorders)

  • 최미현;최성희
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.81-90
    • /
    • 2023
  • 청지각적 평가 및 음향학적 분석은 음성평가를 위해 임상 현장에서 일반적으로 사용해오고 있다. 본 연구는 음성장애 환자의 청지각적 및 음향학적 측정 시 말 과제 효과를 조사하고자 한다. 음성장애로 진단받은 총 22명의 환자로부터 모음연장발성(/a/, /e/, /i/, /o/, /u/, /ɯ/, /ʌ/)과 연속구어('가을'표준문단의 9개 하위문장)를 녹음하였다. 음성장애 평가 및 치료 경험이 있는 2명의 음성언어치료사가 맹검 및 무작위 음성 샘플을 사용하여 GRBAS('G', 'R', 'B', 'A', 'S')척도 및 CAPE-V('OS', 'R', 'B', 'S', 'P', 'L')를 사용하여 청지각적 평가를 실시하였다. 또한, ADSV(analysis of dysphonia in speech and voice model)를 이용하여 켑스트럼 및 스펙트럼 측정치를 구하였다. 모음 유형에 따라 GRBAS 척도에서 'B'를 제외하고 청지각적 평가에 영향을 미치지 않았으나, CAPE-V에서는 'OS', 'R', 'B'에 영향을 미쳤다(p<.05). CPP 및 L/H ratio 는 모음 유형과 문장 위치의 영향을 받았다. 표준문단의 CPP값은 모든 모음에서 'G', 하위 9문장과 유의미한 부적 상관 관계가 나타났고, 특히, /e/모음(r=-.739)에서 가장 높은 상관관계를 보였다. 두 번째 문장의 CPP는 모든 모음과 높은 상관관계를 보였다. CAPE-V는 말 자극에 따라 GRBAS보다 청지각적 평가에 더 많은 영향을 받을 수 있으며, 'B' 척도, CPP, L/H ratio는 모음 유형과 자음을 포함한 문장 위치에 따라 영향을 받았다. 따라서, 음성 장애 환자의 음성 평가에서 모음을 사용할 때는 /a/뿐만 아니라 ' 기식성'음질과 음향적으로 상관성이 높은 /i/모음을 함께 사용하는 것이 유용할 수 있다. 또한 /e/모음은 한국 표준문단 '가을' 및 하위 문장들과 음향적으로 상관성이 높았으므로 문단 대신 사용할 수 있을 것이다. 또한, 음성장애 신호들이 대부분 비주기적이라는 점을 감안할 때, CPP와 함께 표준문단 중 가장 음향적으로 상관성이 높은 두 번째 문장을 사용할 수 있을 것이다. 이러한 결과는 말과제가 청지각적 평가 및 음향학적 측정에 미치는 영향에 대한 임상적 증거를 제공하며, 이는 음성장애 환자의 음성 평가에 대한 가이드라인을 제공하는 데 도움을 줄 수 있을 것이다.

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF

LED 통신 기반 멀티 홉 오디오 데이터 전송네트워크시스템 (LED Communication based Multi-hop Audio Data Transmission Network System)

  • 조승완;리데덩;안병구
    • 전자공학회논문지
    • /
    • 제50권6호
    • /
    • pp.180-187
    • /
    • 2013
  • 본 논문에서는 LED 통신 기반 멀티 홉 오디오 데이터 전송네트워크 시스템을 제안개발 한다. 제안된 시스템의 주요한 기여도 및 특징은 다음과 같다. 첫째, 본 연구의 기여도는 LED 통신 기반으로 멀티 홉을 경유하여 오디오 데이터를 장거리 전송이 가능한 전송네트워크시스템을 개발하는 것이다. 둘째, 개발된 시스템의 특징은 전송부에서 오디오 데이터는 S/PDIF 포맷으로 인코딩 되어 보통의 LED로 통해 전송된다. 릴레이에서는 디지털 오디오 신호를 포토다이오드로 데이터를 수신 받아 에러체크 및 증폭을 하여 수신부로 전송한다. 수신부에서는 포토다이오드로부터 받은 인코딩된 오디오 데이터를 디코딩 및 증폭을 하여 아날로그 오디오 신호로 컨버팅을 한다. 제안된 시스템의 성능평가는 형광등이 켜져 있는 실험실에서 진행되었다. 성능평가 결과 제안된 시스템이 홉 간 거리가 긴 멀티 홉 네트워크 환경에서 고음질의 오디오 신호를 효과적으로 전송할 수 있었다. 반면에 사용된 다양한 LED들의 색깔에 따라서 오디오 데이터의 전송 음질에 차이가 있음을 확인 하였다.

강인한 음성인식을 위한 통계적 특징벡터 추출방법의 개선 (An Improvement of Stochastic Feature Extraction for Robust Speech Recognition)

  • 김회린;고진석
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.180-186
    • /
    • 2004
  • 음성 신호에 존재하는 잡음은 음성 인식기의 성능을 현저하게 감소시킨다. 이것은 잡음이 훈련 조건과 인식 조건 사이의 불일치를 가져오기 때문이다. 본 논문에서는 이러한 불일치를 최소화하기 위해서 통계적 특징벡터의 추출방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 기존의 멀티 밴드 잡음 차감법 (MSS)을 개선하기 위하여 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하는 방법 (M-MSS)을 제시하였다. 다음으로, 기존의 통계적 특징벡터 추출방법 (SFE)에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다(M-SFE). 마지막으로, 위의 두 가지 방법의 장점을 결합하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출방법 (MMSS-MSFE)을 제안하였다. 제안된 방법들은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 기본적인 잡음 차감법 (SS)에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위해 매우 효과적임을 입증하였다.

음성신호의 특성을 고려한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Based on Speech Characteristics)

  • 윤성완;강홍구;윤대희
    • 한국통신학회논문지
    • /
    • 제31권7C호
    • /
    • pp.691-699
    • /
    • 2006
  • VoIP(Voice over Internet Pratocol)와 같은 IP 네트워크망에서는 패킷 지연, 지터, 패킷 손실 등의 이유로 QoS(Quality of Service)를 보장받지 못하기 때문에, 패킷 손실을 은닉하는 방법에 대한 연구는 필수적이다. IP망에서 사용되는 대부분의 저전송률 음성부호화기는 자체적으로 패킷 손실 은닉(PLC: Packet Loss Concealment) 알고리즘을 사용하고 있지만, 예측 기법에 기반한 양자화 특성상 패킷 손실 이후에도 에러가 전파되는 문제가 있다. 또한, 손실된 패킷의 음성신호 특성을 고려하지 않고 과거 파라미터값을 반복시키는 기존 PLC 방법은 그 구현은 쉽지만 천이구간에서의 합성신호의 음질이 심각히 저하된다. 본 논문에서는 패킷 손실 환경에서 랩신호 특성에 따른 에러전파 영향을 정량적으로 분석하고 그 결과를 토대로 보간법 기반의 새로운 PLC 알고리즘을 제안한다. 제안한 알고리즘은 파라미터별로 음성신호의 특성을 고려해 선택적으로 보간법을 적용하고, 예측 필터의 메모리를 효과적으로 갱신한다. 성능평가 결과, 제안한 알고리즘은 VoIP에서 널리 사용되는 G.729 의 기존 PLC 알고리즘에 비해 다양한 FER 환경에서 성능이 향상되었다.

TMS320C5416을 이용한 G.729A 보코더와 계산량 감소된 SOLA-B 알고리즘을 통합한 가변 전송율 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Integrating G.729A Vocoder and Reduction of the Computational Amount SOLA-B Algorithm Using the TMS320C5416)

  • 함명규;배명진
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.84-89
    • /
    • 2003
  • 본 논문에서는 8kbps의 전송율을 가진 ITU-T C.729A 보코더에 Henja가 제안한 SOLA-B (Synchronized Overlap Add) 알고리즘을 적용하여 가변 전송율의 보코더를 TMS320C5416에 실시간 구현하였다. 이 방법은 부호화 시 SOLA-B 알고리즘을 이용하여 음성의 속도를 빠르게 해주고, 복호화 시 다시 SOLA-B 알고리즘을 이용하여 음성의 속도를 느리게 해줌으로써 정상속도의 음성을 재생시켜준다. 이때 SOLA-B 알고리즘의 계산량을 줄이기 위해 상호 상관 함수가 수행되는 샘플의 간격을 3 샘플씩 건너뛰면서 처리하였다. 실시간 구현된 G.729A 와 SOLA-B 알고리즘의 보코더는 8kbps 전송율일 때 인코더는 10.2MIPS이고 디코더에서는 2.8%MIPS의 최대 복잡도를 나타내었다. 그리고 6kbps 전송율일 때 인코더 18.3MIPS이고 디코더는 13.1MIPS의 최대 복잡도를 나타내었으며, 4kbps 전송율일 때 인코더 18.5MIPS이고 디코더에서 13.1MIPS의 최대 복잡도를 나타내었다. 사용된 메모리는 program ROM 9.7kwords, table ROM 4.5kwords, RAM 5.1kwords 정도이다. 출력된 파형은 C simulator와 Bit Exact 한 출력 결과를 보여주었다. 또한, 실시간 구현된 가변 전송율 보코더의 음질 평가를 위해 MOS 테스트를 수행한 결과 4kbp의 전송율에서 MOS값이 3.69정도로 측정되었다.

ITU-T G.729/G.729E와 호환성을 갖는 광대역 음성/오디오 부호화기 (A New Wideband Speech/Audio Coder Interoperable with ITU-T G.729/G.729E)

  • 김경태;이민기;윤대희
    • 대한전자공학회논문지SP
    • /
    • 제45권2호
    • /
    • pp.81-89
    • /
    • 2008
  • 광대역 신호는 16 kHz로 표본화되어 50-7000 Hz로 밴드 제한된 신호를 말하며, 전화대역 음성 신호에 비해서 높은 자연성(naturalness)과 명료성(intelligibility)을 가진다. 이런 특징으로 광대역 부호화기는 화상회의, 디지털 AM 방송 및 고음질 음성통신 등에 사용될 수 있다. 본 논문에서는 가변대역 특징을 갖는 광대역 음성 오디오 부호화기를 제안하였다. 제안된 부호화기는 대역분한 구조를 가진다. 저주파 대역은 전화대역 음성 부호화기로 많이 사용되고 있는 8 kbit/s ITU-T G.729나 보다 높은 전송률로 오디오 신호까지 처리할 수 있는 11.8 kbit/s ITU-T G.729 Annex E로 부호화한다. 고주파 대역은 청각 모델을 기반으로 한 파라미터 부호화 방법으로 부호화한다. 제안된 고주파 대역 부호화는 감마톤 필터뱅크(gammatone filterbank)를 이용하여 입력신호를 임계대역으로 분할한 후, 각각의 임계대역 신호를 양자화한다. 저주파 대역 부호화기와 고주파 대역 부호화기는 서로 독립되어 있으므로, 복호화기에서는 채널 조건에 따라 전화대역 합성신호와 광대역 합성신호를 선택할 수 있는 특징이 있다. 성능 평가 결과, 제안된 부호화기는 낮은 전송률과 짧은 지연 시간으로 음성과 오디오 신호 모두에 대해 ITU-T G.722.1 24 kbit/s와 동등한 음질을 제공한다는 것을 확인하였다.

성대 용종 환자의 후두미세수술 전후 음성 평가에서 OperaVOXTM와 Multi-Dimensional Voice Program 간의 신뢰도 연구 (Reliability of OperaVOXTM against Multi-Dimensional Voice Program to Assess Voice Quality before and after Laryngeal Microsurgery in Patient with Vocal Polyp)

  • 김선우;김소연;조재경;진성민;이상혁
    • 대한후두음성언어의학회지
    • /
    • 제31권2호
    • /
    • pp.71-77
    • /
    • 2020
  • Background and Objectives OperaVOXTM (Oxford Wave Research Ltd.) is a portable voice analysis software package designed for use with iOS devices. As a relatively cheap, portable and easily accessible form of acoustic analysis, OperaVOXTM may be more clinically useful than laboratory-based software in many situations. The aim of this study was to evaluate the agreement between OperaVOXTM and Multi-Dimensional Voice Program (MDVP; Computerized Speech Lab) to assess voice quality before and after laryngeal microsurgery in patient with vocal polyp. Materials and Method Twenty patients who had undergone laryngeal microsurgery for vocal polyp were enrolled in this study. Preoperative and postoperative voices were assessed by acoustic analysis using MDVP and OperaVOXTM. A five-seconds recording of vowel /a/ was used to measure fundamental frequency (F0), jitter, shimmer and noise-to-harmonic ratio (NHR). Results Several acoustic parameters of MDVP and OperaVOXTM related to short-term variability showed significant improvement. While pre-operative value of F0, jitter, shimmer, NHR was 155.75 Hz (male: 125.37 Hz, female: 183.37 Hz), 2.20%, 6.28%, 0.16, post-operative values of these parameter was 164.34 Hz (male: 129.42 Hz, female: 199.26 Hz), 2.15%, 5.18%, 0.14 Hz in MDVP. While pre-operative value of F0, jitter, shimmer, NHR was 168.26 Hz (male: 135.16 Hz, female: 201.37 Hz), 2.27%, 6.95%, 0.26, post-operative values of these parameters was 162.72 Hz (male: 128.267 Hz, female: 197.18 Hz), 1.71%, 5.36%, 0.20 in OperaVOXTM. There was high intersoftware agreement for F0, jitter, shimmer with intraclass correlation coefficient. Conclusion Our results showed that the short-term variability of acoustic parameters in both MDVP and OperaVOXTM were useful for the objective assessment of voice quality in patients who received laryngeal microsurgery. OperaVOXTM is comparable to MDVP and has high intersoftware reliability with MDVP in measuring the F0, jitter, and shimmer