• 제목/요약/키워드: Perceptual quality

검색결과 344건 처리시간 0.024초

운율교육을 위한 운율이식기술 개선 방안 연구 (Improvement of Prosody Transplantation Technology for English Prosody Education and Its Application)

  • 이서배
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.49-62
    • /
    • 2007
  • This study focused on the improvement of prosody transplantation technology to be used for effective prosody education. Issues making the technology a less acceptable tool for prosody education were addressed. Instead of merely copying the target pitch onto a learner's utterances, the target pitch was resealed in semitone before the transplantation. In so doing, distortion of a signal was minimized and the transplanted utterance could have the quality of sound not different from the learner's utterances. Instead of manual transplantation, an automatic procedure was proposed to increase the reliability and the consistency of the outcome and enable real time processing. The perceptual performance of the automatic transplantation was evaluated by the perception experiment showing the automatic ransplantation was as good as the manual process.

  • PDF

인지적 색 차이를 사용한 이미지 품질 평가 (Image Quality Assessment Using Perceptual Color Difference)

  • 이지용;김영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.837-840
    • /
    • 2015
  • SSIM은 인간의 시각 체계가 이미지의 구조적 정보에 예민하다는 점을 이용하여 여러 가지 구조적 정보들의 유사성을 계산함으로써 이미지를 평가하는 대표적인 이미지 평가 기법이다. 하지만 SSIM은 컬러 이미지들에 대해 색 차이를 고려하지 못하는 문제가 있다. 이러한 문제를 해결하기 위해, HSI 색 공간을 활용한 SHSIM 기법이 제안되었으나 이 기법 또한 두 컬러 이미지 간 인지적인 색 차이를 충분히 반영하지는 못하고 있다. 본 논문에서는 CIE Lab 색 공간을 도입하여 대응 되는 픽셀들의 인지적 색 차이를 계산하여 이미지 평가에 활용하는 방법을 제안한다. 제안하는 기법의 성능을 평가하기 위해, 이미지 평가 분야에서 가장 많이 알려진 네 가지의 데이터베이스와 네 종류의 평가 기준들을 이용하였다. 실험 결과에서는 제안하는 기법이 다른 기법들보다 인간 시각 체계와 더 상관성이 높다는 것을 보여줌으로써 성능을 증명하였다.

주파수 변환의 길이에 따른 위상 기반 오디오 정보 은닉 기술의 음질 및 성능 분석 (Performance Analysis of Audio Data Hiding Method based on Phase Information with Various Window Length)

  • 조기호;김남수
    • 전자공학회논문지
    • /
    • 제50권12호
    • /
    • pp.232-237
    • /
    • 2013
  • 주파수 영역에서의 위상값을 이용하는 오디오 정보 은닉 기술에서 주파수 변환의 길이의 역할은 매우 중요하다. 본 논문에서는 MCLT를 사용하는 주파수 위상 기반 오디오 정보 은닉 기술의 주파수 변환의 길이에 따른 음질과 실내 반향 환경에서의 성능을 분석하였다. 주파수 변환의 길이가 길어질수록 정보가 삽입된 오디오 신호의 음질이 떨어지고 실내 반향 환경에서의 검출 성능은 좋아지는 결과를 보였다. 음질 변화의 가장 큰 원인으로 주파수 변환 윈도우 안에서 급격한 신호 크기의 변화가 생길 때 그 신호가 퍼지게 되는 프리에코 현상의 존재를 확인하였다. 또한 반향에 강인하려면 윈도우 길이가 길어야 한다는 무선 통신 이론이 정보 은닉 기술 및 음향 신호 전송에도 적용이 됨을 확인하였다.

저 전송률 환경에서 선형예측 전처리기를 사용한 HE-AAC의 성능 향상 (Quality Improvement of Low Bitrate HE-AAC using Linear Prediction Pre-processor)

  • 이재성;이건우;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제34권8C호
    • /
    • pp.822-829
    • /
    • 2009
  • 본 논문은 선형예측 전처리기을 이용하여 저 전송률 환경에 적합한 HE-AAC의 구조를 제안한다. 저 전송률 환경에서는 HE-AAC의 적절하지 못한 비트 할당 알고리즘 때문에 많은 스펙트럴 홀(스펙트럼 홀)들이 발생을 하고 있으며, 그로 인해서 심각한 음질의 열화가 발생하고 있다. 이를 해결하기 위해서 선형예측 전처리기을 사용하여 저 전송률에서 비트가 적절하게 할당되도록 하였다. HE-AAC로 들어오는 입력신호는 선형예측 전처리기에 의해서 LP 계수와 레지듀얼 신호로 나눠지게 되며, AAC 부분은 분리된 레지듀얼 신호를 부호화하게 된다. 제안된 방법의 성능 평가를 위해서 지각적 잡음(Perceptual noise)의 측정을 통한 객관적인 실험과 MUSHRA 테스트를 통한 주관적인 실험을 하였고, 그 결과 저 전송률 환경에서 제안된 방법을 사용함으로써 성능을 향상시킬 수 있음을 확인하였다.

A "GAP-Model" based Framework for Online VVoIP QoE Measurement

  • Calyam, Prasad;Ekici, Eylem;Lee, Chang-Gun;Haffner, Mark;Howes, Nathan
    • Journal of Communications and Networks
    • /
    • 제9권4호
    • /
    • pp.446-456
    • /
    • 2007
  • Increased access to broadband networks has led to a fast-growing demand for voice and video over IP(VVoIP) applications such as Internet telephony(VoIP), videoconferencing, and IP television(IPTV). For pro-active troubleshooting of VVoIP performance bottlenecks that manifest to end-users as performance impairments such as video frame freezing and voice dropouts, network operators cannot rely on actual end-users to report their subjective quality of experience(QoE). Hence, automated and objective techniques that provide real-time or online VVoIP QoE estimates are vital. Objective techniques developed to-date estimate VVoIP QoE by performing frame-to-frame peak-signal-to-noise ratio(PSNR) comparisons of the original video sequence and the reconstructed video sequence obtained from the sender-side and receiver-side, respectively. Since processing such video sequences is time consuming and computationally intensive, existing objective techniques cannot provide online VVoIP QoE. In this paper, we present a novel framework that can provide online estimates of VVoIP QoE on network paths without end-user involvement and without requiring any video sequences. The framework features the "GAP-model", which is an offline model of QoE expressed as a function of measurable network factors such as bandwidth, delay, jitter, and loss. Using the GAP-model, our online framework can produce VVoIP QoE estimates in terms of "Good", "Acceptable", or "Poor"(GAP) grades of perceptual quality solely from the online measured network conditions.

저비트율로 압축된 오디오의 음질 개선 방법 (Audio Quality Enhancement at a Low-bit Rate Perceptual Audio Coding)

  • 서정일;서진수;홍진우;강경옥
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.566-575
    • /
    • 2002
  • 이동통신망과 같이 제한된 대역폭에서 실시간 멀티미디어 스트리밍 서비스를 제공하기 위해서는 보다 낮은 비트율로 비디오와 오디오 데이터를 압축하여야 한다. 또한 대부분의 대역이 비디오 데이터를 위해 할당되어 있으므로 제한된 대역폭만이 오디오에 할당되게 된다. 오디오 데이터를 낮은 비트율로 압축하기 위해서는 압축율이 높은 알고리즘을 사용하거나, 표본화 주파수 (sampling frequency)를 낮춤으로써 데이터 양을 줄여 낮은 비트율로 부호화하여야 한다. 본 논문에서는 이러한 문제점을 극복하기 위해서 낮은 표본화 주파수로 오디오 신호를 압축하고, 낮은 표본화주파수를 사용함으로서 발생하는 대역폭의 손실은 소량의 부가정보를 이용하여 복원해 줌으로써 음질을 향상시키는 알고리즘을 제안한다. 높은 주파수의 스펙트럼을 복원하기 위하여 부호화단에서 낮은 주파수 대역과 다운 샘플링 과정 중에 손실되는 높은 주파수 대역간의 에너지비를 바크밴드에 구한 후 이를 부호화하여 복호화 단으로 전달하고 이를 이용하여 높은 주파수 성분을 복원하는 방법을 제안하였다. 제안된 방법을 이용하면 10%∼20% 정도의 추가적인 비트를 사용하면서 기존의 방식보다 세그멘탈 신호대 잡음비는 1㏈∼3㏈의 성능 개선을 보였으며, 주관적인 MOS 듣기 평가를 수행한 결과 기존의 방식보다 음질이 향상됨을 확인하였다. 또한 본 논문에서 제안한 방법은 주파수 영역에서 압축을 수행하는 모든 오디오 부호화 방식에도 적용이 가능하다.

다시점 방송 서비스를 위한 사용자 위치추적 기반 다채널 오디오 패닝 시스템 구현 (Implementation of a Person Tracking Based Multi-channel Audio Panning System for Multi-view Broadcasting Services)

  • 김용국;양종열;이영한;김홍국
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.150-157
    • /
    • 2009
  • 본 논문에서는 다시점 방송 서비스(multi-view broadcasting service)를 위한 사용자 위치추적 기반 다채널 오디오 패닝 시스템을 제안한다. 다시점 방송이란 각기 다른 시점에 해당하는 카메라들을 이용하여 촬영한 영상을 렌더링 해주는 방송 서비스이며 다채널 오디오 패닝 기법은 이러한 다시점 방송의 실감효과를 증대시키기 위한 오디오 렌더링에 필요한 기술이다. 이런 실감 오디오 기술을 다시점 방송 서비스에 적용하기 위해서 사용자의 시점정보를 얻을 수 있는 사용자 추적 기술 역시 필요하다. 이를 위해서 본 논문에서 제안한 기술은 크게 두 가지로 나눌 수 있다. 첫째로, 초음파 위성 및 수신기를 이용하는 사용자 추적 기술을 제안한다. 제안한 사용자 추적 기술을 이용해 약 10 mm 근방의 높은 해상도와 약 0.15초의 빠른 간격으로 사용자의 위치정보를 얻을 수 있었다. 둘째로, 공간 파라메터 기반 다채널 오디오 패닝 기술을 제안한다. 제안한 오디오 패닝 기법은 MPEG Surround로 압축된 오디오에 대해 MPEG Surround의 공간 파라메터를 이용하여 복호화 시 패닝된 오디오를 얻는 방법이다. 제안된 방법의 성능을 평가하기위해 음질 측면과 음상 정위 측면에서 성능을 평가하였다. 음질 측정은 MUSHRA 방법으로 이루어졌으며, 제안된 방식은 약 90점에 해당하는 MUSHRA점수로 평가되었다. 또한, 음상 정위 성능은 더미헤드를 이용하여 각 패닝 오디오에 대한 각도별 주파수응답을 측정하여 방사패턴을 분석하였다. 그 결과 본 논문에서 제안된 방식은 기존 파라메터 기반 오디오 패닝 방식에 비해 향상된 음질을 보임과 동시에 음상이 올바른 위치에 정위됨을 보일 수 있었다. 마지막으로 제안된 사용자 추적 기법 및 오디오 패닝 기법을 다시점 영상 재생 시스템과 결합시킴으로써, 사용자 추적 기반 다시점 방송 시스템의 프로토타입을 구현하였다.

  • PDF

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화 (Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.77-85
    • /
    • 2001
  • 본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

  • PDF

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

드론 소음 환경에서 심층 신경망 기반 음성 향상 기법 적용에 관한 연구 (A study on deep neural speech enhancement in drone noise environment)

  • 김지민;정재희;여찬은;김우일
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.342-350
    • /
    • 2022
  • 본 논문에서는 재난 환경과 같은 환경에서의 음성 처리를 위해 실제 드론 소음 데이터를 수집하여 오염 음성 데이터베이스를 구축하고 음성 향상 기법인 스펙트럼 차감법과 심층 신경망을 이용한 마스크 기반 음성 향상 기법을 적용하여 성능을 평가한다. 기존의 심층 신경망 기반의 음성 향상 모델인 VoiceFilter(VF)의 성능 향상을 위해 Self-Attention 연산을 적용하고 추정한 잡음 정보를 Attention 모델의 입력으로 이용한다. 기존 VF 모델 기법과 비교하여 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)에 대해 각각 3.77 %, 1.66 %, 0.32 % 향상된 결과를 나타낸다. 인터넷에서 수집한 오염 음성 데이터를 75 % 혼합하여 훈련한 경우, 실제 드론 소음만을 사용한 경우에 비해 상대적인 성능 하락률 평균이 SDR, PESQ, STOI에 대해 각각 3.18 %, 2.79 %, 0.96 %를 나타낸다. 이는 실제 데이터를 취득하기 어려운 환경에서 실제 데이터와 유사한 데이터를 수집하여 음성 향상을 위한 모델 훈련에 효과적으로 활용할 수 있음을 확인해준다.