• 제목/요약/키워드: 음질평가

검색결과 353건 처리시간 0.023초

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

뇌졸중 환자의 말, 언어장애 선별에 대한 검사자간 신뢰도 및 훈련효과 (Inter-rater Reliability and Training Effect of the Differential Diagnosis of Speech and Language Disorder for Stroke Patients)

  • 김정완
    • 한국콘텐츠학회논문지
    • /
    • 제11권9호
    • /
    • pp.407-413
    • /
    • 2011
  • 뇌졸중 환자의 실어증 유무를 정확히 판별하고 환자의 미세한 언어적 변화를 적절히 관찰하기 위해서는 일차적으로 신뢰로운 검사도구를 사용하여야 하고, 또한 검사자가 해당 도구의 사용에 있어 충분히 숙지하고 있어야 한다. 본 연구에서는 뇌졸중 환자의 실어증 및 말장애 유무의 진단에서 검사자의 전공영역에 따른 관찰자간 신뢰도를 살펴보고 훈련 전과 후의 차이를 비교해보고자 하였다. 이를 위해, 침상에 있는 뇌졸중 환자 46명을 대상으로 언어치료사, 신경과 전공의, 그리고 간호사 각각 4명씩 총 12명이 동시에 실어증 및 말장애 유무를 평가하였다. 연구 결과, 서로 다른 전공 영역의 전문가들 간에 말명료도 과제와/아/모음연장발성 과제의 '음질' 영역에서만 'acceptable'로 나타났고, 나머지 하부검사 영역에서는 'good-excellent'로 나타났다. 관찰자간 신뢰도가 'acceptable'로 나타난 과제들에 대해 3주간의 비디오 훈련 전후의 점수 차이를 비교하였다. 그 결과, 훈련 후 말명료도 과제에서 검사자들 간의 평정 점수의 차이는 유의하게 줄어들었으며, '음질' 평정의 정확성도 유의하게 증가하였다. 임상 경험 정도와 각 하부검사에 대한 평정 정확성 간의 상관관계를 알아본 결과, 언어치료사들은 임상 경험 정도가 증가할수록 그림설명하기 과제와 말명료도 과제에서, 그리고 의사 및 간호사들은 그림설명하기 과제에서 판정 정확도가 높아지는 것으로 나타났다. 결론적으로, 이 연구 결과는 뇌졸중 환자의 의사소통장애 진단에 있어 신경언어장애 환자 중, 특히 말장애환자에 대한 꾸준한 경험과 훈련이 반드시 필요하며, 훈련을 통해 평정 신뢰도를 확보할 수 있음을 시사한다.

음성질환자의 음성검사 시 강도 증가에 따른 음향학적 지표의 변화 (Changes in Acoustic Parameters According to Intensity Increase in Voice Assessment)

  • 남도현;임성수;윤보람;조선아;최홍식
    • 대한후두음성언어의학회지
    • /
    • 제22권2호
    • /
    • pp.143-150
    • /
    • 2011
  • Background and Objectives : Clinically, as a tool for voice assessment before and after the operation or the voice treatment, acoustic analysis is widely used. However, in clinical situations, acoustic parameters vary according to how the assessment is made. Thus, with voice disease patients as subjects, we are to investigate what influence intensity increase exerts on acoustic parameters and how to reduce variation according to the way of assessing. Material and Method : At the voice clinic of the department of otorhinolaryngology in Gangnam Severance Hospital, with 30 female voice-disease patients (40.6 years old on the average) and 23 male voice-disease patients (40.1 years old on the average) as subjects, using the Dr Speech vocal-assessment program, we statistically tested the significance of the difference in each of acoustic parameters between when the "Ah" vowel is produced with a normal voice and when the "Ah" vowel is produced with a loud voice. Results : Acoustic parameters that showed a statistically significant difference according to intensity increase were Jitter, SD F0, and NNE for females, and Jitter, SD F0, HNR, SNR, and NNE for males. Voice quality estimates showed a statistically significant difference according to intensity increase in female hoarse voice, female breathy voice, and male breathy voice. Conclusion : In this research, acoustic analysis, which is generally used for voice assessment before and after the operation or the voice treatment, showed a tendency that acoustic parameters became better under the influence of intensity increase except for the cases where a voice disease was severe. Thus, to raise the reliability of voice assessment, the range of intensity needs to be set up. This should be the topic for the future research.

  • PDF

일본어 악센트 특징을 이용한 합성단위 선택 기반 일본어 TTS의 후보 합성단위의 사전선택 방법 (A Pre-Selection of Candidate Units Using Accentual Characteristic In a Unit Selection Based Japanese TTS System)

  • 나덕수;민소연;이광형;이종석;배명진
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.159-165
    • /
    • 2007
  • 본 논문에서는 합성단위 선택 (unit selection) 기반 일본어 합성기에 필요한 후보 합성단위들에 대한 사전선택 (pre-selection)의 새로운 방법을 제안한다. 일반적인 사전선택 방법은 하나의 억양구에서 음소 열에 대한 비용을 계산하여 이용하는 방법이다. 그런데, 일본어는 다른 언어와는 다르게 상대적인 피치의 높낮이로 나타나는 악센트를 가지는 언어이고, 몇 개의 단어가 하나의 악센트구를 형성하는 특징이 있다. 또한 일본어의 운율은 악센트 구를 기본 단위로 하여 변화하는 특징이 있어서, 사전선택에서 이러한 악센트 구 단위의 운율 변화를 반영함으로써 음질을 향상시킬 수 있고, 악센트 구에서 음소 열에 대한 비용을 계산하여 억양구에서 하는 것보다 계산량을 줄일 수 있다. 제안한 방법은 일본어의 악센트 구를 정의하여 음소 열에서 이것을 분석하고, 각 악센트 구에서 합성 할 음소의 각 후보에 대해 CCL (Connected Context Length)을 구하는 악센트 구 매칭을 이용하여 사전선택을 수행하는 방법이다. 제안한 방법은 Voiceware의 합성기인 VoiceText를 baseline 시스템으로 사용하여 구현하였고, 인지적 에러 (억양 에러, 연결 에러)와 합성시간에 대해 평가하였다. 실험 결과, 제안한 방법은 합성 음질을 보다 자연스럽게 향상시켰고, 합성 속도를 개선하였다.

FDBM의 음원분리 성능평가 (Evaluation of a signal segregation by FDBM)

  • 이채봉
    • 한국전자통신학회논문지
    • /
    • 제8권12호
    • /
    • pp.1793-1802
    • /
    • 2013
  • 음원분리 방법으로는 여러 가지가 제안되고 있으나 그 중에서도 주파수영역 두 귀 모델(Frequency Domain Binaural Model : FDBM)은 저 연산량과 울림 제거에 효과적이다. FDBM에 의한 두 귀 보청 시스템은 SNR이나 기여도 함수(Coherence function)에 의한 평가로 하기 때문에 인간의 청취특성을 고려하지 않고 있다. 본 논문에서는 음질의 문제 해결을 위하여 FDBM의 음원분리 성능평가를 하였다. SNR, 기여도 함수, PESQ의 세 가지 수법을 이용하여 기본 특성에 대하여 시뮬레이션을 통하여 확인하였다. 모든 결과가 FDBM에 의해 좌우 채널간 평가치의 차가 작게 되었고, 좌우 채널이 거의 같은 레벨까지 개선되었음을 확인하였다. 그리고 음원방향을 바꾸고 음원 수를 증가시킨 경우에도 일정한 개선이 보였다. SNR과 기여도 함수, PESQ의 결과를 비교하면 PESQ의 평가에서는 입력 SNR를 변동시킨 경우에도 거의 모든 조건에서 분리에 의한 평가가 개선되었다.

자동차 임팩트 사운드에 대한 주관적 평가 및 차량 개발에 응용 (The Estimation of Subjective Evaluations for Impact Sound and Analysis of the Effects for Parts of a Car)

  • 나은우;박상원;김호욱;이상권;이경회;신영곤;배병국
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2009년도 추계학술대회 논문집
    • /
    • pp.137-142
    • /
    • 2009
  • Impact noise is induced in a car when it is driven on a harsh road or over some bumps. This noise occurs with the very high level of sound, which affects passengers in some way or other. Although it is impossible to clearly remove such noise. It is necessary to research an improvement in sound quality for impact noise. A new sound metric for impact sound is presented in the previous work. This metric is verified by comparison between mean subjective ratings and several sound metrics. In this paper, more objective attributes are considered, which are the attributes expressing the level and modulation of sound. Three sound metrics are employed to get impact sound indexes for each course by the method of multiple linear regressions. The indexes are verified by considering the correlation between the estimated values from the multiple linear regressions and the mean subjective ratings by evaluators. Also, the subjective ratings on the indexes are estimated for the case in which some parts of suspension system are changed. The estimated ratings represent more reasonable or acceptable ratings. Thus, such indexes can be used for modification of the parts of suspension system under considering a good sound quality.

  • PDF

웨이블릿 변환을 이용한 잡음제거기 설계 (Design of the Noise Suppressor Using Wavelet Transform)

  • 원호진;김종학;이인성
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.37-46
    • /
    • 2001
  • 본 논문에서는 웨이블릿 변환을 이용한 주변 잡음제거기를 제안하였다. 기존의 고정된 시간-주파수 해상도를 가지는 단구간 푸리에 분석법 대신 다양한 시간-주파수 해상도를 제공하는 웨이블릿 분석법을 사용함으로써 시간 특성이 변하는 베이블 (Babble) 잡음에 좀더 효율적인 잡음제거 방법을 설계하였다. 본 논문에 제안된 웨이블릿 변환 잡음제거기는 스펙트럴 차감법에 기반하여 구성하였으며, 고주파 영역에서 높은 시간 해상도를 갖는 웨이블릿 마스크 패턴을 사용함으로써 시간 특성이 빠르게 변화하는 고주파 잡음에 더욱 효율적인 동작을 하도록 설계하였다. 성능평가를 위해 차량 잡음, 길거리 잡음, 베이블 잡음과 같은 이동통신에서 많이 사용하는 주변잡음에서 시험하였으며, 그 주관적 음질 평가 결과 베이블 잡음의 경우 기존의 EVRC(Enhanced Variable Rate Coder) 잡음 제거기보다 Mos (Mean Opinion Score) 0.2의 성능 개선을 이룰 수 있었다. 출력 음성의 스펙트로그램에서도 성능 개선을 확인할 수 있었다.

  • PDF

16 비트 고정 소수점 DSP를 이용한 GSM-EFR 음성 부호화기의 실시간 구현 (Real-time Implementation of a GSM-EFR Speech Coder on a 16 Bit Fixed-point DSP)

  • 최민석;변경진;김경수
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.42-47
    • /
    • 2000
  • 본 논문에서는 DSP Group사의 16비트 고정 소수점 DSP(Digital Signal Processor)인 OakDSP Core를 사용하여 유럽의 이동통신에서 표준으로 사용되고 있는 음성 부호화기 알고리즘인 GSM-EFR (Global System for Mobile communications-Enhanced Full Rate)을 실시간으로 구현하였다. 실시간 구현된 GSM-EFR 음성 부호화기의 계산량은 약 24MIPS가 소요 되며, 7.06K 워드의 코드 메모리와 12.19K 워드의 데이터 메모리를 사용하였다. 구현된 음성 부호화기는 ETSI에서 제공하는 시험 벡터 샘플을 모두 통과하였으며, 객관적 평가툴을 이용하여 지각 평가를 수행한 결과, 32kbps ADPCM과 비슷한 음질을 보였다. 본 논문에서 실시간으로 구현된 GSM-EFR 음성 부호화기는 IMT2000 비동기 방식의 음성 부호화기 표준인 GSM-AMR의 최상위 전송률 모드로서, 앞으로 IMT-2000 비동기식 단말기용 모뎀 ASIC에 탑재할 GSM-AMR 음성 부호화기의 구현을 위한 기본 구조로 이용될 예정이다.

  • PDF

RPE-LTP와 VSELP 음성부호화기의 비교에 관한 연구 (The Study of Comparison between RPE-LTP and VSELP Speech Coder)

  • 박대덕;김화준;심재훈;유재희;정하봉;서정하
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1838-1847
    • /
    • 1994
  • 현재 북미, 유럽, 일본 등에서는 디지털 이동 통신용 음성부호화 방식의 표준을 확정하여 세부기술을 경쟁적으로 개발하고 있으나, 아직까지 우리나라는 이를 확정하지 못하고 있는 실정이다. 본 논문에서는 유럽 표준인 RPE-LTP와 북미 표준인 VSELP 알고리즘을 소스 코팅에 중점을 두어 연구, 비교 및 검토하였다. 각 음성부호화기에 대해 종합적으로 분석 및 비교한 후, 성능 개선 방안에 대하여 논의하였다. 또한, 실시간 처리에 가장 큰 영향을 미치는 연산 횟수를 계산, 비교하였다. 아울러 각 부호화기의 알고리즘을 구체화하여 한국인 음성데이타에 대하여 모의 실험을 수행하였으며, 모의 실험 평가결과로서 구간 신호대 잡음비와 5-포인트 MOS를 비교하였다. 연산횟수는 VSELP 부호기의 곱센연산횟수가 가장 많은 것으로 나타났다. 26가지 음성 데이타에 대하여 구간 신호대 잡음비는 VSELP가 RPE-LTP에 비해 큰 것으로 계산되었고, 5-포인트 MOS 실험을 실시한 결과 VSELP가 RPE-LTP에 비해 음질이 동등하거나 보다 우수한 것으로 평가되었다.

  • PDF

냉장고 동작부품의 소음특성 분석을 통한 감성품질 개선 (Evaluation of Sound Quality for Ergonomic Design of Movable Parts in a Refrigerator)

  • 강성엽;소새롬;김건우;김지훈;박상후
    • 한국기계가공학회지
    • /
    • 제17권6호
    • /
    • pp.7-15
    • /
    • 2018
  • We propose a method for evaluating sound quality quantitatively to develop high-level home appliances (HA). Generally, a refrigerator has diverse movable parts such as slider, drawer, and folding shelf. Therefore, an engineering treatment to control the noise quality is considered as one of key technologies for a higher level refrigerator. Among the movable parts, we have selected a folding shelf as an example, which is commonly setup inside of a home refrigerator for increasing space convenience, to control the noise quality. However, it is known that its noise level is very high comparing to other movable parts when folding or unfolding actions. In order to evaluate and compare the noise quality, we have tested different eighteen models, and have suggested an impact sound quality index (ISQI) based on subjective evaluation data obtained experimentally by thirty two evaluators. The ISQI was formulated using three sound quality elements (noise peak, raising time, impact duration) to determine psycho-acoustic properties. Through this work, we developed an evaluating process and ISQI that was verified the usefulness by comparing the test results of personal perceptions given by evaluators with the prediction value of ISQI. We showed a good relations between them, so we believe that the proposed method and ISQI can be utilized to control of the noise quality of HA effectively.