• Title/Summary/Keyword: 청각음향

Search Result 229, Processing Time 0.028 seconds

On a Study of the Improvement of Speaker Recognition with Perceptual Weighting Filter (인지 가중 필터를 이용한 화자 인식의 성능 향상에 관한 연구)

  • 배재옥
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.428-431
    • /
    • 1998
  • 화자 인식의 방법에서 사용되고 있는 특징 파라미터들은 음성 인식에서 사용되고 있는 특징 파라미터를 그대로 사용하고 있다. 따라서, 이를 화자 인식에 적용할 때 화자의 특성을 효과적으로 반영할 수 있어야 한다. 일반적인 화자의 특징이 고주파수 위주로 분포되어 있기 때문에 전체 스펙트럼의 고주파 영역을 강조시킬 수 있고, 또한 인간의 청각특성이 공진 주파수에 기반하여 이루어진다는 사실에 기반을 두어서 공진 주파수 위주로 강조시키는 인지 가중 필터를 인식단의 전처리로 사용하는 방법에 관한 것이다. 본 논문을 실험한 결과 전체 인식율에서는 기존의 방법보다 3.89%까지 인식율의 향상을 얻을 수 있었다. 또한 사칭자 수리율은 2.5%의 저하를 얻을 수 있었다.

  • PDF

Audio Coding Using Adaptive Filter Bank (적응 필터뱅크를 이용한 오디오 부호화)

  • 신유철;강현철;변윤식
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.98-106
    • /
    • 1998
  • 본 논문은 두 부류의 오디오 원에 대해 각각 다른 구조를 가지는 필터뱅크를 설계 하고 스위칭 기준을 제안한다. 균일한 필터뱅크로는 MDCT 필터뱅크를 사용하고 필터 뱅크 로는 웨이브렛 패킷 필터뱅크를 사용하였으며 오디오 신호의 시변 특성에 기초하여 두 필터 뱅크를 스위칭한다. MDCT 필터뱅크는 정상신호 표현에 적절하지만 급격한 변화를 포함하 는 오디오 신호를 표현하는데는 적절하지 못한다. 따라서, 본 연구에서 사용한 웨이브렛 패 킷 필터뱅크는 인간의 청각 특성을 고려한 임계대역(critical band)과 유사하게 설계하였으며 스위칭 기준엣는 에너지-엔트로피(energy-entropy), 영교차(zero-crossing)법 그리고 차분 (difference)기준을 사용하였다. 입력되는 오디오 신호의 통계적 특성에 기안하여 두 필터뱅 크를 스위칭하는 방식의 오디오 부호화기에 대해서 새로운 스위칭 기준을 제안하였다. 여러 가지 오디오 신호에 대한 주관적 평가(MOS)를 수행한 결과, 기존의 부호화기보다 좋은 성 능을 보였다.

  • PDF

Modeling of the Time-frequency Auditory Perception Characteristics Using Continuous Wavelet Transform (연속 웨이브렛 변환을 이용한 청각계의 시간-주파수 인지 특성 모델링)

  • 이상권;박기성;서진성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.8
    • /
    • pp.81-87
    • /
    • 2001
  • The human auditory system is appropriate for the "constant Q"system. The STFT (Short Time Fourier Transform) is not suitable for the auditory perception model since it has constant bandwidth. In this paper, the CWT (continuous wavelet transform) is employed for the auditory filter model. In the CWT, the frequency resolution can be adjusted for auditory sensation models. The proposed CWT is applied to the modeling of the JNVF. In addition, other signal processing methods such as STFT, VER-FFT and VFR-STFT are discussed. Among these methods, the model of JNVF (Just Noticeable Variation in Frequency) by using the CWT fits in with the JNVF of auditory model although it requires quite a long time.

  • PDF

On the Use of Pre=-and Post-Filters in Speech Waveform Coding (PRE-FILTER와 POST-FILTER를 사용하여 음성파형 부호화 방법에 관하여)

  • 조동호;은종관;김제우
    • The Journal of the Acoustical Society of Korea
    • /
    • v.4 no.3
    • /
    • pp.33-41
    • /
    • 1985
  • 이 논문에서는 frequency-weighted MSE를 최소화하는 적응 pre-filter와 post-filter를 음성파형 부호화기에 적용했을 때의 성능을 분석한다. 먼저 여러 다양한 pre-filter와 post-filter에 의한 noise shaping 효과를 이론적으로 보여준다. 그리고 frequency-weighted SNR 척도를 사용하여 적응 pre-filter 와 post filter에 의한 성능면에서의 이득을 이론적으로 유도한다. 적응 pre-filter와 post-filter를 ADM과 ADPCM 부호화기에 적용해본 결과에 의하면 음성파형 부호화기의 성능을 FWSNR\sub SEG\ 척도로 약 3dB 정도 개선할 수 있음을 알 수있다. 또한 pre-filter와 post-filter를 사용하면 청각적으로 중요한 영향을 미치는 1kHz에서 3kHz 사이의 양자화 잡음을 효과적으로 줄일 수 있다.

  • PDF

Time Delay Estimation Algorithm using Discrete Wavelet Transform (Discrete Wavelet Transform을 이용한 시간 지연 측정 알고리즘)

  • Paek Sujin;Park Kyusik;Kim Kiman
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.217-220
    • /
    • 2002
  • 본 연구는 폐쇄된 임의의 공간상에서 2개의 마이크로폰 어레이를 이용하여 마이크로폰에 수신된 신호들의 도착 시간차를 추정하는 새로운 알고리즘을 제안한다. 제안된 알고리즘은 입력 음성신호를 Discrete wavelet transform을 이용하여 인간의 청각 특성과 가장 유사한 주파수 해상도를 갖도록 대역 분할한 후 각 주파수 대역에서 신호 대 잡음비를 구하여 신호 대 잡음비가 가장 높은 대역만 선택적으로 취하고 해당 대역에서만 최종적인 시간 지연 값을 추정하게 된다. 최종 시간 지연 측정에 사용된 알고리즘은 기존의 CPSP에 해당 대역의 주파수 SNR을 가중치로 주어 구하게된다. 이러한 대역 분할 가중방식은 다양한 형태의 동적인 잡음 환경 하에서 안정적인 성능을 가질 수 있다. 제안된 알고리즘은 저주파와 고주파 각각의 모의 잡음환경 하에서 컴퓨터 실험을 통해 성능을 입증하도록 한다.

  • PDF

On the in situ Measurement Method of Headphones using Head And Torso Simulator (HATS를 이용한 헤드폰의 in situ 측정방법에 관하여)

  • Kang, Kyeong-Ok;Kang, Seong-Hoon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.2
    • /
    • pp.15-27
    • /
    • 1992
  • The standard measuring method of the frequency characteristics of headphones has been needed because different results come from the different measuring methods because of the lack of the reasonable measuring method of headphone characteristics, for example, in the case of psycho-acoustic experiments with headphones. In this paper, based on this fact, we studied the measurement method of headphones based on the natural hearing condition of human being, that is in situ measuring method, by measuring the headphone frequency characteristics using an artificial ear and a newly proposed device, HATS(Head And Torso Simulator). From the result of this paper, we could see that the method appropriate to a so called in situ condition was the one wi9th HATS, Because HATS simulated more correctly the acoustic impedance of the ear and the diffraction effect of the human head than the artificial ear.

  • PDF

A Study on the expression feature of the visual and auditory senses for Imagery psychotherapy images (심상치료 영상의 시청각적 표현 특성에 관한 연구)

  • Ham, Gi-Hun;Jeong, Seong-Hwan
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2009.05a
    • /
    • pp.47-50
    • /
    • 2009
  • 본 연구는 예술심리치료 및 심상유도의 접근을 통해 영상치료로서의 시각적, 청각적 표현 범위와 치료요소를 찾는데 목적을 두고 있다. 현재 인간의 사회 활동 중에 생기는 정신적 육체적 스트레스를 예방 및 해소하기 위해 이루어지는 치료 활동 중 영상을 이용한 심리치료의 노력이 다방면으로 행해지고 있다. 치료의 형태는 주로 예술심리치료에 속하는 이미지와 기능음악, 클래식 등을 결합한 영상과 음향의 복합적 활용 방식이 주를 이루고 있다. 그러나 이는 치료적 요소에 초점을 두고 체계적인 제작이 되지 앉아 심리치료의 한계를 드러내고 있다. 따라서 본 연구에서는 먼저 기존의 병원, 테라피 공간 및 공공장소에서 일반인을 대상으로 행해지고 있는 영상심리치료의 현황을 파악하고, 행해지는 치료 형태 분류를 통해 색채.미술심리치료에서 사용되어지는 이미지 활용과 음악치료 기법 중 GIM(Guided Imagery and music: 음악과 심상유도) 활용을 중심으로 일반인을 대상으로 하여 실험연구를 진행하였다. 실험 대상물은 영상이미지와 음향의 두 가지 자극이 복합되어 혹은 단일의 자극으로 주어지는 경우를 구분하여 정서적 반응을 조사하고, 전반적인 치료영상에 대한 선호도 조사를 통해 긍정적 정서를 불러일으키는 이미지 및 음향 요소를 도출한다. 이는 향후 영상심리치료의 체계적인 가이드라인 제작과 평가 척도 개발을 위한 기초 자료로 활용할 수 있다.

  • PDF

Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder (심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화)

  • Shin, Seung-Min;Byun, Joon;Park, Young-Cheol;Beack, Seung-kwon;Sung, Jong-mo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1315-1317
    • /
    • 2022
  • 최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.

  • PDF

Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding (저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상)

  • Lee, Chang-Heon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.1
    • /
    • pp.62-68
    • /
    • 2010
  • This paper proposes a new masking threshold adjustment strategy to improve the performance for speech signals in low bit-rate audio coding. After determining formant regions, the masking threshold is adjusted by using the energy ratio of each sub-band to the average energy of each formant. More quantization noises are added to the bands that have relatively large energy, but less distortion is allowed in spectral valley regions by allocating more bits, which reflects the concept of perceptual weighting widely used in speech coding. From the results of objective speech quality measure, we verified that the proposed method improves quality for the speech input signals compared to the conventional one.

Development of Korean Consonant Perception Test (자음지각검사 (KCPT)의 개발)

  • Kim, Jin-Sook;Shin, Eun-Yeong;Shin, Hyun-Wook;Lee, Ki-Do
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.5
    • /
    • pp.295-302
    • /
    • 2011
  • The purpose of this study was to develop Korean Consonant Perception Test (KCPT), that is a phonemic level including elementary data to evaluate speech and consonant perception ability of the normal and the hearing impaired qualitatively and quantitatively. KCPT was completed with meaningful monosyllabic words out of possible all Korean monosyllabic words, considering articulation characteristics, the degree of difficulty, and the frequency of the phonemic appearance, after assembling a tentative initial and final consonants testing items using four multiple-choice method which were applied to the seven final consonant regulation and controlled with the familiarity of the target words. Conclusively, the final three hundred items were developed including two- and one-hundred items for initial and final testing items, respectively, with the evaluation of the 20 normal hearing adults. Through this process, the final KCPT was composed upon the colloquial frequency following identification of no speakers' variances statistically and elimination of the highly difficult items. The 30 hearing impaired were tested with KCPT and found that the half lists, A and B, were not different statistically and the initial and final testing items were appropriate for evaluating initial and final consonants, respectively.