DOI QR코드

DOI QR Code

음성압축 방식의 변화가 한국어 단음절 숫자 인지기능에 미치는 영향의 비교 연구

Comparative Studies of Perceiving Korean Monosyllabic Digit Words under Different Speech Compression Schemes

  • 임덕환 (한림대학교 언어청각학부 청각언어연구소) ;
  • 원유경 (한림대학교 일반대학원 청각학전공)
  • 투고 : 2013.04.01
  • 심사 : 2013.04.30
  • 발행 : 2013.05.31

초록

다양한 음성 압축방식이 여러 분야에서 광범위하게 사용되고 있으며 그 심리음향적 인지결과는 대상 언어의 특성과 압축 방식에 따라서 다를 수가 있다. 한국어에서도 이러한 인지 결과를 비교하는 정량적인 자료가 관련된 임상이나 응용 분야에서 필요하지만 구체적인 내용이 확인되어 있지 않다. 본 연구에서는 통제된 언어적 특성을 갖는 0에서 9까지 한국어 단음절 숫자 들이 무작위로 조합되는 다섯 쌍 조합(quintet set)을 대상으로 하여 자주 사용되는 세가지 대표적인 음성 압축방식의 특성을 비교 분석하였다. 비교 기준으로는 기존의 연구에서 분석 정리된 시간과 주파수 정보가 모두 일정하게 변화되는 PNT (Preserving No Trait) 압축에서 얻은 자료를 비교 근거로 선정하였다. 이를 기준으로 하여 동일한 조건의 정상인 그룹에서 심리음향적 피치(pitch) 정보가 주로 보전되는 PPT (Preserving Pitch Trait), 시간 정보가 주로 보전되는 PTT (Preserving Time Trait) 압축방식의 인지 결과를 기록하고 분석하였다(N=20). 본 연구 결과에서 얻어진 자료를 보면, 정보의 압축비율이 높을 수록 심리음향학적으로 중요한 주파수 정보(피치)를 보전하는 것이 인지도 측면에서 가장 유리한 것으로 나타났다(PPT>PTT>PNT). 또한, 세가지 압축방법에서 50% 인지율을 보이는 압축률의 역치도 PPT가 20%, PTT가 42%, PNT가 44% 순으로 나타났다. 따라서 인지도 측면에서만 살펴보면 본 조건에서는 PPT 압축 방식이 가장 우수한 것으로 추정되었다. 이러한 숫자 자극을 이용한 평가 방법은 향후 새로운 압축 방식의 효율성과 인지도 측면을 비교 가능하게 하며, 이를 이용하면, 청각정보처리기능을 진단하거나 압축 관련 특수 보청기 적합 재활에서 정량적인 지표를 제공하는 도구로도 사용될 수 있을 것으로 판단된다.

The performances of speech compression schemes appeared to be dependent on the response profiles to compressed stimuli and the features of individual languages to some extent. Although these response profiles were critical in comparing various compression outcomes, the related data were limited in number for Korean monosyllabic words. From the previous study, data from PNT (Preserving No Trait) compression was selected as a base set for comparison. In this study, the outcomes from PPT (Preserving Pitch Trait) and PTT (Preserving Time Trait) were analyzed under the same condition. Then, the properties of these three widely used representative compression schemes were quantitatively compared in normal hearing adults (N=20) for controlled Korean quintet digit sets (0 through 9). Results showed that PPT compression scheme exhibited the best perceptual performances for the Korean quintet digit sets in the final outcomes (PPT>PTT>PNT). The compression ratios of 50% performances were estimated as about 20%, 42%, and 44% for PPT, PTT, and PNT, respectively. The data indicated the influences of the salient psychoacoustic features of the three representative compressions on perceiving Korean monosyllabic digit words. This controlled procedure with monosyllabic quintet sets can evaluate efficiency and effectiveness of other compression schemes and may also contribute to diagnosing auditory processing disorders and fitting special hearing aids with compression issues.

키워드

참고문헌

  1. T. D. Schon, "The effects on speech intelligibility of timecompressed and expansion on normal-hearing, hard of hearing, and aged males," J. Auditory Research 10, 263-268 (1970).
  2. R. Drullman, "Temporal envelope and fine structure cues for speech intelligibility," J. Acoust. Soc. Am. 97, 585-592 (1994).
  3. R. H. Wilson, "Word recognition with segmented-altered CVC words: compact disk trials," J. Am. Aca. Audiol. 5, 255-258 (1994).
  4. S. Gordon-Salant, P. J. Fitzgibbons, and S. A. Friedman, "Recognition of time-compressed and natural speech with selective temporal enhancements by young and elderly listeners," J. Speech, Lang., & Hear. Res. 50, 1181-1193 (2007). https://doi.org/10.1044/1092-4388(2007/082)
  5. S. Lee and D. Lim, "Speech perception boundaries of Korean confusing monosyllabic minimal pairs (CVC) in normal adults," J. Acoust. Soc. Kr. 29, 325-331 (2010).
  6. D. Lim and Y. Won, "Effects of time-frequency altered compression on Korean monosyllabic digit perception in normal young adults," Audiology 8, 190-195 (2012).
  7. D. F. Konkle, D. S. Beasley, and F. H. Bess. "Intelligibility of time-altered speech in relation to chronological aging," J. Speech & Hear. Res. 20, 108-115 (1977). https://doi.org/10.1044/jshr.2001.108
  8. A. Wingfield, L. W. Poon, L. Lombardi, and D. Lowe, "Speed of processing in normal aging: effects of speech rate, linguistic structure, and processing time," J. Gerontol. 40, 579-585 (1985). https://doi.org/10.1093/geronj/40.5.579
  9. A. Grimes, G. Mueller, and D. Williams, "Clinical considerations in the use of time-compressed speech," Ear & Hearing 5, 114-117 (1984). https://doi.org/10.1097/00003446-198403000-00010
  10. K. V. Nourski and R. A. Reale, "Temporal envelope of time-compressed speech represented in the human auditory cortex," J. Neurosci. 29, 15564-15574 (2009). https://doi.org/10.1523/JNEUROSCI.3065-09.2009
  11. S. Kang and D. Lim, "Effects of redundancy changes in time and frequency on discriminating monosyllabic words (CVC) under ipsilateral/contralateral background noise conditions," Audiology 3, 43-51 (2007).
  12. L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, (Prentice Hall, New Jersey, 1978).
  13. A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing, (Prentice Hall, New Jersey, 2009).
  14. D. Lim and J. Moon, "Korean monosyllabic auditory digit span memory in normal hearing adults," Audiology 7, 195-199 (2011).
  15. E. Janse, "Word perception in fast speech: artificially time-compressed vs naturally produced fast speech," Speech Comm. 42, 155-173 (2004). https://doi.org/10.1016/j.specom.2003.07.001
  16. H. Ju, H. Kim, and D. Lim, "The effects of frequency lowering function hearing aids on Korean word recognition scores in the high frequency hearing impaired," Audiology 8, 249-251 (2012).