• Title/Summary/Keyword: 노인음성

Search Result 91, Processing Time 0.031 seconds

A Study of Data Augmentation and Auto Speech Recognition for the Elderly (한국어 노인 음성 데이터 증강 및 인식 연구 )

  • Keon Hee Kim;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.56-60
    • /
    • 2023
  • 기존의 음성인식은 청장년 층에 초점이 맞추어져 있었으나, 최근 고령화가 가속되면서 노인 음성에 대한 연구 필요성이 증대되고 있다. 그러나 노인 음성 데이터셋은 청장년 음성 데이터셋에 비해서는 아직까지 충분히 확보되지 못하고 있다. 본 연구에서는 부족한 노인 음성 데이터셋 확보에 기여하고자 희소한 노인 데이터셋을 증강할 수 있는 방법론에 대해 연구하였다. 이를 위해 노인 음성 특징(feature)을 분석하였으며, '주파수'와 '발화 속도' 특징을 일반 성인 음성에 합성하여 데이터를 증강하였다. 이후 Whisper small 모델을 파인 튜닝한 뒤 노인 음성에 대한 CER(Character Error Rate)를 구하였고, 기존 노인 데이터셋에 증강한 데이터셋을 함께 사용하는 것이 가장 효과적임을 밝혀내었다.

  • PDF

Conformer-based Elderly Speech Recognition using Feature Fusion Module (피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식)

  • Minsik Lee;Jihie Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.39-43
    • /
    • 2023
  • 자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.

  • PDF

Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator (고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구)

  • Lee, JiYeoun
    • Journal of Digital Convergence
    • /
    • v.14 no.11
    • /
    • pp.249-255
    • /
    • 2016
  • Since the elderly voices include a lot of noise caused by physiological changes in respiration, phonation, and resonance, the performance of the convergence health-care equipments such as speech recognition, synthesis, analysis program done by elderly voice is deteriorated. Therefore it is necessary to develop researches to operate health-care instruments with elderly voices. In this study, a voice activity detection using a symmetric higher-order differential energy function (SHODEO) was developed and was compared with auto-correlation function(ACF) and the average magnitude difference function(AMDF). It was confirmed to have a better performance than other methods in the voice interval detection. The voice activity detection will be applied to a voice interface for the elderly to improve the accessibility of the smart devices.

A Study on Preprocessing for Elderly Voice Recognition (노인음성인식을 위한 전처리에 관한 연구)

  • Park, Ji-Woong;Lee, Seoung-Jun;Kwon, Soonil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1646-1648
    • /
    • 2013
  • 고령화 되어 가는 현대 사회에서 노인들이 일반 성인과 동등한 수준에서 정보를 접근 가능하도록 스마트기기의 손쉬운 인터페이스 방법이 요구된다. 음성 인터페이스는 노인들의 스마트기기 활용도를 높여 줄 수 있지만, 성능이 평균적 성인연령 대의 발성행태에 최적화되어 있어, 노인들이 사용할 경우 음성인식률 저하를 초래한다. 그래서 노인 친화형 음성 인터페이스를 개발하기 위한 일환으로 노인음성에 대한 인식률을 향상시켜 줄 수 있는 전처리 알고리즘을 개발하고자 한다. 이를 위해 노인층과 청년층을 대상으로 음성샘플을 수집하여 분석하였고, 그 결과 노인이 청년에 비해 발성속도가 느리며 이는 스마트기기의 음성인식 기능저하로 이어진다는 것을 확인할 수 있었다.

Syllabic Speech Rate Control for Improving Elderly Speech Recognition of Smart Devices (음절 별 발화속도 조절을 통한 노인 음석인식 개선)

  • Kyeong, Ju Won;Son, Gui Young;Kwon, Soonil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1711-1714
    • /
    • 2015
  • 스마트 디바이스가 사회와 소통할 수 있는 도구가 되었음에도 불구하고 아직까지 노인들이 사용하기에는 어려움이 있다. 여기에 음성인식 기술을 이용한 음성인터페이스를 활용함으로써 노인들의 스마트 디바이스에 대한 사용성을 높일 수 있다. 하지만 일반적인 음성인식 시스템은 청장년의 발성 스타일에 맞춰져 있기 때문에, 노화된 노인의 발성이 그대로 입력될 경우 음성인식률이 하락한다. 본 연구에서는 노인의 음절 별 발화속도가 일반적인 음성인식 시스템의 성능을 보증할 수 있는 범위를 벗어나는 경우가 많다는 분석 결과를 토대로 노인의 음절 별 발화속도를 조정한 결과 노인남녀 평균 음성인식률이 15.3% 상승하였다. 이처럼 노인의 음성인식 오류 원인들 중 하나인 발화속도의 재조정으로 음성 인식률을 높일 수 있는 토대를 마련하였다. 이는 노인들이 스마트 디바이스를 이용하여 쉽고 정확한 작업을 수행할 수 있게 됨으로써, 노인들의 사회 참여와 정보 획득이 용이해 지고 더 나아가 세대 간의 소통에도 이바지할 것으로 기대한다.

Gender Analysis in Elderly Speech Signal Processing (노인음성신호처리에서의 젠더 분석)

  • Lee, JiYeoun
    • Journal of Digital Convergence
    • /
    • v.16 no.10
    • /
    • pp.351-356
    • /
    • 2018
  • Changes in vocal cords due to aging can change the frequency of speech, and the speech signals of the elderly can be automatically distinguished from normal speech signals through various analyzes. The purpose of this study is to provide a tool that can be easily accessed by the elderly and disabled people who can be excluded from the rapidly changing technological society and to improve the voice recognition performance. In the study, the gender of the subjects was reported as sex analysis, and the number of female and male voice samples was used equally. In addition, the gender analysis was applied to set the voices of the elderly without using voices of all ages. Finally, we applied a review methodology of standards and reference models to reduce gender difference. 10 Korean women and 10 men aged 70 to 80 years old are used in this study. Comparing the F0 value extracted directly with the waveform and the F0 extracted with TF32 and the Wavesufer speech analysis program, Wavesufer analyzed the F0 of the elderly voice better than TF32. However, there is a need for a voice analysis program for elderly people. In conclusions, analyzing the voice of the elderly will improve speech recognition and synthesis capabilities of existing smart medical systems.

A comparison of the perceptual-auditory voice quality evaluation (GRBAS) and voice-related quality of life (K-VRQOL) according to choir type of elderly women choir members (여성 노인 합창단원의 합창단 유형에 따른 청지각적 음성평가(GRBAS) 및 음성관련 삶의 질(K-VRQOL) 비교)

  • Lee, Hyeonjung;Kang, Binna;Kim, Soo Ji
    • Phonetics and Speech Sciences
    • /
    • v.12 no.2
    • /
    • pp.51-61
    • /
    • 2020
  • The purpose of this study is to compare voice characteristics and voice-related quality of life (K-VRQOL) of the elderly female choir members using perceptual-auditory voice quality evaluation (GRBAS) and K-VRQOL scales. The participants were 77 women over 60 years old who were actively engaged in the choir in either Seoul or Busan. There are two kinds of choirs that indicate different engagement levels: regular choir and church choir. The perceptual-auditory vocal quality evaluation was listened to by / a / vowels and were graded by experts using the GRBAS scale. As a result, when comparing the differences between groups, the elderly female participants of the regular choir showed higher satisfaction in speech using the subjective speech recognition level than the elderly female members who performed in the church choir. In addition, the analysis showed that the satisfaction level was high in the physical function area of the K-VRQOL scale. This study confirmed that choral activities could yield positive results not only in terms of improving voice function in old age, but also to improve the subjective perception level of voice use, thus suggesting the necessity of systematic music programs to improve voices that are aging.

노인성 음성

  • 김영호
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.205-207
    • /
    • 2003
  • 노년이 되면 후두암이나 신경장애와 같은 질환의 빈도가 증가하는 것이 사실이지만 가장 흔한 음성변화의 원인은 후두의 노화현상에 따른 것이다. 연령과 무관하게 발생하는 성대결절과 같은 질환도 노화의 영향에 따라 그 심각성이 달라지게 된다. 따라서 노인의 음성문제를 다루려면 노화과정에 대한 올바른 이해가 필수적이다. (중략)

  • PDF

Effects of Respiration and Oral Motor Training based on Musical Elements and Singing on Voice of Healthy Elderly (음악요소와 노래 부르기를 활용한 호흡 및 구강훈련이 정상노인의 음성에 미치는 영향)

  • Jun, Hee-Un;Kim, Soo-Ji
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.10
    • /
    • pp.380-387
    • /
    • 2011
  • This study was to investigate the effects of music-combined respiration and oral motor training on the voice of healthy elderly. 27 women attending a senior center in Seoul participated and were randomly assigned to the experimental (n = 16) and the control group (n = 11). Subjects attended music program(25 minutes per session) once a week for 4 weeks. For both groups, Fundamental Frequency (F0), Maximum Phonation Time (MPT) and Sequential Motion Rates (SMR) were measured using the Praat speech analysis program before and after the training. The results showed statistical significance in scores of intensity, F0, MPT, and SMR in the experimental group while only intensity was statistically significant in the control group. Considering that, the increasing life expectancy and growing number of older adults, their quality of life has been important. So this study suggests that the respiration and oral motor training would be effectively incorporated into training and services for this population.