통합 검색 | Korea Science

한국어 노인 음성 데이터 증강 및 인식 연구 (A Study of Data Augmentation and Auto Speech Recognition for the Elderly)

김건희;박서윤;김한샘
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
- /
- pp.56-60
- /
- 2023
기존의 음성인식은 청장년 층에 초점이 맞추어져 있었으나, 최근 고령화가 가속되면서 노인 음성에 대한 연구 필요성이 증대되고 있다. 그러나 노인 음성 데이터셋은 청장년 음성 데이터셋에 비해서는 아직까지 충분히 확보되지 못하고 있다. 본 연구에서는 부족한 노인 음성 데이터셋 확보에 기여하고자 희소한 노인 데이터셋을 증강할 수 있는 방법론에 대해 연구하였다. 이를 위해 노인 음성 특징(feature)을 분석하였으며, '주파수'와 '발화 속도' 특징을 일반 성인 음성에 합성하여 데이터를 증강하였다. 이후 Whisper small 모델을 파인 튜닝한 뒤 노인 음성에 대한 CER(Character Error Rate)를 구하였고, 기존 노인 데이터셋에 증강한 데이터셋을 함께 사용하는 것이 가장 효과적임을 밝혀내었다.
PDF

피쳐 퓨전 모듈을 이용한 콘포머 기반의 노인 음성 인식 (Conformer-based Elderly Speech Recognition using Feature Fusion Module)

이민식;김지희
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
- /
- pp.39-43
- /
- 2023
자동 음성 인식(Automatic Speech Recognition, ASR)은 컴퓨터가 인간의 음성을 텍스트로 변환하는 기술이다. 자동 음성 인식 시스템은 다양한 응용 분야에서 사용되며, 음성 명령 및 제어, 음성 검색, 텍스트 트랜스크립션, 자동 음성 번역 등 다양한 작업을 목적으로 한다. 자동 음성 인식의 노력에도 불구하고 노인 음성 인식(Elderly Speech Recognition, ESR)에 대한 어려움은 줄어들지 않고 있다. 본 연구는 노인 음성 인식에 콘포머(Conformer)와 피쳐 퓨전 모듈(Features Fusion Module, FFM)기반 노인 음성 인식 모델을 제안한다. 학습, 평가는 VOTE400(Voide Of The Elderly 400 Hours) 데이터셋으로 한다. 본 연구는 그동안 잘 이뤄지지 않았던 콘포머와 퓨전피쳐를 사용해 노인 음성 인식을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 콘포머 모델보다 높은 수준의 정확도를 보임으로써 노인 음성 인식을 위한 딥러닝 모델 연구에 기여했다.
PDF

고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구 (Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator)

이지연
- 디지털융복합연구
- /
- 제14권11호
- /
- pp.249-255
- /
- 2016
노인 음성은 연령에 따른 호흡, 발성, 공명 등의 생리적 변화에 의하여 다량의 잡음이 발생된다. 따라서 노인 음성으로 음성인식 및 합성, 분석 소프트웨어등과 같은 융복합 헬스케어 기기를 동작시키고자 할 때, 성능을 저하시키는 결과를 야기한다. 그러므로 노인 음성을 분석하여 그들의 목소리로 다양한 헬스케어 기기를 잘 운영할 수 있는 위한 연구 개발이 필요하다. 따라서 본 연구는 노인 음성 잡음을 고려하여 기존의 대칭 구조 고차 미분 에너지 함수를 이용하여 노인 음성에서의 음성 구간 검출 알고리즘을 연구하였으며, 자기상관함수와 AMDF 방법과 비교하여 노인 음성에서의 음성 구간 검출에 보다 우수한 성능을 가지는 것을 확인하였다. 본 논문에서 제시하는 음성 구간 검출 알고리즘은 노인을 위한 음성 인터페이스에 적용함으로써 노인들의 스마트 기기에의 접근성을 높이고, 더 나아가 노인들을 위한 융복합 웨어러블 디바이스 성능 개선 및 다양한 개발이 가능할 것으로 전망한다.
https://doi.org/10.14400/JDC.2016.14.11.249 인용 PDF KSCI

노인음성인식을 위한 전처리에 관한 연구 (A Study on Preprocessing for Elderly Voice Recognition)

박지웅;이승준;권순일
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2013년도 추계학술발표대회
- /
- pp.1646-1648
- /
- 2013
고령화 되어 가는 현대 사회에서 노인들이 일반 성인과 동등한 수준에서 정보를 접근 가능하도록 스마트기기의 손쉬운 인터페이스 방법이 요구된다. 음성 인터페이스는 노인들의 스마트기기 활용도를 높여 줄 수 있지만, 성능이 평균적 성인연령 대의 발성행태에 최적화되어 있어, 노인들이 사용할 경우 음성인식률 저하를 초래한다. 그래서 노인 친화형 음성 인터페이스를 개발하기 위한 일환으로 노인음성에 대한 인식률을 향상시켜 줄 수 있는 전처리 알고리즘을 개발하고자 한다. 이를 위해 노인층과 청년층을 대상으로 음성샘플을 수집하여 분석하였고, 그 결과 노인이 청년에 비해 발성속도가 느리며 이는 스마트기기의 음성인식 기능저하로 이어진다는 것을 확인할 수 있었다.
https://doi.org/10.3745/PKIPS.y2013m11a.1646 인용 PDF

음절 별 발화속도 조절을 통한 노인 음석인식 개선 (Syllabic Speech Rate Control for Improving Elderly Speech Recognition of Smart Devices)

경주원;손귀영;권순일
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2015년도 추계학술발표대회
- /
- pp.1711-1714
- /
- 2015
스마트 디바이스가 사회와 소통할 수 있는 도구가 되었음에도 불구하고 아직까지 노인들이 사용하기에는 어려움이 있다. 여기에 음성인식 기술을 이용한 음성인터페이스를 활용함으로써 노인들의 스마트 디바이스에 대한 사용성을 높일 수 있다. 하지만 일반적인 음성인식 시스템은 청장년의 발성 스타일에 맞춰져 있기 때문에, 노화된 노인의 발성이 그대로 입력될 경우 음성인식률이 하락한다. 본 연구에서는 노인의 음절 별 발화속도가 일반적인 음성인식 시스템의 성능을 보증할 수 있는 범위를 벗어나는 경우가 많다는 분석 결과를 토대로 노인의 음절 별 발화속도를 조정한 결과 노인남녀 평균 음성인식률이 15.3% 상승하였다. 이처럼 노인의 음성인식 오류 원인들 중 하나인 발화속도의 재조정으로 음성 인식률을 높일 수 있는 토대를 마련하였다. 이는 노인들이 스마트 디바이스를 이용하여 쉽고 정확한 작업을 수행할 수 있게 됨으로써, 노인들의 사회 참여와 정보 획득이 용이해 지고 더 나아가 세대 간의 소통에도 이바지할 것으로 기대한다.
https://doi.org/10.3745/PKIPS.y2015m10a.1711 인용 PDF

노인음성신호처리에서의 젠더 분석 (Gender Analysis in Elderly Speech Signal Processing)

이지연
- 디지털융복합연구
- /
- 제16권10호
- /
- pp.351-356
- /
- 2018
화로 인한 성대의 변화는 음성의 주파수를 변화시킬 수 있으며, 그 노인음성 신호는 다양한 분석을 통해 정상음성 신호와 자동으로 구분할 수 있다. 본 연구의 목적은 기존 스마트 의료 시스템의 노령자 음성 인식 성능을 향상시키고, 음성을 이용한 편리한 인터페이스를 제공함으로써 빠르게 변화하고 있는 기술사회에서 제외될 수 있는 노인과 장애인들에게 쉽게 접근 할 수 있는 도구를 제공하는 것이다. 본 연구에서는 성 분석으로서, 연구 대상의 성별을 보고했고, 여성과 남성 음성 샘플 개수를 동일하게 사용하였다. 또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다. 마지막으로, 우리는 성별 및 젠더 편견을 줄이기 위한 표준 및 참조 모델의 재검토 방법을 적용하였다. 본 연구에서는 70세에서 80세까지의 한국인 여성 10명과 남성 10명의 노령자 음성을 사용했다. 파형을 보고 직접 추출한 F0 값과 TF32와 Wavesufer 음성 분석 프로그램에서 추출된 F0를 비교했을 때, TF32보다 Wavesufer가 노인음성의 F0를 더 잘 분석하는 것을 알 수 있었다. 그러나 노령자 대상 노인음성용 음성분석프로그램이 필요하며, 노령자의 음성을 분석함으로써 기존 스마트 의료 시스템의 음성 인식 및 합성 성능을 향상시킬 수 있을 것으로 기대한다.
https://doi.org/10.14400/JDC.2018.16.10.351 인용 PDF KSCI

노인의 음성인식 성능 개선을 위한 노인음성 분석

이승준;권순일
- 정보과학회지
- /
- 제32권11호
- /
- pp.16-20
- /
- 2014
PDF KSCI

여성 노인 합창단원의 합창단 유형에 따른 청지각적 음성평가(GRBAS) 및 음성관련 삶의 질(K-VRQOL) 비교 (A comparison of the perceptual-auditory voice quality evaluation (GRBAS) and voice-related quality of life (K-VRQOL) according to choir type of elderly women choir members)

이현정;강빈나;김수지
- 말소리와 음성과학
- /
- 제12권2호
- /
- pp.51-61
- /
- 2020
본 연구의 목적은 음성의 청지각적 평가도구(GRBAS)와 음성관련 삶의 질(K-VRQOL) 척도를 통해 합창활동에 참여하는 여성 노인의 음성 특성과 음성관련 삶의 질을 비교하는 것이다. 연구 대상은 서울 및 부산 소재의 합창단에서 활동 중인 만 60세 이상의 여성 노인으로 총 77명이었다. 합창단은 참여 유형에 따라 합창단(Regular choir)과 찬양단(Church choir) 두 개의 집단으로 분류하였다. 청지각적 음성평가는 /a/ 모음을 발성하는 음성을 듣고 전문가가 청지각적 평가(GRBAS) 척도를 사용하여 평정하였다. 연구 결과, 합창활동 참여 유형에 따라 집단 간 차이를 비교했을 때 찬양단에서 활동하는 여성 노인에 비해 합창단에서 활동하는 여성 노인의 경우 주관적 음성 인식 수준에서 대화 시 음성 사용 만족도가 높은 것으로 나타났다. 또한, 음성관련 삶의 질(K-VRQOL) 척도의 신체 기능 영역에 해당하는 문항에서 만족도가 높은 것으로 분석되었다. 본 연구는 합창활동이 노년기 음성기능의 개선뿐 아니라 음성사용의 주관적 인식 수준을 향상시키는데 긍정적인 결과를 기대할 수 있을 것이라는 점을 확인하였으며, 노인 음성개선을 위한 체계적인 음악 중재 프로그램의 필요성을 시사하고 있다.
https://doi.org/10.13064/KSSS.2020.12.2.051 인용 PDF KSCI

노인성 음성

김영호
- 대한음성언어의학회:학술대회논문집
- /
- 대한음성언어의학회 2003년도 제19회 학술대회
- /
- pp.205-207
- /
- 2003
노년이 되면 후두암이나 신경장애와 같은 질환의 빈도가 증가하는 것이 사실이지만 가장 흔한 음성변화의 원인은 후두의 노화현상에 따른 것이다. 연령과 무관하게 발생하는 성대결절과 같은 질환도 노화의 영향에 따라 그 심각성이 달라지게 된다. 따라서 노인의 음성문제를 다루려면 노화과정에 대한 올바른 이해가 필수적이다. (중략)
PDF

음악요소와 노래 부르기를 활용한 호흡 및 구강훈련이 정상노인의 음성에 미치는 영향 (Effects of Respiration and Oral Motor Training based on Musical Elements and Singing on Voice of Healthy Elderly)

전희운;김수지
- 한국콘텐츠학회논문지
- /
- 제11권10호
- /
- pp.380-387
- /
- 2011
본 연구는 음악요소와 노래 부르기 중심의 호흡 및 구강운동 훈련이 정상노인 음성개선에 효과가 있는지 알아보고자 실시되었다. 연구 대상은 서울 소재 노인 기관에서 노래 부르기 활동에 참여하고 있는 65세~80세 노인 27명을 대상으로 실험군 11명, 통제군 16명을 무작위 분류하여 선정하였으며, 훈련은 4주 동안 25분씩 4회의 그룹치료 형태로 실시되었다. 연구 결과는 두 집단의 사전 사후 결과를 Praat(음성프로그램)으로 분석하였으며, 측정된 결과는 평균을 산출한 후 SPSS 19.0으로 통계처리를 하였다. 연구 결과에서 실험군은 강도(p < .001), 기본주파수(p < .01), 최대발성지속시간(p < .05), 일련운동속도(p < .001)가 유의미하게 향상을 보였으며, 통제군은 강도만 유의미한 차이로 감소를 보이고(p < .05), 나머지는 통계적으로 유의미하지 않은 감소를 보였다. 따라서 음악요소와 노래 부르기를 활용한 호흡 및 구강훈련은 노화로 인한 정상 노인의 음성 기능 개선에 치료적 효과를 나타내며, 이후 음성 장애를 예방하는 음성 훈련프로그램으로 활용될 수 있을 것이다.
https://doi.org/10.5392/JKCA.2011.11.10.380 인용 PDF KSCI

검색결과 91건 처리시간 0.032초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)