• 제목/요약/키워드: Long Vowel

검색결과 44건 처리시간 0.017초

발화범위 프로파일 과제 개발 및 타당성 검증 (Development and validation of Speech Range Profile task)

  • 김재옥;이승진
    • 말소리와 음성과학
    • /
    • 제11권3호
    • /
    • pp.77-87
    • /
    • 2019
  • 본 연구는 발화범위 프로파일(Speech Range Profile, SRP) 과제를 개발하고, 개발된 SRP 과제가 최대발화범위를 측정하기에 적합한지 살펴보기 위해 45명의 18-29세 정상음성군을 대상으로 음성범위 프로파일(Voice Range Profile, VRP) 과제와 비교하였다. 이를 위해 한국어의 모든 말소리와 문장 유형을 포함하는 14개 문장으로 구성된 "불이야"문단을 개발하였다. SRP와 VRP 간의 차이를 비교하기 위해 SRP 과제로는 새롭게 개발된 문단으로 문단읽기와 21-30까지 숫자세기를 사용하였고, VRP 과제는 /a/ 모음을 낮은 음도부터 높은 음도까지 활창하기와 축약된 VRP를 사용하였다. SRP와 VRP의 변수로 최고기본주파수($F0_{max}$), 최저기본주파수($F0_{min}$), 기본주파수범위($F0_{range}$), 최대음성강도($I_{max}$), 최소음성강도($I_{min}$) 및 음성강도범위($I_{range}$)를 측정한 후 과제 간 차이를 비교하였다. 그 결과, $F0_{max}$, $F0_{min}$, $F0_{range}$, $I_{max}$$I_{range}$는 모두 문단읽기의 SRP와 활창하기의 VRP 간에 차이가 없었고, $I_{min}$은 숫자세기의 SRP가 가장 낮은 평균값을 보였다. 즉 새롭게 개발된 SRP 과제인 "불이야" 문단은 정상 음성 산출 화자에서 모음만을 통해 측정된 VRP의 음역대와 유사한 수준의 음역대를 산출할 수 있음을 알 수 있다. 이에 오랜 시간이 소요되거나 중증도의 음성장애에서 측정이 어려울 수 있는 VRP를 대신하여 기능적 말산출 과제인 SRP를 적용함으로써 국내 임상환경에서 비교적 짧은 시간 내에 음성평가를 효과적으로 실시할 수 있을 것으로 본다.

머신러닝 분류기를 사용한 만성콩팥병 자동 진단 및 중증도 예측 연구 (Automatic detection and severity prediction of chronic kidney disease using machine learning classifiers)

  • 문지현;김선희;김명주;류지원;김세중;정민화
    • 말소리와 음성과학
    • /
    • 제14권4호
    • /
    • pp.45-56
    • /
    • 2022
  • 본 논문은 만성콩팥병 환자의 음성을 사용하여 질병을 자동으로 진단하고 중증도를 예측하는 최적의 방법론을 제안한다. 만성콩팥병 환자는 호흡계 근력의 약화와 성대 부종 등으로 인해 음성이 변화하게 된다. 만성콩팥병 환자의 음성을 음성학적으로 분석한 선행 연구는 존재했으나, 환자의 음성을 분류하는 연구는 진행된 바가 없다. 본 논문에서는 모음연장발화, 유성음 문장 발화, 일반 문장 발화의 발화 목록과, 수제 특징 집합, eGeMAPS, CNN 추출 특징의 특징 집합, SVM, XGBoost의 머신러닝 분류기를 사용하여 만성콩팥병 환자의 음성을 분류하였다. 총 3시간 26분 25초 분량의 1,523개 발화가 실험에 사용되었다. 그 결과, 질병을 자동으로 진단하는 데에는 0.93, 중증도를 예측하는 3분류 문제에서는 0.89, 5분류 문제에서는 0.84의 F1-score가 나타났고, 모든 과제에서 일반 문장 발화, 수제 특징 집합, XGBoost의 조합을 사용했을 때 가장 높은 성능이 나타났다. 이는 만성콩팥병 음성 자동 분류에는 화자의 발화 특성을 모두 반영할 수 있는 일반 문장 발화와 거기로부터 추출한 적절한 특징 집합이 효과적임을 시사한다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

언어재활사의 주관적 음성피로도와 관련된 음향적 특성 (Acoustic characteristics of speech-language pathologists related to their subjective vocal fatigue)

  • 전혜원;김지연;성철재
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.87-101
    • /
    • 2022
  • 대전·충남지역 20-30대 여성 언어재활사 50명을 대상으로 주관적 음성 피로도 설문과 더불어 하루 4회기를 기준으로 언어치료 전/후 음성 샘플 수집을 하였다. 연구 결과, Korean Vocal Fatigue Index의 음성 피로로 인한 음성 사용회피 항목과 음성 사용으로 인한 신체 피로 항목에서 피로 집단과 피로 없는 집단 간 유의한 차이가 있었다. 두 집단의 음향음성학적 특성과 관련하여, 두 집단 모두 치료 후 저주파 대역 에너지가 상대적으로 낮아지고 고주파 대역 에너지가 상승하는 패턴을 보였다. 이러한 특징이 분산분석 결과, 주 효과로 나타난 low to high-ratio[t1(time.1)>t2(time.2)], slope_ltas(t2>t1), 3rd formant's energy(t1>t2), high energy(t2>t1) 등에 잘 반영되어 있다. 집단 간 차이는 음향변수들 중 치료 전 모음 연장발성 스펙트럼 저주파 대역의 에너지인 low energy에서만 관찰되었고 피로 없는 집단의 값이 더 컸다(no.fatigue>fatigue in t1). 음향변수에서의 이러한 특징과 더불어 치료 세션 후 피로 없는 집단의 연결발화에서의 왜도 증가는 장시간의 목소리 노동으로 인한 성대 과긴장(higher muscle tonus)과 목소리 남용 때문으로 해석할 수 있다. 섭동변수 shimmer_local은 피로 없는 집단이 언어치료 후 낮아졌고(t1>t2), 켑스트럼 변수인 RNR(rhamonics to noise ratio)은 언어치료 후 값이 높아졌다(t2>t1). NHR(noise to harmonic ratio)은 두 집단 모두 치료 후 낮아졌다. NHR의 감소와 shimmer_local의 하강은 치료 세션을 진행하면서 발성 과정이 안정화되었거나 혹은 전문 지식이 있는 언어재활사(특히 피로 없는 집단)들의 효율적 목소리 사용이 기여했다고 결론지을 수 있다. 피로 없는 집단의 경우는 치료 후에 RNR값이 유의하게 커졌으므로 치료 후 오히려 조화음(harmonic) 구조가 더 안정되었다고도 말할 수 있을 것이다.