• 제목/요약/키워드: 말소리

검색결과 1,337건 처리시간 0.022초

경상 방언 내포문 의문사의 작용역 범주 지각 양상과 반응 속도 연구 (Patterns of categorical perception and response times in the matrix scope interpretation of embedded wh-phrases in Gyeongsang Korean)

  • 윤원희
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.1-11
    • /
    • 2023
  • 경상 방언 내포문 의문사의 작용역 지각 반응 시간과 범주 지각의 양상을 분석하였다. 지각 실험을 위한 자극은 내포문 의문사가 모문 작용역을 갖는 문맥이 주어진 하나의 문장을 40명의 화자가 발화한 것으로, 지각 실험은 24명이 참가하였다. 피험자는 40개의 자극에 대해 모문 작용역(설명 의문문)인지 또는 내포문 작용역(판정 의문문)인지를 선택하게 하는 강제 선택 실험을 3회 진행하고 그 반응 시간을 기록하였다. 모문 작용역 응답 수를 기준으로 자극을 정렬한 후 작용역 응답에 따른 반응 시간을 정렬 순서에 따라 시각화한 결과 모문과 내포문 작용역 응답이 범주적 지각의 결과임이 분명히 나타났으나, 이에 따른 반응 시간의 차이는 크게 나타나지 않았다. 화자에 따른 범주 지각 양상으로 볼 때, 작용역 해석에 영향을 주는 요인은 형태/통사적 제약과 운율 구조적 완결성으로 보이며, 한 요인의 가중치는 다른 요인의 가중치와 반비례 관계에 있는 것으로 해석할 수 있다.

과기능적 음성장애 환자의 물저항발성: 튜브 직경과 물 깊이가 물거품 높이 및 최대발성지속시간에 미치는 영향 (Tube phonation in water for patients with hyperfunctional voice disorders: The effect of tube diameter and water immersion depth on bubble height and maximum phonation time)

  • 김민경;최성희;윤종인
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.31-40
    • /
    • 2023
  • 목적: 물 속에서 튜브 발성은 semi-occluded vocal tract(SOVT) 연습 중 하나로 환자가 튜브를 물 속에 잠기게 하여 거품을 내면서 발성을 하는 것으로 음성 훈련에 널리 사용되어 왔다. 본 연구는 과기능성 음성장애 환자를 대상으로 물저항발성 동안 튜브 직경과 튜브를 담그는 물 깊이가 물거품 높이와 최대발성지속시간(maximum phonation time, MPT)에 미치는 영향을 조사하는 것을 목적으로 한다. 방법: 과기능성 음성장애 환자 17명에게 튜브 직경(5, 7, 10 mm), 튜브를 담그는 물 깊이(4, 7, 10 cm)에 따라 지속적인 /u/발성을 하면서 거품을 내도록 하였다. 물거품 높이 및 MPT 기록을 위해 수위 센서를 이용한 물저항발성 바이오피드백 시스템을 사용하였다. 결과: 물거품 높이는 튜브 직경에 의해 유의하게 변화한 반면 MPT는 튜브 직경과 깊이에 따라 유의하게 변화하였다. 직경이 더 넓을수록 주어진 깊이에 대해 유의하게 낮은 물거품 높이를 나타냈지만, 상대적으로 일관된 버블 높이가 유지되었다. 물의 깊이에 따라 주어진 튜브 직경에서 물거품 높이는 유의한 차이가 없었으나, 물의 깊이에 따라 MPT는 유의하게 감소하였고 튜브가 넓을수록 MPT가 유의하게 감소하였다. 결론: 수위 센서 방식의 물저항 바이오피드백 시스템은 튜브 직경 및 수심에 따른 기포 특성 및 성대 진동에 대해 유용한 정보를 제공하였다. 또한, 수위센서를 이용한 물저항발성 바이오시스템은 과기능적 음성장애가 있는 환자의 물저항 발성 중 호흡 지지를 모니터링하는 데 유용하게 사용될 수 있다.

대형 사전훈련 모델의 파인튜닝을 통한 강건한 한국어 음성인식 모델 구축 (Building robust Korean speech recognition model by fine-tuning large pretrained model)

  • 오창한;김청빈;박기영
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.75-82
    • /
    • 2023
  • 자동 음성 인식(automatic speech recognition, ASR)은 딥러닝 기반 접근 방식으로 혁신되었으며, 그중에서도 자기 지도 학습 방법이 특히 효과적일 수 있음이 입증되고 있다. 본 연구에서는 다국어 ASR 시스템인 OpenAI의 Whisper 모델의 한국어 성능을 향상시키는 것을 목표하여 다국어 음성인식 시스템에서의 비주류 언어의 성능 문제를 개선하고자 한다. Whisper는 대용량 웹 음성 데이터 코퍼스(약 68만 시간)에서 사전 학습되었으며 주요 언어에 대한 강력한 인식 성능을 입증했다. 그러나 훈련 중 주요 언어가 아닌 한국어와 같은 언어를 인식하는 데 어려움을 겪을 수 있다. 우리는 약 1,000시간의 한국어 음성으로 구성된 추가 데이터 세트로 Whisper 모델을 파인튜닝하여 이 문제를 해결한다. 또한 동일한 데이터 세트를 사용하여 전체 훈련된 Transformer 모델을 베이스 라인으로 선정하여 성능을 비교한다. 실험 결과를 통해 Whisper 모델을 파인튜닝하면 문자 오류율(character error rate, CER) 측면에서 한국어 음성 인식 기능이 크게 향상되었음을 확인할 수 있다. 특히 모델 크기가 증가함에 따라 성능이 향상되는 경향을 포착하였다. 그러나 Whisper 모델의 영어 성능은 파인튜닝 후 성능이 저하됨을 확인하여 강력한 다국어 모델을 개발하기 위한 추가 연구의 필요성을 확인할 수 있었다. 추가적으로 우리의 연구는 한국어 음성인식 애플리케이션에 파인튜닝된 Whisper 모델을 활용할 수 있는 가능성을 확인할 수 있다. 향후 연구는 실시간 추론을 위한 다국어 인식과 최적화에 초점을 맞춰 실용적 연구를 이어갈 수 있겠다.

신경학적 손상이 없는 갑상선 술 후 음도문제의 음성치료 (Voice therapy for pitch problems following thyroidectomy without laryngeal nerve injury)

  • 김지성;김미진
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.53-58
    • /
    • 2023
  • 갑상선 절제술 후 정상적인 성대 움직임을 보이는 경우의 29.7%가 주관적인 음성문제를 호소하며, 이는 의사소통과 관련된 삶의 질 저하로 이어질 수 있다. 본 연구의 목적은 신경학적 손상이 없는 갑상선 절제술 후 음성의 음도문제를 개선하기 위해 경부운동과 semi-occluded vocal tract exercise를 적용하여 고안한 음성치료법의 효과를 알아보는 것이다. 이를 위해 갑상선 절제술 후 음도문제를 보이는 여성 10명을 대상으로 무작위 배정에 의힌 음성치료를 갑상선 술 2주 후 1회 실시하였다. 술 전과 술 후, 음성치료 직후의 음성 비교하기 위해 음향학적 분석[fundamental frequency, jitter, shimmer, noise-to-harmonics ratio, min Voice Range Profile(VRP), max VRP, VRP]을 실시하였다. 연구결과, 술 전에 비해 술 후 유의한 감소를 보였던 max VRP, VRP가 음성치료 직후 유의한 증가를 보였다. 이와 같은 결과는 본 연구의 음성치료법이 갑상선 술 후 음성문제의 주요한 증상인 고음역대 주파수 저하를 개선하는데 효과적인 방법임을 시사한다. 추후에는 본 치료효과가 장기간 지속되는지에 대한 연구가 필요할 것이다.

연장음 길이에 따른 비유창성 정도 평가: 등간척도와 직접크기평정 비교 연구 (The perceptual judgment of sound prolongation: Equal-appearing interval and direct magnitude estimation)

  • 박진;차화정;배세진
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.59-67
    • /
    • 2023
  • 본 연구는 연장음의 길이에 따른 비유창성 지각 정도에 대해 각각 등간척도와 직접크기평정을 통한 청지각적 평가를 실시한 후, 두 평가의 결과치가 선형적인 또는 비선형적인 관계를 보이는지를 알아보고자 진행되었다. 이를 통해 연장음의 길이에 따른 비유창성 지각 정도에 대한 적절한 평가 방법을 제안하고자 하였다. 이를 위해 한국어를 모국어로 하는 만 19세 이상 성인 남녀 34명(남: 9명, 여: 25명, 평균연령: 32.9세)이 평가자로 참여였다. 실험참여자는 먼저 한국어 평마찰음 /s/를 원래 길이에서 80 ms씩 연장하여 2,000 ms(i.e., 285 ms, 365 ms., ..., 2,125 ms, 2,205 ms)까지 연장 변조한 총 25개의 자극이 들어 있는 문장을 듣고, 등간척도(1-7점, 1은 '정상', 7은 '심도')로 평가하였다. 이후에 등간척도 평가 결과, '경중도'(4점)에 해당하는 음성샘플을 선정해 이를 기준 평가치(modulus)로 하여 직접크기평정을 실시하였다. 두 평가 결과치에 대한 산포도를 작성한 후, 모형 분석을 통해 두 측정치 간의 관계가 선형적(linear)인지 비선형적(curvilinear)인지 R2값을 통해 조사하였다. 연구 결과, 두 평가 결과치의 관계가 비선형적인 양상을 보이는 것으로 나타났으며 이는 연장음의 길이에 따른 비유창성 정도 평가에 있어 등간척도보다는 직접크기평정이 적절한 평가 방법임을 보여주는 결과이다.

Praat과 R로 분석한 한국인 대화 음성 말뭉치의 fundamental frequency(f0)값 분포 (The fundamental frequency (f0) distribution of Korean speakers in a dialogue corpus using Praat and R)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.17-25
    • /
    • 2023
  • 이 논문은 국립국어원에서 배포한 한국인 대화 음성 말뭉치에서 화자의 성대의 진동을 나타내는 fundamental frequency(f0)값을 측정해서 한국인이 일상 대화를 할 때 f0값의 기초적인 통계자료를 살펴보고, 나이와 f0값의 분포는 어떤 관계를 보이는지를 조사했다. 연구자료 수집과 분석은 Praat과 R을 이용했고, 개인별 억양구마다 상자도를 구하고 사분위값을 활용하여 극단값을 제거하는 방법으로 최종 f0값 자료를 구했다. 그 결과 전체 한국인들의 f0값의 평균값은 185 Hz이고 중앙값은 187 Hz로 나왔다. 자료의 분포모양을 나타내는 왜도는 0.11의 정적분포를 보였고, 첨도는 -0.09로 정상분포에 거의 가까운 모양을 보였다. 일상대화의 피치값의 변화범위로는 238 Hz로 나타났다. 남녀 간의 f0값의 차이는 남성의 중앙값 114 Hz의 거의 두 배에 해당하는 199 Hz가 여성의 중앙값으로 나타났고 t검증결과 유의미한 차이를 보였다. 분포모양을 나타내는 왜도는 남성이 1.24이었고, 여성은 그것의 반에 해당하는 0.58이었다. 첨도는 남녀집단 각각 5.21과 3.88로 나타나 남성의 값이 34% 정도 더 뾰족한 모양을 보였다. 연령대별로는 남녀집단을 합하여 볼 때, 나이가 들수록 f0값이 서서히 내려가는 경향을 보였다. 연령대별 f0중앙값과 나이 간의 회귀분석을 실행한 결과 기울기가 남성집단에서는 0.15, 여성집단에서는 -0.586으로 서로 반대되는 경향을 기록했다. 결론적으로, 대규모 참여자가 녹음한 대화 음성에서 한국인의 집단별 연령별 다양한 f0분포를 규명할 수 있지만, 나이와 f0관계는 더 정밀한 자료수집이 필요함을 알 수 있었다.

제 2언어 학습자의 한국어 리듬 실현양상 -중국인 한국어 학습자를 중심으로- (Aspects of Korean rhythm realization by second language learners: Focusing on Chinese learners of Korean)

  • 윤영숙
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.27-35
    • /
    • 2023
  • 본 연구에서는 중국인 한국어학습자들의 한국어 낭독발화에서 나타나는 리듬의 변화양상을 한국어 모국어화자와의 비교를 통해 분석하였다. 그리고 이를 통해 모국어화자와 구별되는 리듬의 물리적 속성을 고찰하여 목표어의 리듬 습득과정에서 나타나는 중국인학습자들의 발화 특성을 고찰하고자 하였다. 한국어와 중국어는 리듬 유형론적으로 다른 범주에 속한다. 일반적으로 한국어는 음절박자언어와 강세박자언어의 모습을 모두 보이는 것으로 알려져 있으며 중국어는 음절박자언어로 분류된다. 두 언어는 음절구조, 어휘강세나 모음약화 현상의 부재 등 음운론적으로 유사한 특성을 보이지만 세부적인 차이도 존재한다. 이런 맥락에서 본다면 한국어 리듬 실현에서 모국어인 중국어의 긍정적 전이와 부정적 전이가 모두 나타날 수 있을 것이다. 본 연구에서는 표준어를 구사하는 한국어 원어민화자 5명과 한국어 숙달도 고급 수준의 중국인한국어학습자 10명이 발화문을 녹음하여 분석하였다. 분석자료는 다섯 문장으로 구성된 한 단락의 담화이다. 중국인 한국어학습자들의 한국어 리듬구조를 파악하기 위해 %V, VarcoV, nPVI_V, nPVI_S값을 측정하였다. 측정결과 %V와 VarcoV의 값에서 두 그룹은 모두 음절박자언어의 특성을 보였다. 그러나 중국인학습자들은 한국화자와는 유의미한 차이로 낮은 %V와 높은 VarcoV를 보여 보다 강세박자언어에 가까운 리듬구조를 보였다. nPVI_S값에서는 유사한 면이 관찰되었으나 nPVI_V에서 두 그룹 간 유의미한 차이가 나타났다. 두 그룹에서 나타난 리듬구조의 차이는 무엇보다 모음 길이의 변동의 차이로 귀속될 수 있고 그 원인은 중국어에 존재하는 모음 위계의 차이에서 비롯되는 것으로 판단되었다. 이러한 모국어의 발화습관이 한국어 리듬구조에 영향을 미쳐 보다 강세박자언에 가까운 속성을 보이며 이로 인해 한국어 모국어 화자와 다른 청지각적 리듬 차이를 유발한다고 할 수 있다.

음성장애의 병인 집단 간 추정 발화 기본주파수 절대 오차 비교 (A comparison of the absolute error of estimated speaking fundamental frequency (AEF0) among etiological groups of voice disorders)

  • 이승진;임재열;김재옥
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.53-60
    • /
    • 2023
  • 본 연구에서는 음성장애 환자에서 음성 범위 프로파일(voice range profile, VRP)과 말 범위 프로파일(speech range profile, SRP)을 이용한 추정 발화 기본주파수 절대 오차(absolute error of estimated speaking fundamental frequency, AEF0)를 음성장애의 병인 집단 간에 비교하여 차이를 확인하고,각 병인 집단 별로 AEF0와 관련된 변수들 간의 상관관계를 살펴보고자 하였다. 연구대상은 음성장애로 진단된 기능적(functional, FUNC), 기질적(organic, ORGAN), 신경학적(neurogenic, NEUR) 음성장애 환자군과 정상군(normal control, NC) 각 30명(남 15명, 여 15명)으로 총 120명이었다. 각 대상자로 하여금 음성, 말 범위 프로파일 과제를 수행하도록 하고 전기성문파형검사(electroglottography, EGG)를 통해 발화 기본주파수를 측정하였다. 병인 집단 간 AEF0의 비교 결과, Grade와 Severity는 병인 집단 간 차이가 없었던 반면, AEF0VRP와 AEF0SUM에서 병인 집단 간 차이가 있어 AEF0VRP는 ORGAN이 FUNC와 NC보다 높았으며, AEF0SUM은 ORGAN이 NC보다 높았다. 또한 FUNC와 NEUR에서는 AEF0가 Grade와 양의 상관관계를 보인 반면, ORGAN은 CQ(closed quotient)와 양의 상관관계가 있었다. 따라서 병인 집단에 따라 AEF0의 적용과 관련 음성 변수를 살펴보는 데 주의를 기울여야 할 것으로 보이며, 본 연구는 이러한 임상적 판단에 대한 기초 자료를 마련하는 데 일조한 것으로 여겨진다.

성대구증 환자의 공기역학적 검사 방법에 따른 치료 전과 후의 평균호기류율 비교 (Comparison of mean airflow rate before and after treatment in patients with sulcus vocalis according to aerodynamic analysis methods)

  • 이승연;최홍식;김재옥
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.61-69
    • /
    • 2023
  • 성대구증은 불완전 성대폐쇄부전으로 평균호기류율(mean airflow rate, MFR)이 높은 것이 특징이다. MFR은 phonatory aerodynamic system(PAS)의 두 공기역학적 검사 방법(MXPH, VOEF)으로 측정하며, 두 검사 방법에 따라 결과가 다르게 나타날 수 있다. 본 연구는 성대구증 환자 30명을 대상으로 PAS의 MXPH, VOEF 프로토콜에 따른 MFR의 치료 전과 후 차이, 치료 전후 변화량 간의 차이가 있는지 비교하였다. 그리고 치료 전과 후의 Voice handicap index(VHI), GRBS 및 기본주파수(F0)를 비교하였다. 연구결과, 성대구증 환자의 치료 전과 후 모두에서 검사 방법 간에 유의한 차이가 나타났으나 치료 전후의 변화량은 유의한 차이가 없었다. VHI와 GRBS는 치료 전에 비해 치료 후에 유의하게 감소하였으나 F0는 치료 전과 후에 유의한 차이가 없었다. 본 연구를 통해 성대구증 환자의 치료에 따른 MFR 변화를 평가할 때, 두 공기역학적 검사 방법(MXPH, VOEF) 중 어떠한 검사 방법을 사용해도 된다는 것을 알 수 있다.

인공지능 기반의 말더듬 자동분류 방법: 합성곱신경망(CNN) 활용 (AI-based stuttering automatic classification method: Using a convolutional neural network)

  • 박진;이창균
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.71-80
    • /
    • 2023
  • 본 연구는 말더듬 화자들의 음성 데이터를 기반으로 하여, 인공지능 기술을 활용한 말더듬 자동 식별 방법을 개발하는 것을 주목적으로 진행되었다. 특히, 한국어를 모국어로 하는 말더듬 화자들을 대상으로 CNN(convolutional neural network) 알고리즘을 활용한 식별기 모델을 개발하고자 하였다. 이를 위해 말더듬 성인 9명과 정상화자 9명을 대상으로 음성 데이터를 수집하고, Google Cloud STT(Speech-To-Text)를 활용하여 어절 단위로 자동 분할한 후 유창, 막힘, 연장, 반복 등의 라벨을 부여하였다. 또한 MFCCs(mel frequency cepstral coefficients)를 추출하여 CNN 알고리즘을 기반한 말더듬 자동 식별기 모델을 수립하고자 하였다. 연장의 경우 수집결과가 5건으로 나타나 식별기 모델에서 제외하였다. 검증 결과, 정확도는 0.96으로 나타났고, 분류성능인 F1-score는 '유창'은 1.00, '막힘'은 0.67, '반복'은 0.74로 나타났다. CNN 알고리즘을 기반한 말더듬 자동분류 식별기의 효과를 확인하였으나, 막힘 및 반복유형에서는 성능이 미흡한 것으로 나타났다. 향후 말더듬의 유형별 충분한 데이터 수집을 통해 추가적인 성능 검증이 필요함을 확인하였다. 향후 말더듬 화자의 발화 빅데이터 확보를 통해 보다 신뢰성 있는 말더듬 자동 식별 기술의 개발과 함께 이를 통한 좀 더 고도화된 평가 및 중재 관련 서비스가 창출되기를 기대해 본다.