• 제목/요약/키워드: 말소리

검색결과 1,337건 처리시간 0.025초

과제, 성별, 세대에 따른 휴지의 실현 양상 연구 (A realization of pauses in utterance across speech style, gender, and generation)

  • 유도영;신지영
    • 말소리와 음성과학
    • /
    • 제11권2호
    • /
    • pp.33-44
    • /
    • 2019
  • 이 연구의 목적은 한국어의 휴지 실현에 과제, 세대, 성별이라는 변수가 어떠한 영향을 미치는지 살펴보는 것이다. 이를 위해 구어 코퍼스에서 세대, 성별에 따른 총 48명을 선정하여 두 가지 발화 과제 데이터를 분석하였다. 휴지는 발화에서 출현하는 위치와 들숨 동반 여부에 따라 들숨 동반 발화 말 휴지, 들숨 동반 발화 내 휴지, 들숨 비동반 발화 말 휴지, 들숨 비동반 발화 말 휴지로 구분하여 살펴보았고 각각의 빈도와 길이, 그리고 휴지에 영향을 줄 수 있는 다양한 요소들을 함께 살펴보았다. 그 결과 발화 말 휴지 길이가 발화 내 휴지 길이보다 약 160 ms 이상 더 긴 것을 확인하였다. 이는 휴지가 운율적 정규성을 가지며, 발화 말 휴지는 발화의 종결을 신호하는 역할을 체계적으로 수행한다는 것을 의미한다. 자유 발화는 낭독 발화보다 더 긴 휴지가 더 자주 나타나는 것을 확인하였다. 낭독 발화에서는 화자의 즉각적이고 적극적인 발화 계획이 요구되기 때문이다. 성별의 경우 전반적으로 남성은 여성보다 길고 빈번한 휴지를 보였다. 특히 들숨 동반 휴지는 남성이 여성보다 길었다. 세대의 경우 장년층이 청년층보다 더 자주 휴지를 산출했다. 이 밖에도 변수 간 상호 작용 효과가 관찰되었다. 휴지 길이의 성별 차이에 따르면 남성이 여성보다 휴지 길이가 긴데, 이는 특히 발화 말 휴지에서 두드러졌다.

어텐션 기반 엔드투엔드 음성인식 시각화 분석 (Visual analysis of attention-based end-to-end speech recognition)

  • 임성민;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제11권1호
    • /
    • pp.41-49
    • /
    • 2019
  • 전통적인 음성인식 모델은 주로 음향 모델과 언어 모델을 사용하여 구현된다. 이때 음향 모델을 학습시키기 위해서는 음성 데이터에 대한 정답 텍스트뿐만 아니라 음성인식에 사용되는 단어의 발음사전과 프레임 단위의 음소 정답 데이터가 필요하다. 이 때문에 모델을 훈련하기 위해서는 먼저 프레임 단위의 정답을 생성하는 등의 여러 과정이 필요하다. 그리고 음향 모델과 별도의 텍스트 데이터로 훈련한 언어 모델을 적용하여야 한다. 이러한 불편함을 해결하기 위하여 최근에는 하나의 통합 신경망 모델로 이루어진 종단간(end-to-end) 음성인식 모델이 연구되고 있다. 이 모델은 훈련에 여러 과정이 필요없고 모델의 구조를 이해하기 쉽다는 장점이 있다. 하지만 인식이 내부적으로 어떤 과정을 거쳐 이루어지는지 알기 어렵다는 문제가 있다. 본 논문에서는 어텐션 기반 종단간 모델을 시각화 분석하여 내부적인 작동 원리를 이해하고자 하였다. 이를 위하여 BLSTM-HMM 하이브리드 음성인식 모델의 음향 모델과 종단간 음성인식 모델의 인코더를 비교하고, 신경망 레이어 별로 어떠한 차이가 있는지 분석하기 위해 t-SNE를 사용하여 시각화하였다. 그 결과로 음향모델과 종단간 모델 인코더의 차이점을 알 수 있었다. 또한 종단간 음성인식 모델의 디코더의 역할을 언어모델 관점에서 분석하고, 종단간 모델 디코더의 개선이 성능 향상을 위해 필수적임을 알 수 있었다.

음 변화 관점에서 바라본 한국어 어두 폐쇄음의 발화 및 지각 (Production and perception of Korean word-initial stops from a sound change perspective)

  • 김진우
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.39-51
    • /
    • 2021
  • 본고에서는 2020년에 수집된 자유 발화 자료를 바탕으로 어두 폐쇄음 평음, 격음, 경음의 발화가 어떻게 달라지고 있는지 그리고 지각은 어떻게 이루어지고 있는지에 대해 자세히 살펴보았다. 기존 연구의 통제된 실험에서와 다르게, 자유 발화에서는 30대 남성까지도 VOT(voice onset time)에 의해 평음과 격음의 변별이 이루어지지 않았다. 지각실험은 언어 변화의 주도 계층인 젊은 여성 세대를 대상으로 하였다. 그 결과 어두 폐쇄음의 지각에서 F0이 평음과 나머지 둘을 변별하는 역할을 하였고, 그 다음 VOT가 격음과 경음을 변별하는 역할을 하였다. 특히 F0이 낮을 때에는 VOT의 길이가 짧든 길든 간에 항상 평음으로 지각되었다는 점은 평음의 지각에서 F0이 절대적인 역할을 한다는 것을 보여주었다. 그러나 어떤 F0의 경우에는 VOT에 따라 평음과 격음이 변별되기도 하였는데, 이는 20대 여성의 발화와 지각 체계가 일치하지 않기 때문이다. 음 변화의 관점에서 발화와 지각 체계가 일치하지 않는다는 것은 음 변화가 진행 중이라는 것을 의미하는데, 특히 20대 여성에서처럼 발화의 변화가 지각의 변화에 앞서는 경우는 음 변화가 후반 단계에 있을 때이다. 이처럼 언어 변화를 주도하는 계층에서 여전히 지각에서 이전의 체계를 유지하고 있는 이유는 그들의 부모 세대의 발화에서 VOT에 의한 평음과 격음의 변별이 이루어졌기 때문이며 이를 습득한 것이라고 볼 수 있다. 즉 다른 집단과의 소통을 위해 여전히 VOT를 지각에 사용하고 있는 것이다.

Speech cues를 이용한 반복훈련이 뇌성마비 아동의 자음정확도 및 말명료도에 미치는 영향: 단일대상연구 (The effects of repeated speech training using speech cues on the percentage of correct consonants and speech intelligibility in children with cerebral palsy: A single-subject design research)

  • 서새희;정필연;심현섭
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.79-90
    • /
    • 2021
  • 본 연구에서는 단일대상연구로서 speech cues를 이용한 반복훈련이 뇌성마비 아동의 자음정확도 및 말명료도에 미치는 영향에 대해 알아보고자 하였다. 연구에는 만 5-8세의 뇌성마비 아동 3명이 참여하였다. 중재는 한 달간 주 4회, 총 16회기 동안 진행하였으며, 한 회기는 30분으로 구성하였다. 훈련과제는 목표 음소가 포함된 1-2음절의 단어와 2어절의 문장을 speech cues의 두 가지 발화유형인 'Big mouth'와 'Strong voice'로 훈련하였다. 연구 결과, 첫째, 세 아동 모두 자음정확도와 말명료도의 평균이 중재단계에서 증가하였으나, 효과크기는 아동 간 상이하였다. 또한, 자음정확도에 비해 말명료도에서 더 높은 효과가 나타났다. 세 아동 모두 훈련 문항에서 유지 효과도 나타났다. 둘째, 세 아동 모두 비훈련 단어와 문장에서 일반화 효과가 나타났다. 따라서 speech cues를 이용한 반복훈련을 통해 뇌성마비 아동의 자음정확도와 말명료도가 증가된 것을 알 수 있었으며, 임상에서 좀 더 쉽고 간편한 중재로 그 효용성이 있다는 것을 확인하였다.

문장 따라말하기에서 말속도, 발화길이 및 통사적 복잡성에 따른 말더듬 아동과 일반아동의 비유창성 비교 (The influences of speech rate, utterance length and sentence complexity of disfluency in preschool children who stutter and children who do not stutter)

  • 김예슬;심현섭
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.53-64
    • /
    • 2021
  • 요구용량 모델에 의하면 말더듬 아동의 비유창성은 외적, 내적 환경에 영향을 받아 나타나는 것으로 알려져 있다. 본 연구의 목적은 외적 환경 중 언어적인 환경(말속도, 발화길이 및 통사적 복잡성)의 변화에 따른 말더듬 아동과 일반아동의 비유창성 차이를 비교 분석하려고 한다. 연구대상은 4-6세 말더듬 아동 9명, 일반아동 9명이었다. 연구 과제로 문장 따라말하기 과제를 실시하여 말더듬 아동과 일반 아동의 비유창성 빈도를 구하였다. 두 그룹의 비유창성 차이를 분석한 결과, 발화길이를 조절했을 때 평균 말속도에서 말더듬 아동은 발화길이와 상관없이 일반 아동보다 비유창성이 더 많이 나타났다. 말속도를 조절 때 말더듬 아동은 빠른 말속도에서 일반아동보다 많은 비유창성을 보였다. 그리고 말속도와 발화길이를 조절했을 시 빠른 말속도에서 말더듬 아동은 발화길이와 상관없이 일반아동보다 높은 비유창성을 보였다. 통사적 복잡성을 조절했을 때는 복문에서 말더듬 아동이 일반아동보다 더 많은 비유창성을 보였다. 말더듬 아동은 말속도, 발화길이 그리고 통사적 복잡성에 따라 비유창성에 영향을 받는 것으로 나타났다. 이는 말더듬 아동은 말운동 조절 그리고 언어처리 능력이 일반아동보다 취약한 것으로 보인다. 따라서 임상에서 말더듬 아동 치료 시 치료사와 부모가 말속도와 발화길이를 아동의 수준에 맞춰 진행하는 것이 중요한 것으로 확인되었다.

켑스트럼 변수와 랜덤포레스트 알고리듬을 이용한 MTD(근긴장성 발성장애) 여성화자 음성과 정상음성 분류 (Classification of muscle tension dysphonia (MTD) female speech and normal speech using cepstrum variables and random forest algorithm)

  • 윤주원;심희정;성철재
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.91-98
    • /
    • 2020
  • 근긴장성 발성장애(cepstral peak prominence, MTD) 환자의 모음 발성과 문장읽기 과제를 켑스트럼 기반 변수를 이용하여 분석하였으며 음성장애 환자의 GRBAS청지각적 특성과 음향학적 특성의 상관관계를 살펴보고, 랜덤포레스트 머신러닝 분류 알고리듬을 이용한 MTD 감별 진단 가능성을 논의하였다. 내원 시 MTD로 진단받은 여성 36명과 정상음성을 사용하는 여성 36명이 연구에 참여했으며, 수집한 음성샘플은 ADSVTM를 사용하여 분석하였다. 연구 결과, 음향학적 측정치 중 MTD의 CSID(cepstral spectral index of dysphonia)는 대조군보다 높았으며, CPP(cepstral peak prominence), CPP_Fo 값이 대조군보다 유의하게 낮았다. 이는 모음 발성과 읽기 과제에서 모두 동일하게 나타났다. MTD 환자의 음질 특성은 전반적인 음성중증도(G)가 가장 두드러졌으며, 조조성(R), 기식성(B), 노력성(S)순으로 음성 특성을 보였다. 이 특성이 높아질수록 CPP가 감소하는 부적 상관을 보이고, CSID는 증가하는 정적 상관이 관찰되었다. 켑스트럴 변수 중 모음과 문장읽기과제 모두에서 집단간 유의한 차이를 보여준 CPP와 CPP_F0를 이용하여 MTD와 대조군의 음성분류를 시도하였다. 머신러닝 알고리듬인 랜덤포레스트로 모델링한 결과 문장읽기 과제에서 모음연장발성보다 조금 더 높은 분류 정확도(83.3%)가 나왔으며, 모음 발성과 문장 읽기 과제 모두에서 CPP변수가 더 중심적 역할을 수행하였음을 알 수 있었다.

한국어 서울 방언의 평음과 격음 변별 지각에서 연령과 성별에 따른 차이 (Perception of lenis and aspirated stops in Seoul Korean by younger and older male and female listeners)

  • 김제홍;김소안;안주희;남기춘;최지연
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.1-8
    • /
    • 2020
  • 전통적으로 서울 방언의 어두 평음과 격음은 voice onset time(VOT)에 의해 일차적으로 변별된다고 알려져 있다. 그러나 최근 발화 연구에서는 평음과 격음 간 존재하던 VOT값의 차이가 줄어들고 이차적 변별자질이었던 후행 모음의 fundamental frequency(F0)가 평음과 격음을 변별하는 데 일차적 역할을 수행하게 되는 변화가 관찰되고 있다. 본 연구는 산출 영역에서 관찰되는 이와 같은 변화가 지각 영역에서도 관찰되는 지 알아보고자 하였다. 구체적으로, 평음과 격음을 지각할 때 VOT와 F0 변별력을 알아보기 위해 VOT값과 F0값을 10단계로 조작한 음성 자극을 이용하여 식별 과제를 실시하였다. 청년과 노년 남녀를 대상으로 실험을 실시한 결과, 네 집단 모두에서 VOT와 F0가 평음과 격음을 변별하는 데 사용되지만 VOT에 비해 F0의 변별력이 더 큰 것을 확인하였다. 또한, F0 변별력에서는 성별과 연령에 따른 차이가 없었으나 VOT 변별력은 청년여성 집단이 가장 낮고 노년남성 집단이 가장 큰 양상으로 성별 및 연령에 따른 차이를 관찰할 수 있었다. 본 연구는 그동안 주로 발화 연구에서 보고돼오던 평음과 격음 대립의 VOT 및 F0 사용에서의 변화를 지각 영역으로 확대하여 그 양상을 살펴보았다는 점에서 의의가 있다.

자폐스펙트럼장애 아동의 후두 높이 및 음성 특성 (Laryngeal height and voice characteristics in children with autism spectrum disorders)

  • 이정헌;김고운;김성태
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.91-101
    • /
    • 2021
  • 본 연구의 목적은 자폐스펙트럼장애를 가진 아동의 후두 특성을 확인하고자 하였다. 자폐스펙트럼장애로 진단받은 2~4세 아동 8명과 같은 연령의 정상 대조군 42명을 포함하여 총 50명의 아동이 실험에 참여하였다. 모든 아동들은 경추와 후두의 중앙시상면의 X-ray 영상을 촬영하여 두 군의 후두 위치를 비교하였다. 또한 모음 연장발화 시 음성 샘플을 수집하여 음향 매개 변수들을 분석하였다. X-ray 검사 결과, 정상군의 설골 높이는 3세가 가장 낮았으며, 4세에 후두 높이가 상승하였다. 다른 한편으로, 외이도에서 설골까지의 거리는 4세가 가장 긴 것으로 나타났다. 이와는 대조적으로, 모든 연령대의 자폐스펙트럼장애군의 설골 높이는 정상군보다 낮았으며, 연령에 따른 설골 위치의 차이는 없었다. 음향학적 평가 결과, PFR, vFo, vAm은 정상 대조군에 비해 자폐스펙트럼장애군이 통계적으로 유의미하게 높게 나타났다. 결론적으로, 자폐스펙트럼장애 아동들의 낮은 후두 높이는 언어발달의 지연과 관련이 있는 것으로 사료된다. 음향학적 변수들 중 음성 조절기능을 보여주는 PFR, vFo, vAm은 정상 아동과 자폐스펙트럼장애 아동의 음질 차이를 보여주는 voice marker로 생각된다.

음질, 운율, 발음 특징을 이용한 마비말장애 중증도 자동 분류 (Automatic severity classification of dysarthria using voice quality, prosody, and pronunciation features)

  • 여은정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 본 논문은 말 명료도 기준의 마비말장애 중증도 자동 분류 문제에 초점을 둔다. 말 명료도는 호흡, 발성, 공명, 조음, 운율 등 다양한 말 기능 특징의 영향을 받는다. 그러나 대부분의 선행연구는 한 개의 말 기능 특징만을 중증도 자동분류에 사용하였다. 본 논문에서는 음성의 장애 특성을 효과적으로 포착하기 위해 마비말장애 중증도 자동 분류에서 음질, 운율, 발음의 다양한 말 기능 특징을 반영하고자 하였다. 음질은 jitter, shimmer, HNR, voice breaks 개수, voice breaks 정도로 구성된다. 운율은 발화 속도(전체 길이, 말 길이, 말 속도, 조음 속도), 음높이(F0 평균, 표준편차, 최솟값, 최댓값, 중간값, 25 사분위값, 75 사분위값), 그리고 리듬(% V, deltas, Varcos, rPVIs, nPVIs)을 포함한다. 발음에는 음소 정확도(자음 정확도, 모음 정확도, 전체 음소 정확도)와 모음 왜곡도[VSA(vowel space area), FCR (formant centralized ratio), VAI(vowel articulatory index), F2 비율]가 있다. 본 논문에서는 다양한 특징 조합을 사용하여 중증도 자동 분류를 시행하였다. 실험 결과, 음질, 운율, 발음 특징 세 가지 말 기능 특징 모두를 분류에 사용했을 때 F1-score 80.15%로 가장 높은 성능이 나타났다. 이는 마비말장애 중증도 자동 분류에는 음질, 운율, 발음 특징이 모두 함께 고려되어야 함을 시사한다.

뇌성마비 마비말장애 성인의 파찰음 실현 양상 분석 (Acoustic analysis of Korean affricates produced by dysarthric speakers with cerebral palsy)

  • 문지현;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.45-55
    • /
    • 2021
  • 본 연구는 경직형 경도-중등도 뇌성마비 마비말장애 성인이 산출한 한국어 파찰음의 음향학적인 특징을 분석한다. 한국어의 마찰음과 파찰음은 조음오류가 빈번하게 발생하는 자음인데, 기존 연구들은 마찰음에만 집중했다. 따라서 본 연구에서는 마비말장애 화자가 산출한 파찰음을 음향학적으로 분석하고자 한다. QoLT_SPEECH_2014 데이터베이스 내에서 파찰음 /tɕ, tɕh, ͈tɕ/이 어두 초성 및 어중 초성에 위치하는 단어를 선정하여 경도-중등도 경직형 장애 남성 화자 6명과 비장애 남성 화자 5명의 발화 데이터를 분석에 사용하였다. 한국어의 파찰음의 특성을 고려하여 파찰음의 음향학적 특징을 나타내는 매개변수를 선정하여 분석을 시행하였다: 마찰구간의 길이, 묵음 구간의 길이, 무게중심, 분산, 왜도, 첨도, 중심적률. 분석 결과는 다음과 같다: 1) 어중 초성 파찰음에서 마비말장애인이 유의하게 긴 마찰구간의 길이를 보였다, 2) 마비말장애인이 유의하게 긴 묵음 구간의 길이를 보였다, 3) 무게중심의 경우 두 집단 간의 유의한 차이가 존재하지 않았다, 4) 마비말장애인이 유의하게 큰 왜도 값을 보였다, 5) 마비말장애인이 유의하게 큰 중심적률 값을 보였다. 본 연구는 마비말장애인이 산출한 파찰음의 특성을 분석하고, 비장애인이 산출한 파찰음과의 차이를 밝혔다.