• 제목/요약/키워드: Speech rate

검색결과 1,242건 처리시간 0.026초

문장 따라말하기에서 말속도, 발화길이 및 통사적 복잡성에 따른 말더듬 아동과 일반아동의 비유창성 비교 (The influences of speech rate, utterance length and sentence complexity of disfluency in preschool children who stutter and children who do not stutter)

  • 김예슬;심현섭
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.53-64
    • /
    • 2021
  • 요구용량 모델에 의하면 말더듬 아동의 비유창성은 외적, 내적 환경에 영향을 받아 나타나는 것으로 알려져 있다. 본 연구의 목적은 외적 환경 중 언어적인 환경(말속도, 발화길이 및 통사적 복잡성)의 변화에 따른 말더듬 아동과 일반아동의 비유창성 차이를 비교 분석하려고 한다. 연구대상은 4-6세 말더듬 아동 9명, 일반아동 9명이었다. 연구 과제로 문장 따라말하기 과제를 실시하여 말더듬 아동과 일반 아동의 비유창성 빈도를 구하였다. 두 그룹의 비유창성 차이를 분석한 결과, 발화길이를 조절했을 때 평균 말속도에서 말더듬 아동은 발화길이와 상관없이 일반 아동보다 비유창성이 더 많이 나타났다. 말속도를 조절 때 말더듬 아동은 빠른 말속도에서 일반아동보다 많은 비유창성을 보였다. 그리고 말속도와 발화길이를 조절했을 시 빠른 말속도에서 말더듬 아동은 발화길이와 상관없이 일반아동보다 높은 비유창성을 보였다. 통사적 복잡성을 조절했을 때는 복문에서 말더듬 아동이 일반아동보다 더 많은 비유창성을 보였다. 말더듬 아동은 말속도, 발화길이 그리고 통사적 복잡성에 따라 비유창성에 영향을 받는 것으로 나타났다. 이는 말더듬 아동은 말운동 조절 그리고 언어처리 능력이 일반아동보다 취약한 것으로 보인다. 따라서 임상에서 말더듬 아동 치료 시 치료사와 부모가 말속도와 발화길이를 아동의 수준에 맞춰 진행하는 것이 중요한 것으로 확인되었다.

자동 입력레벨 조절기의 구현 및 인식 성능 향상 (Implementation of Automatic Microphone Volume Controller and Recognition Rate Improvement)

  • 김상진;한민수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.503-506
    • /
    • 2001
  • 본 논문에서는 마이크 입력레벨 조절기의 구현과 이를 이용한 인식률의 향상을 다룬다. 마이크를 통한 음성 입력이 너무 작거나 너무 크면 인식률에 직접 영향을 미치므로 인식에 적합한 입력레벨로 조절할 필요가 있다. 자동 입력레벨 조절기의 구현을 위해 고려할 사항을 연구했으며, 이를 통해 PC환경의 입력레벨 조절기를 구현했다. 수집된 음성 데이터베이스는 켑스트럼 평균차감법(CMS)을 이용하여 채널왜곡을 보상했으며, 구현된 조절기를 이용하여 실험한 결과, 이용하지 않은 경우에 비해 약 50%의 오인식율을 줄일 수 있었다.

  • PDF

음성파형의 비대칭율을 이용한 음소의 전이구간 검출 (On Detecting the Transition Regions of Phonemes by Using the Asymmetrical Rate of Speech Waveforms)

  • 배명진;이을재;안수길
    • 한국음향학회지
    • /
    • 제9권4호
    • /
    • pp.55-65
    • /
    • 1990
  • 연속음 인식을 위해서는 음성신호의 음성학적 경계를 결정짓는 분할과정이 필요하다. 본 논문에서는 음성신호의 전이구간을 결정하기 위한 파라미터로 한 프레임 내의 비대칭율을 제안하였다. 제안된 그 프레임에서 음성진폭의 변화율을 대별하며, 인근 프레임의 비대칭율과 비교하면 현재의 프레임이 정상상태 혹은 전이영역에 있는지를 구별할 수 있게 해 준다.

  • PDF

모음길이 비율에 따른 발화속도 보상을 이용한 한국어 음성인식 성능향상 (An Improvement of Korean Speech Recognition Using a Compensation of the Speaking Rate by the Ratio of a Vowel length)

  • 박준배;김태준;최성용;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.195-198
    • /
    • 2003
  • The accuracy of automatic speech recognition system depends on the presence of background noise and speaker variability such as sex, intonation of speech, and speaking rate. Specially, the speaking rate of both inter-speaker and intra-speaker is a serious cause of mis-recognition. In this paper, we propose the compensation method of the speaking rate by the ratio of each vowel's length in a phrase. First the number of feature vectors in a phrase is estimated by the information of speaking rate. Second, the estimated number of feature vectors is assigned to each syllable of the phrase according to the ratio of its vowel length. Finally, the process of feature vector extraction is operated by the number that assigned to each syllable in the phrase. As a result the accuracy of automatic speech recognition was improved using the proposed compensation method of the speaking rate.

  • PDF

음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표 (A New Speech Quality Measure for Speech Database Verification System)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.464-470
    • /
    • 2016
  • 본 논문에서는 음성의 특성 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하고 이 시스템의 핵심 기술인 음성 특성 지표 추출 알고리즘을 설명한다. 선행 연구에서는 본 시스템에 필요한 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 인식 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 실험에서는 선행 연구에서 조합에 사용한 이차적인 음성 인식기에서 추출된 음향 모델 확률 값을 GMM(Gaussian Mixture Model) 음향 모델 확률 값으로 대체해 조합함으로써 시스템 구축 시 다른 음성 인식기에 대한 의존성을 감소시킨다.

청각 계통에서의 음성신호처리 (Speech signal processing in the auditory system)

  • 이재혁;심재성;백승화;박상희
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1987년도 한국자동제어학술회의논문집; 한국과학기술대학, 충남; 16-17 Oct. 1987
    • /
    • pp.680-683
    • /
    • 1987
  • The speech signal processing in the auditory system can be analysized based on two representations : Average discharge rate and Temporal discharge pattern. But the average discharge rate representation is restricted by the narrow dynamic range because of the rate saturation and the two tone suppression phenomena, and the temporal discharge pattern representation needs a sophisticate frequency analysis and synchrony measure. In this paper, a simple representation is proposed : using a model considering the interaction of Cochlear fluid-BM movement and a haircell model, the feature of speech signals (formant frequency and pitch of vowels) is easily estimated in the Average Synchronized Rate.

  • PDF

영어 동시발화의 자동 억양궤적 추출을 통한 음향 분석 (An acoustical analysis of synchronous English speech using automatic intonation contour extraction)

  • 이서배
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.97-105
    • /
    • 2015
  • This research mainly focuses on intonational characteristics of synchronous English speech. Intonation contours were extracted from 1,848 utterances produced in two different speaking modes (solo vs. synchronous) by 28 (12 women and 16 men) native speakers of English. Synchronous speech is found to be slower than solo speech. Women are found to speak slower than men. The effect size of speech rate caused by different speaking modes is greater than gender differences. However, there is no interaction between the two factors (speaking modes vs. gender differences) in terms of speech rate. Analysis of pitch point features has it that synchronous speech has smaller Pt (pitch point movement time), Pr (pitch point pitch range), Ps (pitch point slope) and Pd (pitch point distance) than solo speech. There is no interaction between the two factors (speaking modes vs. gender differences) in terms of pitch point features. Analysis of sentence level features reveals that synchronous speech has smaller Sr (sentence level pitch range), Ss (sentence slope), MaxNr (normalized maximum pitch) and MinNr (normalized minimum pitch) but greater Min (minimum pitch) and Sd (sentence duration) than solo speech. It is also shown that the higher the Mid (median pitch), the MaxNr and the MinNr in solo speaking mode, the more they are reduced in synchronous speaking mode. Max, Min and Mid show greater speaker discriminability than other features.

한국어에서의 성인과 유아의 음성 인식 비교 (Comparison of Adult and Child's Speech Recognition of Korean)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.138-147
    • /
    • 2011
  • 현재 한국의 음성 데이터베이스 구축 현황을 살펴보면 유아에 맞춰진 음성 데이터베이스는 구축이 되지 않은 실정이다. 국외 연구를 분석한 결과, 다양한 언어를 기반으로 유아 대상의 음성 데이터베이스가 구축되어 있다. 이는 성인의 음성과 유아의 음성은 언어학적으로 차이가 있기 때문에 유아는 유아에 맞는 음성 데이터베이스가 필요하다. 한국어에서 성인과 유아의 음성 차이를 알아보기 위해, HMM을 이용하여 유아와 성인의 음성인식을 비교하였다. 유아와 성인의 음성인식 비교는 성별, 나이별, 성도 길이 정규화의 적용 유무에 따라 실험한다. 본 논문에서는 한국어에서 유아의 음성을 유아의 음성인식기로 인식했을 때가 성인의 음성인식기로 인식했을 때 보다 월등히 인식률이 높았으며, 성도 길이 정규화의 적용이 인식률 향상에 도움이 되고 있음을 보여준다.

무선랜 환경에서 AMR 음성부호화기를 적용한 VoIP 전송 실험 (Experiment of VoIP Transmission with AMR Speech Codec in Wireless LAN)

  • 신혜정;배건성
    • 음성과학
    • /
    • 제11권4호
    • /
    • pp.67-73
    • /
    • 2004
  • Packet loss, jitter, and delay in the Internet are caused mainly by the shortage of network bandwidth. It is due to queuing and routing process in the intermediate nodes of the packet network. In the Internet whose bandwidth is changing very rapidly in time depending on the number of users and data traffic, controlling the peak transmission bit-rate of a VoIP. system depending on the channel condition could be very helpful for making use of the available network bandwidth. Adapting packet size to the channel condition can reduce packet loss to improve the speech quality. It has been shown in [1] that a VoIP system with an AMR speech codec provides better speech quality than VoIP systems with fixed rate speech codecs. With the adaptive codec mode assignment. algorithm proposed in [1], in this paper, we performed the voice transmission experiments using the wireless LAN through the real Internet environment. Experimental results are analyzed and discussed with our findings.

  • PDF

통계적 스펙트럼 이퀄라이저를 이용한 저 비트율 음성부호화기의 명료도 향상 (Intelligibility Improvement of Low Bit-Rate Speech Coder Using Stochastic Spectral Equalizer)

  • 이정훈;윤덕규;최승호
    • 한국통신학회논문지
    • /
    • 제41권10호
    • /
    • pp.1183-1185
    • /
    • 2016
  • 디지털 음성통신에서의 저 비트율 음성부호화기는 음성발성모델의 파라미터를 사용하여 음성을 합성한다. 이 경우, 파라미터에 할당된 비트가 매우 한정적이기 때문에 합성된 음성의 스펙트럼이 크게 왜곡될 수 있으며, 이는 명료도 저하의 요인이 된다. 본 논문에서는 통계적 스펙트럼 이퀄라이저를 이용한 명료도 향상 기법을 제안한다. 본 기법은 각각의 음성부호화기별로 원음과 합성음의 스펙트럼 비율을 이용하여 통계적으로 가중치 벡터를 구하며, 이를 합성 음성에 적용한다. 객관적인 음성명료도 평가 실험을 통해, 제안한 기법이 기존의 방법보다 성능이 우수함을 확인하였다.