• 제목/요약/키워드: automatic prosody evaluation

검색결과 3건 처리시간 0.017초

Building a Sentential Model for Automatic Prosody Evaluation

  • 윤규철
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.47-59
    • /
    • 2009
  • The purpose of this paper is to propose an automatic evaluation technique for the prosodic aspect of an English sentence uttered by Korean speakers learning English. The underlying hypothesis is that the consistency of the manual prosody scoring is reflected in an imaginary space of prosody evaluation model constructed out of the three physical properties of the prosody considered in this paper, namely: the fundamental frequency (F0) contour, the intensity contour, and the segmental durations. The evaluation proceeds first by building a prosody evaluation model for the sentence. For the creation of the model, utterances from native speakers of English and Korean learners for the target sentence are manually scored by either native teachers of English or Korean phoneticians in terms of their prosody. Multiple native utterances from the manual scoring are selected as the "model" native utterances against which all the other Korean learners' utterances as well as the model utterances themselves can be semi-automatically evaluated by comparison in terms of the three prosodic aspects [7]. Each learner utterance, when compared to the multiple model native utterances, produces multiple coordinates in a three-dimensional space of prosody evaluation, each axis of which corresponds to the three prosodic aspects. The 3D coordinates from all the comparisons form a prosody evaluation model for the particular sentence and the associated manual scores can display regions of particular scores. The model can then be used as a predictive model against which other Korean utterances of the target sentence can be evaluated. The model from a Korean phonetician appears to support the hypothesis.

  • PDF

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF

영어 감정발화와 중립발화 간의 운율거리를 이용한 감정발화 분석 (An analysis of emotional English utterances using the prosodic distance between emotional and neutral utterances)

  • 이서배
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.25-32
    • /
    • 2020
  • 본 연구는 영어 발화에 나타난 7가지 감정들(calm, happy, sad, angry, fearful, disgust, surprised)을 분석하고자 감정발화(672개)와 감정중립 발화(48개)와의 운율적 거리를 측정하였다. 이를 위해 외국어 발음평가에 사용되었던 방법을 적용하여 음의 높낮이(Hz), 음의 강도(dB), 음의 길이(sec)와 같은 운율의 3요소를 유클리디언 거리로 계산하였는데 기존연구에서 더 나아가 유클리디언 거리계산 정규화 방법, z-score 방법 그리고 z-score 정규화 방법을 추가해 총 4가지 그룹(sqrF0, sqrINT, sqrDUR; norsqrF0, norsqrINT, norsqrDUR; sqrzF0, sqrzINT, sqrzDUR; norsqrzF0, norsqrzINT, norsqrzDUR)의 방법을 분석에 사용하였다. 그 결과 인지적 측면과 음향적 측면의 분석 모두에서 유클리디언 운율거리를 정규화한 norsqrF0, norsqrINT, norsqrDUR이 일관성 있게 가장 효과적인 측정방법으로 나타났다. 유클리디언 거리계산 정규화 방법으로 감정발화와 감정중립 발화를 비교했을 때, 전반적으로 감정에 따른 운율의 변화는 음의 높낮이(Hz)가 가장 크고 그다음 음의 길이(sec), 그리고 음의 강도(dB)가 가장 작게 나타났다. Tukey 사후검증 결과 norsqrF0의 경우 calm