• Title/Summary/Keyword: 음성지표

Search Result 225, Processing Time 0.027 seconds

A New Speech Quality Measure for Speech Database Verification System (음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표)

  • Ji, Seung-eun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.3
    • /
    • pp.464-470
    • /
    • 2016
  • This paper presents a speech recognition database verification system using speech measures, and describes a speech measure extraction algorithm which is applied to this system. In our previous study, to produce an effective speech quality measure for the system, we propose a combination of various speech measures which are highly correlated with WER (Word Error Rate). The new combination of various types of speech quality measures in this study is more effective to predict the speech recognition performance compared to each speech measure alone. In this paper, we increase the system independency by employing GMM acoustic score instead of HMM score which is obtained by a secondary speech recognition system. The combination with GMM score shows a slightly lower correlation with WER compared to the combination with HMM score, however it presents a higher relative improvement in correlation with WER, which is calculated compared to the correlation of each speech measure alone.

Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance (효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표)

  • Ji, Seung-eun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.12
    • /
    • pp.2291-2297
    • /
    • 2017
  • This paper describe to extract speech measure algorithm for evaluating a speech database, and presents generating method of a speech quality measure using DNN(Deep Neural Network). In our previous study, to produce an effective speech quality measure, we propose a combination of various speech measures which are highly correlated with WER(Word Error Rate). The new combination of various types of speech quality measures in this study is more effective to predict the speech recognition performance compared to each speech measure alone. In this paper, we describe the method of extracting measure using DNN, and we change one of the combined measure from GMM(Gaussican Mixture Model) score used in the previous study to DNN score. The combination with DNN score shows a higher correlation with WER compared to the combination with GMM score.

Speech Recognition Accuracy Prediction Using Speech Quality Measure (음성 특성 지표를 이용한 음성 인식 성능 예측)

  • Ji, Seung-eun;Kim, Wooil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.3
    • /
    • pp.471-476
    • /
    • 2016
  • This paper presents our study on speech recognition performance prediction. Our initial study shows that a combination of speech quality measures effectively improves correlation with Word Error Rate (WER) compared to each speech measure alone. In this paper we demonstrate a new combination of various types of speech quality measures shows more significantly improves correlation with WER compared to the speech measure combination of our initial study. In our study, SNR, PESQ, acoustic model score, and MFCC distance are used as the speech quality measures. This paper also presents our speech database verification system for speech recognition employing the speech measures. We develop a WER prediction system using Gaussian mixture model and the speech quality measures as a feature vector. The experimental results show the proposed system is highly effective at predicting WER in a low SNR condition of speech babble and car noise environments.

The Evaluation of Changes Of Acoustic Parameters With Aging by the Multi-Dimensional Acoustic Analysis (다차원음향분석을 이용한 연령변화에 따른 음향지표의 변화)

  • 김형태;김민식;조승호
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.77-77
    • /
    • 1996
  • 성대구조는 연령변화에 따라 조직학적인 변화가 일어나게 된다. 이에 따른 음성의 노화현상을 알아보고자 Multi-Dimensional Voice Program(Model 4305, Kay Elemetrics Corp, USA)을 이용하여 모든 연령층에서 정상적인 목소리와 성대에 병변이 없는 300명(남자141명, 여자159명)을 대상으로 다차원음향분석 지표의 연령변화에 따른 양적변화를 측정하여 연령에 따른 음향분석지표의 정상기준치와 음성지표의 연령별 변화를 밝혀내려 하였다. (중략)

  • PDF

단기간 기관내 삽관전, 후 음성지표의 측정

  • 서영일;남순열
    • Proceedings of the KOR-BRONCHOESO Conference
    • /
    • 1997.04a
    • /
    • pp.116-116
    • /
    • 1997
  • 배경 및 목적: 전신마취를 위하여 시행한 기관내 삽관은 삽관튜브와 성대내면의 접촉에 의한 압력과 마찰로 후두 미세한 손상을 주게된다. 저자들은 단기간 기관내 삽관 전,후의 음성분석을 통하여 손상의 유무와 회복을 측정할 수 있는 객관적인 음성지표를 찾아보고자 하였다. 대상 및 방법: 만성 중이염 수술시 전신마취를 목적으로 경구기관 튜브를 거치한 성인 남자 10명과 여자 15명 환자를 대상으로 수술 1일전과 술후 24시간 후 각각 "a"음을 연장 발성시켜 CSL 4300B (KAY elemetrics Corp)의 MDVP(multidimensional voice program)을 이용하여 harmonic to noise ratio(NHR), Jitter, Shimmer, Fundamental frequency를 측정 비교하였다. 결 과: 남녀 모두에서 Jitter, Shimmer는 각각 평균 0.70%에서 1.06%, 1.92%에서2.28%로 증가되는 경향을 보였으나 통계학적 유의성은 없었다. Fundamental frequency는 여자에서 평균 220Hz에서 221Hz로 남자는 125Hz에서 128Hz로 변화를 보이지 않았고 harmonic to noise ratio(NHR)또한 평균 0.11로 수술 전, 후 변화를 관찰할 수 없었다. 결 론: 이상의 결과로 2내지 6시간의 단기간 삽관으로 인한 성대의 손상은 경미하여 24시간 이내에 회복되는 것으로 판단된다. 향후 6시간 이상의 기관내삽관이나 수일이상의 장기간 삽관후의 음성지표의 측정등의 연구가 필요할 것으로 사료된다.

  • PDF

Speech Recognition of Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' based on Volatility and Turning Points (변동성과 전환점에 기반한 한국어 음소 'ㅅ', 'ㅈ', 'ㅊ' 음성 인식)

  • Lee, Jae Won
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.11
    • /
    • pp.579-585
    • /
    • 2014
  • A phoneme is the minimal unit of speech, and it plays a very important role in speech recognition. This paper proposes a novel method that can be used to recognize 'ㅅ', 'ㅈ', and 'ㅊ' among Korean phonemes. The proposed method is based on a volatility indicator and a turning point indicator that are calculated for each constituting block of the input speech signal. The volatility indicator is the sum of the differences between the values of each two samples adjacent in a block, and the turning point indicator is the number of extremal points at which the direction of the increment or decrement of the values of the sample are inverted in a block. A phoneme recognition algorithm combines the two indicators to finally determine the positions at which the three target phonemes mentioned above are recognized by utilizing optimized thresholds related with those indicators. The experimental results show that the proposed method can markedly reduce the error rate of the existing methods both in terms of the false reject rate and the false accept rate.

Effects of Aging and Smoking on Acoustic Characteristics of Voice (노화와 흡연에 따른 음성 변화의 측정)

  • 남의철;남순열;이광선
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.75-75
    • /
    • 1996
  • 노화와 흡연에 따른 음성의 변화에 대하여 객관적인 음향 지표들을 측정함으로써, 노화와 흡연에 따른 정상적인 음성의 변화와 질병에 기인한 변화를 감별하는 지표를 제시하고자 본 연구를 시행하였다. 정상의 발성기관과 청력을 가진 20세 이상의 성인으로, 60세 이상군과 35세 이하군으로 남녀 각각 30명을 대상으로 CSL50-MDVP(Computerized Speech Lab50-Multidimensional voice program)을 이용하여 기본 주파수(Fundamental frequency), jitter, shimmer, NHR(Noise to harmonic ratio)을 측정하였다. (중략)

  • PDF

Acoustic Parameter for an Objective Assessment of Breathiness : The Significance of Voice Turbulance Index(VTI) (기식성 애성 판정을 위한 객관적 음향지표 : VTI(Voice Turbulance Index)의 유용성)

  • 김형태;김민식;조승호
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.78-78
    • /
    • 1996
  • 기식성 애성을 객관적으로 평가할 수 있는 음향지표는 아직 많은 연구가 되어 있지 않고 단지 청각심리검사에 의존하고 있는 실정이다. 본 저자들은 컴퓨터음향분석의 한 지표로서 기식성 애성에 대한 객관적인 음향지표로 이용될 수 있는 Multi-Dimensional Voice Program(mode1 4305, Kay Elemtrics Corp, USA)의 VTI(voice turbulance index)를 정상인과 성대병변 환자에서 비교 분석함으로써 기식성 애성의 객관적인 음향지표로서의 유용성을 확인하고자 하였다. (중략)

  • PDF

Phoneme Segmentation based on Volatility and Bulk Indicators in Korean Speech Recognition (한국어 음성 인식에서 변동성과 벌크 지표에 기반한 음소 경계 검출)

  • Lee, Jae Won
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.10
    • /
    • pp.631-638
    • /
    • 2015
  • Today, the demand for speech recognition systems in mobile environments is increasing rapidly. This paper proposes a novel method for Korean phoneme segmentation that is applicable to a phoneme based Korean speech recognition system. First, the input signal constitutes blocks of the same size. The proposed method is based on a volatility indicator calculated for each block of the input speech signal, and the bulk indicators calculated for each bulk in blocks, where a bulk is a set of adjacent samples that have the same sign as that of the primitive indicators for phoneme segmentation. The input signal vowels, voiced consonants, and voiceless consonants are sequentially recognized and the boundaries among phonemes are found using three devoted recognition algorithms that combine the two types of primitive indicators. The experimental results show that the proposed method can markedly reduce the error rate of the existing phoneme segmentation method.

Effect of Radiation Therapy on Voice Parameters in Early Layngeal Cancer and Normal Larynx (방사선요법이 초기 후두암 및 정상후두의 음성지표에 미치는 영향)

  • 박한종;이인자;박영학;김민식;조승호
    • Proceedings of the KSLP Conference
    • /
    • 1994.06b
    • /
    • pp.88-88
    • /
    • 1994
  • 초기후두암에 대한 방사선요법은 수술적 치료에 비하여 정상 후두기능 즉 발성 기능을 최대 한 보존할 수 있는 장점이 있다. 그러나 방사선 치료법은 병적 혹은 정상 후두조직에 섬유화, 점막부종 혹은 점액선 간소등의 변영을 초래할 수 있기 때문에 어느 정도의 음성장애를 유발하게 된다. 방사선요법이 후두의 발성기능에 미치는 영향을 알아보기 위하여 초기후두암 환자와 두경부암으로 인하여 정상후두에 방사선 조사를 받았던 환자 및 정상대조군 각 20명에 대하여 음향 및 공기역학적 음성검사를 시행하여 음성장애의 특성을 비교, 검토하였다. 초기 후두암 환자들에게 사는 방사선 치료 후 음성지표들이 관찰되었고, 정상후두에는 큰 영향을 미치지 않았다. (중략)

  • PDF