• Title/Summary/Keyword: 음성 에너지 파라미터

Search Result 39, Processing Time 0.022 seconds

A Study on the Endpoint Detection Algorithm Based on a Modified Teager Energy (변형된 Teager 에너지에 기초한 음성끝점검출 알고리듬에 관한 연구)

  • 이재한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.407-410
    • /
    • 1998
  • 본 논문에서는 변형된 Teager 에너지를 이용하여 음성의 끝점을 검출하는 알고리듬을 제안하였다. 기존의 방법에서는 대부분 음성신호의 에너지와 영교차율을 이용하거나 이 파라미터들과 함께 다른 여러 파라미터들을 사용하여 끝점을 검출하였다. 여러 파라미터들을 사용하는 알고리듬의 경우 계산량이 많아지게 되는데, 이에 비해 본 논문에서는 하나의 파라미터를 이용하기 때문에 계산량이 기존의 알고리듬보다 적다. 그리고 이 알고리듬에서 사용한 변형된 Teager 에너지는 음성신호의 진폭뿐만 아니라 주파수까지 고려한 파라미터이다. 일반적으로 마찰음은 진폭이 작아 검출하기가 어려운데, 본 논문에서는 이러한 마찰음에 대해 실험을 했고, 그 결과를 통해 제안한 알고리듬이 기존의 다른 여러 알고리듬보다 성능이 우수하다는 것을 확인할 수 있었다.

  • PDF

A Voice Boundary Detection Method Using Dynamic Parameters Based On Neural Network (신경망 기반의 동적 파라미터들을 이용한 음성 경계 추출)

  • 마창수;김계영;최형일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.616-618
    • /
    • 2002
  • 본 논문에서는 음성인식 성능을 높이기 위한 기본적 단계인 음성과 비음성 부분의 경계를 추출하는 음성 경계 추출 방법을 제안한다. 음성경계 추출을 위한 특징들로는 시간영역 분할 파라미터인 ZCR, MA를 사용하고 주파수 영역 분할 파라미터로 주파수 대역 파워 에너지 (Frequency band power energy), 포만트 계수 (Formant coefficient)를 사용하였고 각 파라미터들을 이용하여 음성 경계를 결정할 때 경험에 의해 임계치를 결정하는 단점을 보안하기 위해서 신경망을 이용한다. 신경망의 가중치와 임계치들은 지도 학습을 통해 최적화 되고, 학습을 통해 구성된 망을 음성과 비음성의 경계치 구분에 사용한다.

  • PDF

Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter (음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상)

  • Oh, Sang-Yeob
    • Journal of Digital Convergence
    • /
    • v.13 no.10
    • /
    • pp.313-318
    • /
    • 2015
  • A traditional speech enhancement methods distort the sound spectrum generated according to estimation of the remaining noise, or invalid noise is a problem of lowering the speech recognition performance. In this paper, we propose a speech detection method that convergence the sound energy distribution process and sound energy parameters. The proposed method was used to receive properties reduce the influence of noise to maximize voice energy. In addition, the smaller value from the feature parameters of the speech signal The log energy features of the interval having a more of the log energy value relative to the region having a large energy similar to the log energy feature of the size of the voice signal containing the noise which reducing the mismatch of the training and the recognition environment recognition experiments Results confirmed that the improved recognition performance are checked compared to the conventional method. Car noise environment of Pause Hit Rate is in the 0dB and 5dB lower SNR region showed an accuracy of 97.1% and 97.3% in the high SNR region 10dB and 15dB 98.3%, showed an accuracy of 98.6%.

Nasal Place Detection with Acoustic Phonetic Parameters (음향음성학 파라미터를 사용한 비음 위치 검출)

  • Lee, Suk-Myung;Choi, Jeung-Yoon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.31 no.6
    • /
    • pp.353-358
    • /
    • 2012
  • This paper describes acoustic phonetic parameters for detecting nasal place in a knowledge-based speech recognition system. Initial acoustic phonetic parameters are selected by studying nasal production mechanisms which are radiation of the sound through the nasal cavity. Nasals are produced with differing articulatory configuration which can be classified by measuring acoustic phonetic parameters such as band energy ratio, band energy differences, formants and formant differences. These acoustic phonetic parameters were tested in a classification experiment among labial nasal, alveolar nasal and velar nasal. An overall classification rate of 57.5% is obtained using the proposed acoustic phonetic parameters on the TIMIT database.

Real-Time Recognition of the Korean Spingle Vowels Using the Speech Spectrum Anaysis (음성 스펙트럼 분석에 의한 한국어 단모음 실시간 인식)

  • 김엄준;성미영
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.226-231
    • /
    • 1998
  • 본 연구에서는 짧은 시간에 계산이 가능하며, 음성을 특징 지울 수 있는 파라미터로서 영 교차율(zero crossing rate), 단 구간 에너지(short-term, energy) 그리고 포만트(formant)를 사용하였다. 특정 화자의 음성을 입력 받아서 단모음인 'ㅏ, ㅐ, ㅓ, ㅔ, ㅗ, ㅜ, ㅡ. ㅣ'에 대한 인식을 위해 위의 세가지 파라미터를 측정하였다. 영 교차율과 단 구간 에너지 파라미터는 유성음과 무성음의 구별과 음성인지 아닌지를 판별하는데 사용하였다. 포만트 파라미터는 10차 켑스트럼(cepstrum)을 이용하여 구하였으며, 각 단모음을 판별하기 위해서 사용하였다. 하나의 단모음을 입력받아 처리하여 텍스트로 출력하는데 평균 0.065sec에 처리하며, 각각의 단모음에 대해 93%, 10개의 테스트 문장에 대해 72%의 인식률을 보이고 있다.

  • PDF

Speech Active Interval Detection Method in Noisy Speech (잡음음성에서의 음성 활성화 구간 검출 방법)

  • Lee, Kwang-Seok;Choo, Yeon-Gyu;Kim, Hyun-Deok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.10a
    • /
    • pp.779-782
    • /
    • 2008
  • It is important to detect speech active interval from Noisy Speech in speech communication and speech recognition. In this research, we propose characteristic parameter with combining spectral Entropy for detect speech active interval in Noisy Speech, and compare performance of speech active interval based on energy. The results shows that analysis using proposed characteristic parameter is higher performance the others in noisy environment.

  • PDF

An Automatic Diphone Segmentation for Korean Speech Synthesis-by-Rule (한국어 규칙 합성을 위한 다이폰의 자동 추출)

  • 정인종;경연정;김한우;이양희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.2E
    • /
    • pp.63-72
    • /
    • 1993
  • 본 논문에서는 무제한 음성 생성을 위한 단위음성으로서의 다이폰을 2음절 자연음성으로부터 자동 추출하는 알고리즘을 제안한다. 입력음성을 개량 켑스트럼 파라미터로 분석하여 이로부터 다이폰 추출 파라미터들을 도출한다. 제안된 파라미터로는 에너지 레벨을 나타내는 0차 켑스트럼의 동적변화량, 스펙트럼의 시간 변화량 영교차율, 캡스트럼의 유클리디안 거리이다. 스펙트럼 포락의 변화가 완만한 모음 연쇄등의 음소 경계를 보다 효율적으로 검출하기 위해 스펙트럼의 시간 변화를 미세부분과 개형부분으로 나누어 각각을 파라미터로 사용한다. VV(모음연쇄), VCV(C: 반모음, 자음), VCCV형들로 이루어진 2음절 단어들에 대해 실험한 결과, 모음연쇄 등이 포함되어 있음에도 약 85% 정확도의 음소경계검출을 얻었다. 본 논문에 의한 다이폰을 이용한 합성음의 청취실험 결과 명료도가 높음을 확인하였다.

  • PDF

Fast Speech Recognition System using Classification of Energy Labeling (에너지 라벨링 그룹화를 이용한 고속 음성인식시스템)

  • Han Su-Young;Kim Hong-Ryul;Lee Kee-Hee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.9 no.4 s.32
    • /
    • pp.77-83
    • /
    • 2004
  • In this paper, the Classification of Energy Labeling has been proposed. Energy parameters of input signal which are extracted from each phoneme are labelled. And groups of labelling according to detected energies of input signals are detected. Next. DTW processes in a selected group of labeling. This leads to DTW processing faster than a previous algorithm. In this Method, because an accurate detection of parameters is necessary on the assumption in steps of a detection of speeching duration and a detection of energy parameters, variable windows which are decided by pitch period are used. A pitch period is detected firstly : next window scale is decided between 200 frames and 300 frames. The proposed method makes it possible to cancel an influence of windows and reduces the computational complexity by $25\%$.

  • PDF

Voiced/Unvoiced/Silence Classification of Speech Signal Using Wavelet Transform (웨이브렛 변환을 이용한 음성신호의 유성음/무성음/묵음 분류)

  • 손영호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.449-453
    • /
    • 1998
  • 일반적으로 음성신호는 파형의 특성에 따라 파형이 준주기적인 유성음과 주기성 없이 잡음과 유사한 무성음 그리고 배경 잡음에 해당하는 묵음의 세 종류로 분류된다. 기존의 유성음/무성음/묵음 분류 방법에서는 피치정보, 에너지 및 영교차율 등이 분류를 위한 파라미터로 널리 사용되었다. 본 논문에서는 음성신호를 웨이브렛 변환한 신호에서 스펙트럼상에서이 변화를 파라미터로 하는 유성음/무성음/묵음 분류 알고리즘을 제안하고 제안된 알고리즘으로 검출한 결과와 이에 따른 문제점을 검토하였다.

  • PDF

A Study on the Automatic Recognition of Korean Basic Spoken Digit Using Energy of Special Bandwidth (특정 대역 에너지를 이용한 한국어 기본 수자 음성의 백동 인식에 관한 연구)

  • Han, Hee;Kim, Soon-Hyob;Park, Kyu-Tae
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.19 no.3
    • /
    • pp.5-12
    • /
    • 1982
  • Through the use of energy ratio of special bandwidths of basic vowels, recognition of Korean basic spoken digit is performed in logical combination with a zero-crossing rate and an energy parameter. In the experiments for recognition of the digits, the speech signal of spoken digits is filtered by a lowpass filter of which the cutoff frequency is 10KHz, and then sampled at 20KHz of sampling rate, In the speech signal processing, we used four FIR digital filters, and the order of filter lengths is 61, 120, 25, 25respectively. The filters are designed by using Remetz exchange algorithm.[13],[14] As a result, the recognition rate of 92% for the three speakers is obstained.

  • PDF