• 제목/요약/키워드: Speech signal analysis

검색결과 275건 처리시간 0.035초

훈련음성 데이터에 적응시킨 필터뱅크 기반의 MFCC 특징파라미터를 이용한 전화음성 연속숫자음의 인식성능 향상에 관한 연구 (A study on the recognition performance of connected digit telephone speech for MFCC feature parameters obtained from the filter bank adapted to training speech database)

  • 정성윤;김민성;손종목;배건성;강점자
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.119-122
    • /
    • 2003
  • In general, triangular shape filters are used in the filter bank when we get the MFCCs from the spectrum of speech signal. In [1], a new feature extraction approach is proposed, which uses specific filter shapes in the filter bank that are obtained from the spectrum of training speech data. In this approach, principal component analysis technique is applied to the spectrum of the training data to get the filter coefficients. In this paper, we carry out speech recognition experiments, using the new approach given in [1], for a large amount of telephone speech data, that is, the telephone speech database of Korean connected digit released by SITEC. Experimental results are discussed with our findings.

  • PDF

스펙트럼 변이를 이용한 Soft Decision 기반의 음성향상 기법 (Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation)

  • 최재훈;장준혁;김남수
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.222-228
    • /
    • 2010
  • 본 논문에서는 비정상적인 배경 잡음 환경에서 음성향상을 위한 신호의 스펙트럼 변이 (Spectral Deviation)을 적용한 Soft Decision 기반의 잡음전력 수정 기법을 제안한다. 기존의 Soft Decision 기반의 잡음전력 추정에 있어서 잡음신호의 정상성(Stationarity)을 가정한 스무딩 파라미터를 사용하여 잡음전력을 추정하고 갱신하였지만, 잡음신호의 주파수적인 특성이 상대적으로 빠르게 변하는 비정상적인 환경에서는 강인하지 못한 단점을 가지게 된다. 본 논문에서는 신호의 스펙트럼 변이를 추정하여 정상적인 잡음 환경과 비정상적인 잡음 환경에 따라 적응적으로 잡음전력을 추정하고 갱신하여 잡음신호에 의해 오염된 음성신호를 향상시킨다. 제안된 알고리즘은 다양한 배경 잡음 환경에서 객관적인 음질측정 방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ)에 의해서 평가되었으며, 기존의 Soft Decision 기반의 음성 향상 기법과 비교하여 보다 향상된 성능을 보여주었다.

정서정보의 변화에 따른 음성신호의 특성분석에 관한 연구 (Analysis of Speech Signals According to the Various Emotional Contents)

  • 조철우;조은경;민경환
    • 한국음향학회지
    • /
    • 제16권3호
    • /
    • pp.33-37
    • /
    • 1997
  • 본 논문은 정서정보를 포함하여 수집된 음성자료를 여러 가지 신호처리 방법으로 분석한 결과에 대하여 기술하고 있다. 정서정보를 포함한 음성은 연극배우로부터 수집하였으며 분석은 주로 피치정보의 변화와 지속시간을 중심으로 행하였다. 수집된 음성에 대한 분석결과 정서정보의 변화에 따른 음성 파라미터의 변화치를 얻을 수 있었으며 이 실험은 앞으로의 정서음성정보의 분석에 필요한 기초적 실험으로 의의가 있다.

  • PDF

한국어 낭독체 문장의 음향분석 -바람과 햇님의 운율구 생성을 중심으로- (The Acoustic Analysis of Korean Read Speech - with respect to the prosodic phrasing -)

  • 성철재
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 2월 학술대회지
    • /
    • pp.157-172
    • /
    • 1996
  • This study aims to suggest some theoretical methodology for analysis of the prosodic patterns in Korean Read Speech. The engineering effort relevant to the phonetic study has focused to the importance of prosodic phrasing which may play a major role in analyzing the phonetic DB. Before establishing the prosodic phrase as the prosodic unit, we should describe the features of the boundary signal in a target sentence. With this in mind, the general characteristics of Read Speech and the ToBI(tones and Break Indices), which has been currently in vogue with respect to the prosodic labelling system were presented as the first step. The concrete analysis was carried out with the fable 'North Wind and the Sun' Korean version, where about 25 prosodic units were discriminated by perceptual approach for 5 subjects. Establishing various informations which can be used for deciding a boundary position systematically, we can proceed to the next, viz. acoustic analysis of prosodic unit. The most important which we primarily study for improving the naturalness of synthetic speech may be, at first, detecting the boundary signals in the speech file and accordingly reestablishment it within the raw text.

  • PDF

독립성분분석을 이용한 강인한 음성인식 (Robust Speech Recognition Using Independent Component Analysis)

  • 임형규;이창기
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권2호
    • /
    • pp.269-274
    • /
    • 2004
  • 기존 음성 인식의 실세계 적용에서 큰 문제점은 잡음이다. 본 논문에서는 잡음이 섞인 음성 신호로부터 잡음 성분을 분리해 내는 방법을 제안한다. 이 방법은 잡음이 섞인 음성 신호에 독립성분분석(ICA:Independent Component Analysis)을 사용한 암묵신호 분리(blind source separation)를 적용하여 잡음 성분을 제거하게 된다. 잡음이 혼합된 음성 신호에 독립성분분석을 전처리(preprocessing) 과정에 이용함으로써 인식성능을 향상시킬 수 있다. 깨끗한 음성 신호에 음악과 거리잡음을 섞었을 경우 인식률이 잡음 없는 음성의 인식률보다 각각 최대 14.98%, 13.78%까지 저하되었다. 그러나 독립성분분석으로 복원된 음성의 경우 잡음 없는 음성의 인식률 수준(각각 97.39%, 96.49%)으로 나타났으며, 독립성분분석을 이용한 음성의 잡음 제거가 인식률 향상에 좋은 결과를 가져옴을 확인 할 수 있다.

  • PDF

음성부호화 방식에 있어서 FIR-STREAK 필터를 사용한 개별 피치펄스에 관한 연구 (A Study on Individual Pitch Pulse using FIR-STREAK Filter in Speech Coding Method)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.65-70
    • /
    • 2004
  • 본 연구에서는 음성부호화 방식에서 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별 피치펄스 추출법을 제안하였다. 개별피치 펄스의 추출율은 남자음성에서 $96\%$, 여자음성에서 $85\%$를 얻을 수 있었으며, 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식 등에 활용할 수 있을 것으로 기대된다.

  • PDF

ZINC 함수 여기신호를 이용한 분석-합성 구조의 초 저속 음성 부호화기 (Very Low Bit Rate Speech Coder of Analysis by Synthesis Structure Using ZINC Function Excitation)

  • 서상원;김영준;김종학;김영주;이인성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.349-350
    • /
    • 2006
  • This paper presents very low bit rate speech coder, ZFE-CELP(ZINC Function Excitation-Code Excited Linear Prediction). The ZFE-CELP speech codec is based on a ZINC function and CELP modeling of the excitation signal respectively according to the frame characteristic such as a voiced speech and an unvoiced speech. And this paper suggest strategies to improve the speech quality of the very low bit rate speech coder.

  • PDF

Implementation of Noise Reduction Methodology to Modal Distribution Method

  • Choi, Myoung-Keun
    • 한국해양공학회지
    • /
    • 제25권2호
    • /
    • pp.1-6
    • /
    • 2011
  • Vibration-based Structural Health Monitoring (SHM) systems use field measurements of operational signals, which are distorted by noise from many sources. Reducing this noise allows a more accurate assessment of the original "clean" signal and improves analysis results. The implementation of a noise reduction methodology for the Modal Distribution Method (MDM) is reported here. The spectral subtraction method is a popular broadband noise reduction technique used in speech signal processing. Its basic principle is to subtract the magnitude of the noise from the total noisy signal in the frequency domain. The underlying assumption of the method is that noise is additive and uncorrelated with the signal. In speech signal processing, noise can be measured when there is no signal. In the MDM, however, the magnitude of the noise profile can be estimated only from the magnitude of the Power Spectral Density (PSD) at higher frequencies than the frequency range of the true signal associated with structural vibrations under the additional assumption of white noise. The implementation of the spectral subtraction method to MDM may decrease the energy of the individual mode. In this work, a modification of the spectral subtraction method is introduced that enables the conservation of the energies of individual modes. The main difference is that any (negative) bars with a height below zero after subtraction are set to the absolute value of their height. Both noise reduction methods are implemented in the MDM, and an application example is presented that demonstrates its effectiveness when used with a signal corrupted by noise.

TMS320C6201을 이용한 적응 다중 전송율을 갖는 광대역 음성부호화기의 실시간 구현 (Real-Time Implementation of Wideband Adaptive Multi Rate (AMR-WB) Speech Codec Using TMS32OC6201)

  • 이승원;배건성
    • 한국통신학회논문지
    • /
    • 제29권9C호
    • /
    • pp.1337-1344
    • /
    • 2004
  • 본 논문에서는 적응 다중 전송율을 갖는 광대역 음성부호화기인 AMR-WB 의 알고리즘을 분석하고, TI사의 고정소수점 DSP인 TMS320C6201를 이용한 실시간 구현 결과를 제시한다. AMR-WB 음성부호화기는 두 가지 대 역으로 분리된 신호가 독립적으로 부호화되며, 저대역 신호는 ACELP 방식으로、 고대역 신호는 잡음 여기신호와 선형예측 합성필터를 사용하는 방식으로 각각 합성된다. 구현된 AMR-WB 음성부호화기는 프로그램 메모리와 데이터 메모리가 각각 218 kbytes, 92kbytes의 크기를 가지며 , 한 프레임인 20 ms를 처리하는데 평균 920,267 정도의 클릭 수가 사용되어 약 5.75 ms의 시간이 소요 되였다. 또한, DSP로 구현한 AMR-WB 음성부호화기의 결과와 PC에서 시뮬레이션 한 결과가 서로 일치함을 확인하였다.

교실에서 신호대잡음비 변이가 한국어 음성명료도에 미치는 영향 (Influence of SNR difference on the Korean speech intelligibility in classrooms)

  • 박찬재;조성민;한찬훈
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.651-660
    • /
    • 2019
  • 본 연구는 소음 환경에서 화자의 음성 레벨이 어느 정도일 때 한국어에 대한 청자의 음성명료도 변화를 파악하고자 시행되었다. 이를 위해 잔향시간이 다른 교실 환경을 모형화하여 가청화시재를 제작한 후 피실험자 27명을 대상으로 청감실험을 실시해 음성명료도를 평가하였다. 음성명료도에 대한 평가는 한국어 음성명료도 평가법 중 음절법과 단어법을 이용하였으며 잔향시간과 신호대잡음비를 5dB씩 변화시키면서 정답률의 변화를 관찰하였다. 실험결과 음절법의 경우 신호대잡음비가 커질수록 이에 비례해 음성명료도 평가점수 또한 높아짐을 알 수 있었다. 단어법의 경우 잔향시간이 1.5 s인 경우에는 음성명료도 평가점수가 신호대잡음비와 비례적인 관계를 보이지만, 잔향시간이 0.8 s로 짧은 상황에서는 비례관계를 찾을 수 없었다. 이원변량분석 결과 한국어 음성명료도 평가법 중 음절법과 단어법에 공통적으로 유의한 영향 인자는 신호대잡음비라는 것으로 확인되었다. 따라서, 한국어 교실의 적정 잔향시간 기준인 0.8s 이하를 만족하는 경우 소음에 따른 영향을 제어할 수 있으나, 잔향시간이 기준보다 긴 경우에는 신호대잡음비가 커야만 높은 음성명료도를 확보할 수 있을 것으로 판단된다.