• 제목/요약/키워드: frame based speech signal processing

검색결과 10건 처리시간 0.022초

Speech Processing System Using a Noise Reduction Neural Network Based on FFT Spectrums

  • Choi, Jae-Seung
    • Journal of information and communication convergence engineering
    • /
    • 제10권2호
    • /
    • pp.162-167
    • /
    • 2012
  • This paper proposes a speech processing system based on a model of the human auditory system and a noise reduction neural network with fast Fourier transform (FFT) amplitude and phase spectrums for noise reduction under background noise environments. The proposed system reduces noise signals by using the proposed neural network based on FFT amplitude spectrums and phase spectrums, then implements auditory processing frame by frame after detecting voiced and transitional sections for each frame. The results of the proposed system are compared with the results of a conventional spectral subtraction method and minimum mean-square error log-spectral amplitude estimator at different noise levels. The effectiveness of the proposed system is experimentally confirmed based on measuring the signal-to-noise ratio (SNR). In this experiment, the maximal improvement in the output SNR values with the proposed method is approximately 11.5 dB better for car noise, and 11.0 dB better for street noise, when compared with a conventional spectral subtraction method.

음성신호의 전폭분포를 이용한 유/무성음 검출에 대한 연구 (The Magnitude Distribution method of U/V decision)

  • 배성근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.249-252
    • /
    • 1993
  • In speech signal processing, The accurate detection of the voiced/unvoiced is important for robust word recognition and analysis. This algorithm is based on the MD in the frame of speech signals that does not require statistical information about either signal or background-noise to decide a voiced/unvoiced. This paper presents a method of estimation the Characteristic of Magnitude Distribution from noisy speech and also of estimation the optimal threshold based on the MD of the voiced/unvoiced decision. The performances of this detectors is evaluated and compared to that obtained from classifying other paper.

  • PDF

Speaker Identification Based on Incremental Learning Neural Network

  • Heo, Kwang-Seung;Sim, Kwee-Bo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제5권1호
    • /
    • pp.76-82
    • /
    • 2005
  • Speech signal has various features of speakers. This feature is extracted from speech signal processing. The speaker is identified by the speaker identification system. In this paper, we propose the speaker identification system that uses the incremental learning based on neural network. Recorded speech signal through the microphone is blocked to the frame of 1024 speech samples. Energy is divided speech signal to voiced signal and unvoiced signal. The extracted 12 orders LPC cpestrum coefficients are used with input data for neural network. The speakers are identified with the speaker identification system using the neural network. The neural network has the structure of MLP which consists of 12 input nodes, 8 hidden nodes, and 4 output nodes. The number of output node means the identified speakers. The first output node is excited to the first speaker. Incremental learning begins when the new speaker is identified. Incremental learning is the learning algorithm that already learned weights are remembered and only the new weights that are created as adding new speaker are trained. It is learning algorithm that overcomes the fault of neural network. The neural network repeats the learning when the new speaker is entered to it. The architecture of neural network is extended with the number of speakers. Therefore, this system can learn without the restricted number of speakers.

최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구 (A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square)

  • 이시우
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.223-230
    • /
    • 2002
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음성 파형에 일그러짐이 나타난다. 본 논문에서는 최소 자승법을 적용한 새로운 TSIVUC 근사합성법을 제시하였다. 이 방법에서 TSlUVC의 추출에는 zero crossing rate과 FIR-STREAK 필터의 잔차신호를 이용한 개별피치 추출 알고리즘을 사용하였다. 실험결과, 최소 자승법을 적용하여 양호한 TSIUVC 근사합성 파형을 얻을 수 있었다. 또한 최대 오타신호에 있어서의 주파수 신호가 일그러짐이 적은 근사합성 파형에 중요한 역할을 한다는 것이다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구 (A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing)

  • 정성문;임동민
    • 한국통신학회논문지
    • /
    • 제37A권12호
    • /
    • pp.1122-1132
    • /
    • 2012
  • 압축센싱은 이미지, 음성신호, 레이더 등 많은 분야에 적용되고 있다. 압축센싱은 주로 통계적 특성이 시불변인 신호에 적용되고 있으며, 측정 데이터를 줄여 압축률을 높일수록 복원에러가 증가한다. 이와 같은 문제점들을 해결하기 위해 음성신호를 프레임 단위로 나누어 병렬로 처리하였으며, dictionary learning을 이용하여 프레임들을 sparse하게 만들고, sparse 계수 벡터와 그 복원값의 차를 이용하여 압축센싱 복원행렬을 적응적으로 만든 적응압축센싱을 적용하였다. 이를 통해 통계적 특성이 시변인 신호도 압축센싱을 이용하여 빠르고 정확한 복원이 가능함을 확인할 수 있었다.

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

  • 오상엽
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.1-6
    • /
    • 2021
  • 음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.

TMS320C6201을 이용한 적응 다중 전송율을 갖는 광대역 음성부호화기의 실시간 구현 (Real-Time Implementation of Wideband Adaptive Multi Rate (AMR-WB) Speech Codec Using TMS32OC6201)

  • 이승원;배건성
    • 한국통신학회논문지
    • /
    • 제29권9C호
    • /
    • pp.1337-1344
    • /
    • 2004
  • 본 논문에서는 적응 다중 전송율을 갖는 광대역 음성부호화기인 AMR-WB 의 알고리즘을 분석하고, TI사의 고정소수점 DSP인 TMS320C6201를 이용한 실시간 구현 결과를 제시한다. AMR-WB 음성부호화기는 두 가지 대 역으로 분리된 신호가 독립적으로 부호화되며, 저대역 신호는 ACELP 방식으로、 고대역 신호는 잡음 여기신호와 선형예측 합성필터를 사용하는 방식으로 각각 합성된다. 구현된 AMR-WB 음성부호화기는 프로그램 메모리와 데이터 메모리가 각각 218 kbytes, 92kbytes의 크기를 가지며 , 한 프레임인 20 ms를 처리하는데 평균 920,267 정도의 클릭 수가 사용되어 약 5.75 ms의 시간이 소요 되였다. 또한, DSP로 구현한 AMR-WB 음성부호화기의 결과와 PC에서 시뮬레이션 한 결과가 서로 일치함을 확인하였다.

$TMS320C6701^TM$을 이용한 2.4kbps EHSX 음성 부호화기의 실시간 구현 (Real-time implementation of the 2.4kbps EHSX Speech Coder Using a $TMS320C6701^TM$ DSPCore)

  • 양용호;이인성;권오주
    • 한국통신학회논문지
    • /
    • 제29권7C호
    • /
    • pp.962-970
    • /
    • 2004
  • 본 논문에서는 TI사의 부동소수점 DSP인 TMS320C6701$^{TM}$을 이용한 2.4kbps EHSX(Enhanced Harmonic Stochastic Excitation) 음성부호화기의 실시간 구현 방법에 대해서 논한다. EHSX는 4khz의 대역폭을 갖는 음성신호를 2.4kbps의 비트율을 갖는 압축 패킷으로 변환하는 부호화 방법으로, 유/무성음에 따라 하모닉(Harmonic) 여기 부호화 방법과 CELP 부호화 방법을 선택적으로 사용하는 구조를 갖는다. 본 논문에서는 이러한 EHSX의 실시간 구현을 위해 연산량의 큰 비중을 차지하는 CELP 분석의 코드북 검색부분과 일부 IIR 필터링 부분에 대한 고정소수점 변환 방법과, 부호화시 하모닉 검색 및 피치 검색방법에 대한 알고리즘 상 연산량 감소 방법, DSP의 구조를 고려한 코드를 배치방법 등 연산량을 감소시키기 위한 최적화 방법을 제시한다. 설계된 음성 부호화기는 PESQ(perceptual evaluation of speech quality) ITU-T Recommendation P.862를 이용한 음질 평가 결과로서 약MOS 3.28을 얻었으며, 실시간으로 압축 및 복원을 수행한다.

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법 (A DB Pruning Method in a Large Corpus-Based TTS with Multiple Candidate Speech Segments)

  • 이정철;강태호
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.572-577
    • /
    • 2009
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.