• Title/Summary/Keyword: 음성신호

Search Result 1,513, Processing Time 0.024 seconds

Design of Wideband Speech Coder Compatible with CS-ACELP (CS-ACELP와 호환성을 갖는 광대역 음성 부호화기 설계)

  • 김동주;이인성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.4
    • /
    • pp.52-57
    • /
    • 2000
  • In this paper, we designed the 16 Kbps speech coder that has compatibility with CS-ACELP algorithm(G.729). The speech signal is sampled at rate of 16 KHz, divided into two narrowband signal by QMF filterbank, and decimated to rate of 8 KHz. The lower-band signal is encoded by CS-ACELP and the upper-band signal is encoded by Adaptive Transform Coding(ATC) algorithm. At the receiver, two band signals are synthesized by decoder of CS-ACELP and ATC, respectively. The reconstructed output is obtained by passing the QMF synthesis bank. The proposed wideband coder is evaluated with ITU-T G.722 coder through the Mean Opinion Score(MOS) test.

  • PDF

A Study on Numeral Speech Recognition Using Integration of Speech and Visual Parameters under Noisy Environments (잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구)

  • Lee, Sang-Won;Park, In-Jung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.38 no.3
    • /
    • pp.61-67
    • /
    • 2001
  • In this paper, a method that apply LP algorithm to image for speech recognition is suggested, using both speech and image information for recogniton of korean numeral speech. The input speech signal is pre-emphasized with parameter value 0.95, analyzed for B th LP coefficients using Hamming window, autocorrelation and Levinson-Durbin algorithm. Also, a gray image signal is analyzed for 2-dimensional LP coefficients using autocorrelation and Levinson-Durbin algorithm like speech. These parameters are used for input parameters of neural network using back-propagation algorithm. The recognition experiment was carried out at each noise level, three numeral speechs, '3','5', and '9' were enhanced. Thus, in case of recognizing speech with 2-dimensional LP parameters, it results in a high recognition rate, a low parameter size, and a simple algorithm with no additional feature extraction algorithm.

  • PDF

Extracting room reverberation from speech using the minimum phase space volume technique (MPSV) (MPSV방법을 이용한 음성에서의 잔향 추출)

  • Kim Lae-Hoon;Sung Koeng-Mo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.159-162
    • /
    • 2001
  • 음장의 공간 음향적인 특성에 영향을 받은 음성신호를 원래 신호로 복원하기 위해서 본 논문에서는 MPSV (Minimum Phase Space Volume) 방법 을 도입한다 MPSV 방법 은 신호를 복원하기 위해 원래 신호의 어떠한 사전 정보나 가정을 필요로 하지 않고 그 신호의 비선형적인 동적 특이성만을 이용하는 블라인드 디콘볼루션 (Blind deconvolution) 방법이다. 또한, 이 방법을 이용하여 원래 신호를 복원하는 동시에 음장의 충격응답과 같은 시스템 특성까지도 유추가 가능하다.

  • PDF

A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing (Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구)

  • Jeong, Seongmoon;Lim, Dongmin
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.37A no.12
    • /
    • pp.1122-1132
    • /
    • 2012
  • Compressed sensing has been applied to many fields such as images, speech signals, radars, etc. It has been mainly applied to stationary signals, and reconstruction error could grow as compression ratios are increased by decreasing measurements. To resolve the problem, speech signals are divided into frames and processed in parallel. The frames are made sparse by dictionary learning, and adaptive compressed sensing is applied which designs the compressed sensing reconstruction matrix adaptively by using the difference between the sparse coefficient vector and its reconstruction. Through the proposed method, we could see that fast and accurate reconstruction of non-stationary signals is possible with compressed sensing.

A Speech Emotion Recognition System for Audience Response Collection (관객 반응정보 수집을 위한 음성신호 기반 감정인식 시스템)

  • Kang, Jin Ah;Kim, Hong Kook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.56-57
    • /
    • 2013
  • 본 논문에서는 연극공연을 관람하는 관객의 반응정보를 수집하기 위하여, 청각센서를 통해 관객의 음성을 획득하고 획득된 음성에 대한 감정을 예측하여 관객 반응정보 관리시스템에 전송하는 음성신호 기반 감정인식 시스템을 구현한다. 이를 위해, 관객용 헤드셋 마이크와 다채널 녹음장치를 이용하여 관객음성을 획득하는 인터페이스와 음성신호의 특징벡터를 추출하여 SVM (support vector machine) 분류기에 의해 감정을 예측하는 시스템을 구현하고, 이를 관객 반응정보 수집 시스템에 적용한다. 실험결과, 구현된 시스템은 6가지 감정음성 데이터를 활용한 성능평가에서 62.5%의 인식률을 보였고, 실제 연극공연 환경에서 획득된 관객음성과 감정인식 결과를 관객 반응정보 수집 시스템에 전송함을 확인하였다.

  • PDF

Noise Reduction for Korean Connected Digit Recognition through Telephone Channel (전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리)

  • Kim Kyuhong;Kim Hoirin
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation (문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리)

  • 이용주;손종목;강경옥;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

A Study on Weighted Spectral Subtraction Using Adaptive Threshold In Car Noise Environment (차량내 잡음 환경에서 적응적 경계값을 이용한 가중치 주파수 차감에 관한 연구)

  • 전선도
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.185-188
    • /
    • 1998
  • 실제의 음성 인식 및 음성 통신 등의 음성 처리 시스템에서는 음성 신호를 손상시키는 배경 잡음 신호의 존재로 그 성능이 많이 저하된다. 특히 차량 내와 같은 잡음이 극심한 상황에서는 전처리 부분에서 이러한 잡음을 제거시켜 주어야한다. 본 연구는 자동차 내의 배경 잡음에 의해 손상된 음성에서 배경 잡음을 주파수 차감에 의하여 제거시킨다. 특히 음성 정보의 손실이 적은 잡음 추정 방법으로 가중치를 이용하여 잡음을 추정하는 가중치 주파수 차감법을 이용하였다. 이러한 가중치 주파수 차감법 사용의 전제 조건은 잡음의 변화가 완만한 경우에 적당하다. 그러나 실제적인 상황에서 배경잡음신호의 변화가 큰 경우가 존재한다. 이러한 이유에서 본 연구는 잡은 추정시 잡음 추정값을 이용하여 추정 잡음 경계값을 적응적으로 변화하는 차감법을 제안한다. 이러한 방법은 추정된 잡음 신호의 변화율을 이용하여 경계값을 상황에 따라 적응적으로 변화시키는 방법이다. 모의 실험에 의하여 고정적인 경계값을 갖는 가중치 주파수 차감법에 비해 제안한 적응적 경계값을 갖는 가중치 주파수 차감법의 출력 SNR이 증가함을 확인하였고, 음성 인식 시스템에 정용한 인식 실험에서도 성능이 향상됨을 확인하였다.

  • PDF

Noise reduction system using time-delay neural network (시간지연 신경회로망을 이용한 잡음제거 시스템)

  • Choi Jae-Seung
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.42 no.3 s.303
    • /
    • pp.121-128
    • /
    • 2005
  • On the research field for speech signal, neural network mainly uses for the category classification in speech recognition and applies to signal processing. Accordingly, this paper proposes a noise reduction system using a time-delay neural network, which implements the mapping from the space of speech signal degraded by noise to the space of clean speech signal. It is confirmed that this method is effective for speech degraded not only by white noise but also by colored noise using the noise reduction system, which restores the amplitude component of fast Fourier transform.

Distance Measures Based Upon Adaptive Filtering For Robust Speech Recognition In Noise (잡음 환경하에서 음성 인식을 위한 적응필터링 거리 척도에 관한 연구)

  • 정원국;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1E
    • /
    • pp.15-22
    • /
    • 1992
  • 잡음이 있는 환경하에서는 음성 인식의 성능이 현저하게 떨어지게 된다. 본 논문에서는 이렇나 잡음의 영향에 강한 거리척도를 제안하고자 한다. 우리는 잡음이 더해진 음성신호의 특징벡터를 깨끗한 음성신호의 특징벡터가 FIR 시스템을 거쳐 변형된 것이라고 가정한다. 여기서 FIR 시스템은 잡음의 영 향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템 계수잡음의 영향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템계수들은 RLS 적응 알고리즘을 이용하여 구한다. 제안된 거리척도는 적응 여파 기의 예측 오차에 관한 식으로 표시되어진다. 여러 가지 적응 여파기의 구조중 단일 채널 일차 FIR 구 조가 가장 좋은 음성 인식 성능을 보이며, 이 경우 효과적인 거리척도 알고리즘을 구할 수 있다. 여러 가지 신호대 잡음비에 관하여 화자독립 격리단어 인식 실험을 DTW 알고리즘을 이용하여 수행하여 본 결과 제안된 거리척도가 거의 모든 신호대 잡음비에 대하여 우수한 성능을 보였다.

  • PDF