• 제목/요약/키워드: Speech Signal

검색결과 1,172건 처리시간 0.025초

음성 신호의 주파수 대역별 자기 공분산 기울기 분포 (Distribution of the Slopes of Autocovariances of Speech Signals in Frequency Bands)

  • 김선일
    • 한국정보통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.1076-1082
    • /
    • 2013
  • 자기 공분산 기울기를 이용하여 음성 신호와 배경 잡음 신호를 구분할 때 구분 가능성을 높이기 위해 주파수 영역에서 음성 신호의 자기 공분산 기울기를 최대화하는 주파수 대역을 찾아내었다. 디지털 샘플링 된 음성 신호를 일정한 개수의 신호로 이루어진 블록으로 나눈 후 각 블록에 고속푸리에변환(Fast Fourier Transform, FFT)을 하여 주파수 영역으로 변환한 다음 임의의 주파수 대역에서 각 블록에서의 공분산을 구하고 이 공분산 값들을 연결하는 직선 근사를 한 후에 이 직선의 기울기를 자기 공분산 기울기로 사용하는데 이 값은 음성 신호의 특성 상 주파수 대역별로 차이가 있다. 따라서 어느 주파수 대역에서 자기 공분산 기울기가 크게 나타나는지 200개의 남성 음성 파일을 이용하여 주파수 대역별로 비교 분석하였다.

Speaker Identification Based on Incremental Learning Neural Network

  • Heo, Kwang-Seung;Sim, Kwee-Bo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제5권1호
    • /
    • pp.76-82
    • /
    • 2005
  • Speech signal has various features of speakers. This feature is extracted from speech signal processing. The speaker is identified by the speaker identification system. In this paper, we propose the speaker identification system that uses the incremental learning based on neural network. Recorded speech signal through the microphone is blocked to the frame of 1024 speech samples. Energy is divided speech signal to voiced signal and unvoiced signal. The extracted 12 orders LPC cpestrum coefficients are used with input data for neural network. The speakers are identified with the speaker identification system using the neural network. The neural network has the structure of MLP which consists of 12 input nodes, 8 hidden nodes, and 4 output nodes. The number of output node means the identified speakers. The first output node is excited to the first speaker. Incremental learning begins when the new speaker is identified. Incremental learning is the learning algorithm that already learned weights are remembered and only the new weights that are created as adding new speaker are trained. It is learning algorithm that overcomes the fault of neural network. The neural network repeats the learning when the new speaker is entered to it. The architecture of neural network is extended with the number of speakers. Therefore, this system can learn without the restricted number of speakers.

A New Method for Segmenting Speech Signal by Frame Averaging Algorithm

  • Byambajav D.;Kang Chul-Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • 제24권4E호
    • /
    • pp.128-131
    • /
    • 2005
  • A new algorithm for speech signal segmentation is proposed. This algorithm is based on finding successive similar frames belonging to a segment and represents it by an average spectrum. The speech signal is a slowly time varying signal in the sense that, when examined over a sufficiently short period of time (between 10 and 100 ms), its characteristics are fairly stationary. Generally this approach is based on finding these fairly stationary periods. Advantages of the. algorithm are accurate border decision of segments and simple computation. The automatic segmentations using frame averaging show as much as $82.20\%$ coincided with manually verified segmentation of CMU ARCTIC corpus within time range 16 ms. More than $90\%$ segment boundaries are coincided within a range of 32 ms. Also it can be combined with many types of automatic segmentations (HMM based, acoustic cues or feature based etc.).

음성신호의 최적특징을 적응적으로 추출하는 방법에 관한 연구 (A Study on the Adaptive Method for Extracting Optimum Features of Speech Signal)

  • 장승관;차태호;최웅세;김창석
    • 한국통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.373-380
    • /
    • 1994
  • 본 논문에서는 음성신호를 일정한 크기로 적응시켜 최적의 특징을 추출할 수 있는 방법을 제안하였다. 음성신호의 특징을 추출하기 위하여 고속선형예측 알고리즘인 FRLS 적용할 때 음성신호를 일정한 크기로 분할한 후 각 프레임 마다 제안한 균등사기상관함수를 가지고 최적특징을 추출하였다.

  • PDF

근단 배경 잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on G.729A Speech Codec Parameter Under Near-End Background Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.392-400
    • /
    • 2009
  • 본 논문에서는 근단 (Near-End) 잡음 환경에서 ITU-T의 표준 음성부호화기인 G.729A CS-ACELP 기반의 효과적인 음성강화 기법을 제시한다. 일반적으로 다양한 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 기존의 음성강화 시스템과는 대조적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 음성부호화기에 기반하여, 원단으로부터 수신된 비트스트림 파라미터 중 여기신호(excitation signal)를 강화하는 알고리즘을 제시한다. 구체적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 G.729A CS-ACELP의 부호화기를 통해 배경 잡음의 여기신호를 추정하고, 추정된 배경 잡음의 여기신호를 기반으로 원단 화자로부터 전송된 음성 신호의 여기신호를 강화시키는데, 특별히 G.729A 복호화기내에서 원단의 음성 신호를 직접 강화하는 알고리즘을 제안한다. 제안된 음성 강화 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 SNR 복구 기법과 비교해서 우수한 성능을 보여주었다.

감마톤 특징 추출 음향 모델을 이용한 음성 인식 성능 향상 (Speech Recognition Performance Improvement using Gamma-tone Feature Extraction Acoustic Model)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권7호
    • /
    • pp.209-214
    • /
    • 2013
  • 음성 인식 시스템에서는 인식 성능 향상을 위한 방법으로 인간의 청취 능력을 인식 시스템에 접목하였으며 잡음 환경에서 음성 신호와 잡음을 분리하여 원하는 음성 신호만을 선택할 수 있도록 구성되었다. 하지만 실용적 측면에서 음성 인식 시스템의 성능 저하 요인으로 인식 환경 변화에 따른 잡음으로 인한 음성 검출이 정확하지 못하여 일어나는 것과 학습 모델이 일치하지 않는 것을 들 수 있다. 따라서 본 논문에서는 음성 인식 향상을 위해 감마톤을 이용하여 특징을 추출하고 음향 모델을 이용한 학습 모델을 제안하였다. 제안한 방법은 청각 장면 분석을 이용한 특징을 추출을 통해 인간의 청각 인지 능력을 반영하였으며 인식을 위한 학습 모델 과정에서 음향 모델을 이용하여 인식 성능을 향상시켰다. 성능 평가를 위해 잡음 환경의 -10dB, -5dB 신호에서 잡음 제거를 수행하여 SNR을 측정한 결과 3.12dB, 2.04dB의 성능이 향상됨을 확인하였다.

대역 스크램블을 이용한 음성 보호방식 (Speech Encryption Scheme Using Frequency Band Scrambling)

  • 지형근;이동욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.700-702
    • /
    • 1999
  • The protection of data which we want to keep secret from invalid users has become a main topic nowadays. This paper introduces a encryption scheme for protecting speech signals from eavesdropping. The proposed encryption scheme adopts a secure voice cryptographic algorithm based on the scrambling in frequency band. In order to improve the conventional speech signal encryption scheme, we have randomly permuted DCT coefficients of speech signal. Simulation results are included to show the performance of the proposed algorithm for secure transmission of speech signals.

  • PDF

피치 동기된 에너지 유사도에 의한 음성신호의 전이구간 검출 (On a detecting the transition segments of speech signal by energ approximatio degree of the synchronized pitch)

  • 김종득;박형빈;김대호;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.603-606
    • /
    • 1998
  • In a large number of words and the continued speech recognition system using a phoneme as teh recognition unit, it is necessary to segment processing. In this paper, a normalized AMDF new method. The suggested parameter represents a degree of sharpness at valley point. This method can detect the speech segment between the steady state and transient region to the continued speech without a prior information of speech signal.

  • PDF

카오스차원에 의한 화자식별 파라미터 추출 (Extraction of Speaker Recognition Parameter Using Chaos Dimension)

  • 유병욱;김창석
    • 음성과학
    • /
    • 제1권
    • /
    • pp.285-293
    • /
    • 1997
  • This paper was constructed to investigate strange attractor in considering speech which is regarded as chaos in that the random signal appears in the deterministic raising system. This paper searches for the delay time from AR model power spectrum for constructing fit attractor for speech signal. As a result of applying Taken's embedding theory to the delay time, an exact correlation dimension solution is obtained. As a result of this consideration of speech, it is found that it has more speaker recognition characteristic parameter, and gains a large speaker discrimination recognition rate.

  • PDF

음성신호의 Sub-Nyquist 비균일 표준화 및 완전 복구에 관한 연구 (Sub-Nyquist Nonuniform Sampling and Perfect Reconstruction of Speech Signals)

  • 이희영
    • 음성과학
    • /
    • 제12권2호
    • /
    • pp.153-170
    • /
    • 2005
  • The sub-Nyquist nonuniform sampling (SNNS) and the perfect reconstruction (PR) formula are proposed for the development of a systematic method to obtain minimal representation of a speech signal. In the proposed method, the instantaneous sampling frequency (ISF) varies, depending on the least upper boundary of spectral support of a speech signal in time-frequency domain (TFD). The definition of the instantaneous bandwidth (IB), which determines the ISF and is used for generating the set of samples that represent continuous-time signals perfectly, is given. Also, the spectral characteristics of the sampled data generated by the sub-Nyquist nonuniform sampling method is analyzed. The proposed method doesn't generate the redundant samples due to the time-varying property of the instantaneous bandwidth of a speech signal.

  • PDF