• Title/Summary/Keyword: 음성 신호 처리

Search Result 473, Processing Time 0.027 seconds

Trends of Codec Technology for 4G Mobile Enhanced Voice Service (4G 모바일 증감음성 서비스를 위한 코덱 기술 동향)

  • Lee, M.S.;Kim, D.Y.;Lee, B.S.
    • Electronics and Telecommunications Trends
    • /
    • v.25 no.6
    • /
    • pp.29-37
    • /
    • 2010
  • 본 논문에서는 무선망과 신호처리 기술의 발달과 1GHz급 이상의 고성능 모바일 장치의 등장에 따라 현재의 모바일 음성 서비스 품질과 확연히 차별화된 서비스를 제공하기 위해 3GPP에서 논의중인 EVS 코덱의 기술적 특성 및 최간 표준화 동향에 대해 기술한다. 3GPP에서는 지난 3월, 2년간의 논의를 거쳐 4G 모바일과 같은 EPS 시스템에서 차별화된 새로운 증감음성 품질의 서비스 제공이 필수적이라는 판단 하에 EVS 코덱 표준의 개발을 시작하였다. 현재 EVS 코덱 표준화를 위해 세부적인 가능과 성능 목표에 대해 협의를 진행중이며 표준의 완료 계획시점인 2012년 상반기경, 4G/LTE에서는 광대역 수준의 음성서비스에 비해 신호대역폭이 2배가 확장된 슈퍼와이드밴드급의 증감음성 서비스가 제공될 것으로 전망한다.

Real-Time Implementation of the CS-ACELP(G.729) Using TMS320C6201 DSP (TMS320C6201를 이용한 CS-ACELP(G.729)의 실시간 구현)

  • 백성기;박만호;배건성
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.3B
    • /
    • pp.288-294
    • /
    • 2001
  • 본 논문에서는 CS-ACELP 음성부호화기를 TMS320C6201 고정소수점 DSP 칩을 탑재한 EVM 보드 상에서 권고안(G.729)과 함께 제공되는 고정수점 C 프로그램을 바탕으로 실시간 구현하였다. CS-ACELP 음성부호화기를 실시간 구현하기 위한 최적화 방법에 대해 기술하였으며, 구현된 시스템의 음질 평가를 위해서 음성신호에 대한 C 프로그램의 출력과 구현된 시스템의 출력을 비교하였다. 실험 결과, 최적화 작업을 통해 구해진 전체 프로그램 메모리의 크기는 약 14.04kWords 였으며, 한 프레임(10ms)을 처리하는데 2.5 ms가 소요되었다. 또한, 임의의 음성신호에 대한 C 프로그램의 출력과 구현된 시스템의 출력을 ITU-T에서 제공되는 test vector를 이용하여 bit-exact 함을 확인하였으며, 위의 실험결과를 바탕으로 TMS320C6201 EVM 보드에서 마이크와 스피커를 이용하여 CS-ACELP 음성부호화기가 왜곡이나 지연없이 실시간 구현됨을 확인하였다.

  • PDF

Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition (강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출)

  • Jung Sungyun;Bae Keunsung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

The Recognition of Korean Syllables using Parameter Based on Principal Component Analysis (PCA 기반 파라메타를 이용한 숫자음 인식)

  • 박경훈;표창수;김창근;허강인
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.181-184
    • /
    • 2000
  • The new method of feature extraction is proposed, considering the statistic feature of human voice, unlike the conventional methods of voice extraction. PCA(principal Component Analysis) is applied to this new method. PCA removes the repeating of data after finding the axis direction which has the greatest variance in input dimension. Then the new method is applied to real voice recognition to assess performance. When results of the number recognition in this paper and the conventional Mel-Cepstrum of voice feature parameter are compared, there is 0.5% difference of recognition rate. Better recognition rate is expected than word or sentence recognition in that less convergence time than the conventional method in extracting voice feature. Also, better recognition tate is expected when the optimum vector is used by statistic feature of data.

  • PDF

A Post-processing for Binary Mask Estimation Toward Improving Speech Intelligibility in Noise (잡음환경 음성명료도 향상을 위한 이진 마스크 추정 후처리 알고리즘)

  • Kim, Gibak
    • Journal of Broadcast Engineering
    • /
    • v.18 no.2
    • /
    • pp.311-318
    • /
    • 2013
  • This paper deals with a noise reduction algorithm which uses the binary masking in the time-frequency domain. To improve speech intelligibility in noise, noise-masked speech is decomposed into time-frequency units and mask "0" is assigned to masker-dominant region removing time-frequency units where noise is dominant compared to speech. In the previous research, Gaussian mixture models were used to classify the speech-dominant region and noise-dominant region which correspond to mask "1" and mask "0", respectively. In each frequency band, data were collected and trained to build the Gaussian mixture models and detection procedure is performed to the test data where each time-frequency unit belongs to speech-dominant region or noise-dominant region. In this paper, we consider the correlation of masks in the frequency domain and propose a post-processing method which exploits the Viterbi algorithm.

Frequency Domain Blind Source Seperation Using Cross-Correlation of Input Signals (입력신호 상호상관을 이용한 주파수 영역 블라인드 음원 분리)

  • Sung Chang Sook;Park Jang Sik;Son Kyung Sik;Park Keun-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.3
    • /
    • pp.328-335
    • /
    • 2005
  • This paper proposes a frequency domain independent component analysis (ICA) algorithm to separate the mixed speech signals using a multiple microphone array By estimating the delay timings using a input cross-correlation, even in the delayed mixture case, we propose a good initial value setting method which leads to optimal convergence. To reduce the calculation, separation process is performed at frequency domain. The results of simulations confirms the better performances of the proposed algorithm.

  • PDF

On a Detection of Pitch Point for Voice Color Conversion (음색변경을 위한 피치시점 검출에 관한 연구)

  • Park HyungBin;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.149-152
    • /
    • 2000
  • 음성신호처리분야에서 피치시점 검출은 음성 합성시에 여기원의 특성을 나타내어 음질의 자연성을 결정한다. 이에 본 논문에서는 음색 변경시에 운율조절에 필요한 피치시점 검출법을 제안한다. 제안한 방법은 시간영역에서 직접 처리하기 때문에 피치동기분석이 용이하고 다른 영역으로의 변환과정이 불필요하다. 또한 기존의 피치시점검출 방법에서는 결정논리를 실험적인 문턱 값이나 무게치를 적용하여 처리하는 반면에 제안한 방법은 분석구간별로 얻어지는 주기적인 성문특성을 적용하여서 정확한 피치시점을 검출할 수 있었다

  • PDF

Design and Implementation of the Voice Feature Elimination Technique to Protect Speaker's Privacy (사용자 프라이버시 보호를 위한 음성 특징 제거 기법 설계 및 구현)

  • Yu, Byung-Seok;Lim, SuHyun;Park, Mi-so;Lee, Yoo-Jin;Yun, Sung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.672-675
    • /
    • 2012
  • 음성은 가장 익숙하고 편리한 의사 소통 수단으로 스마트폰과 같이 크기가 작은 모바일 기기의 입력 인터페이스로 적합하다. 서버 기반의 음성 인식은 서버를 방문하는 다양한 사용자들을 대상으로 음성 모델을 구축하기 때문에 음성 인식률을 높일 수 있고 상용화가 가능하다. 구글 음성인식, 아이폰의 시리(SiRi)가 대표적인 예이며 최근 스마트폰 사용자의 증가로 이에 대한 수요가 급증하고 있다. 서버 기반 음성 인식 기법에서 음성 인식은 스마트폰과 인터넷으로 연결되어 있는 원격지 서버에서 이루어진다. 따라서, 사용자는 스마트폰에 저장된 음성 데이터를 인터넷을 통하여 음성 인식 서버로 전달해야 된다[1, 2]. 음성 데이터는 사용자 고유 정보를 가지고 있으므로 개인 인증 및 식별을 위한 용도로 사용될 수 있으며 음성의 톤, 음성 신호의 피치, 빠르기 등을 통해서 사용자의 감정까지도 판단 할 수 있다[3]. 서버 기반 음성 인식에서 네트워크로 전송되는 사용자 음성 데이터는 제 3 자에게 쉽게 노출되기 때문에 화자의 신분 및 감정이 알려지게 되어 프라이버시 침해를 받게 된다. 본 논문에서는 화자의 프라이버시를 보호하기 위하여 사용자 음성 데이터로부터 개인의 고유 특징 및 현재 상태를 파악할 수 있는 감정 정보를 제거하는 기법을 설계 및 구현하였다.

Time-Frequency Domain Impulsive Noise Detection System in Speech Signal (음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템)

  • Choi, Min-Seok;Shin, Ho-Seon;Hwang, Young-Soo;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.2
    • /
    • pp.73-79
    • /
    • 2011
  • This paper presents a new impulsive noise detection algorithm in speech signal. The proposed method employs the frequency domain characteristic of the impulsive noise to improve the detection accuracy while avoiding the false-alarm problem by the pitch of the speech signal. Furthermore, we proposed time-frequency domain impulsive noise detector that utilizes both the time and frequency domain parameters which minimizes the false-alarm problem by mutually complementing each other. As the result, the proposed time-frequency domain detector shows the best performance with 99.33 % of detection accuracy and 1.49 % of false-alarm rate.

An Implementation of Telephone-based Speaker Verification System using Dialog/4 Board (Dialog/4 보드를 이용한 전화음성 기반의 화자 인증 시스템의 구현)

  • Lee Soon-Reyo;Park Yil-Koo;Choi Hong-Sub
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.89-92
    • /
    • 2004
  • 전화 음성용 화자인증 시스템 전화기에서 의뢰인의 ID와 음성을 입력받은 후 인증관련 처리론 PC에서 수행하여 그 인증 결과를 의뢰인의 전화로 알려주는 시스템으로 본 논문에서는 CTI(Computer Telephony Integration) 기술이 적용된 Dialog/4 보드를 이용하여 시스템을 구현하였다. Dialog/4 보드를 통하여 시스템에 입력된 ID와 음성에 대하여 신호처리와 특징 추출을 거친후 ID에 해당하는 화자모델과 배경화자 정보를 이용하여 유사도를 계산하여 의뢰인에 대한 인증 또는 거절의 결과를 알려준다. 실제의 전화음성을 이용한 화자인증 시스템이 성능평가에서 전화음성으로 실험을 할 경우 $99.6\%$의 인증률을 보여주었다.

  • PDF