• 제목/요약/키워드: Voice Signal process

검색결과 51건 처리시간 0.023초

오디오 신호 처리를 위한 초저전력 DSP 프로세서 (Ultra-low-power DSP for Audio Signal Processing)

  • 권기석;안민욱;조석환;이연복;이승원;박영환;김석진;김도형;김재현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.157-159
    • /
    • 2014
  • In this paper, we introduce SlimSRP, an ultra-low-power digital signal processor (DSP) solution for mobile audio and voice applications. So far, application processors (APs) have taken charge of all the tasks in mobile devices. However, they have suffered from short battery life problems to deal with complex usage scenarios, such as always-on voice trigger with continuous audio playback. From extensive analysis of audio and voice application characteristics, SlimSRP is designed to relive the performance and power burden of APs. It employs three-issue VLIW architecture, and the major low-power and high-performance techniques include: (1) an optimized register-file architecture friendly for constants generation, (2) a powerful instruction set to reduce the number of register file accesses and (3) a unique instruction compression scheme that contributes to saved memory size and reduced cache miss. An implementation of SlimSRP runs at up to 200MHz and the logic occupies 95K NAND2 gates in Samsung 28LPP process. The experimental results demonstrate that a MP3 decoder application with a 128kbps 44.1kHz input can run at 5.1MHz and the logic consumes only 22uW/MHz.

  • PDF

켑스트럼 파라미터를 이용한 후두암 검진 (Laryngeal Cancer Screening using Cepstral Parameters)

  • 이원범;전경명;권순복;전계록;김수미;김형순;양병곤;조철우;왕수건
    • 대한후두음성언어의학회지
    • /
    • 제14권2호
    • /
    • pp.110-116
    • /
    • 2003
  • Background and Objectives : Laryngeal cancer discrimination using voice signals is a non-invasive method that can carry out the examination rapidly and simply without giving discomfort to the patients. n appropriate analysis parameters and classifiers are developed, this method can be used effectively in various applications including telemedicine. This study examines voice analysis parameters used for laryngeal disease discrimination to help discriminate laryngeal diseases by voice signal analysis. The study also estimates the laryngeal cancer discrimination activity of the Gaussian mixture model (GMM) classifier based on the statistical modelling of voice analysis parameters. Materials and Methods : The Multi-dimensional voice program (MDVP) parameters, which have been widely used for the analysis of laryngeal cancer voice, sometimes fail to analyze the voice of a laryngeal cancer patient whose cycle is seriously damaged. Accordingly, it is necessary to develop a new method that enables an analysis of high reliability for the voice signals that cannot be analyzed by the MDVP. To conduct the experiments of laryngeal cancer discrimination, the authors used three types of voices collected at the Department of Otorhinorlaryngology, Pusan National University Hospital. 50 normal males voice data, 50 voices of males with benign laryngeal diseases and 105 voices of males laryngeal cancer. In addition, the experiment also included 11 voices data of males with laryngeal cancer that cannot be analyzed by the MDVP, Only monosyllabic vowel /a/ was used as voice data. Since there were only 11 voices of laryngeal cancer patients that cannot be analyzed by the MDVP, those voices were used only for discrimination. This study examined the linear predictive cepstral coefficients (LPCC) and the met-frequency cepstral coefficients (MFCC) that are the two major cepstrum analysis methods in the area of acoustic recognition. Results : The results showed that this met frequency scaling process was effective in acoustic recognition but not useful for laryngeal cancer discrimination. Accordingly, the linear frequency cepstral coefficients (LFCC) that excluded the met frequency scaling from the MFCC was introduced. The LFCC showed more excellent discrimination activity rather than the MFCC in predictability of laryngeal cancer. Conclusion : In conclusion, the parameters applied in this study could discriminate accurately even the terminal laryngeal cancer whose periodicity is disturbed. Also it is thought that future studies on various classification algorithms and parameters representing pathophysiology of vocal cords will make it possible to discriminate benign laryngeal diseases as well, in addition to laryngeal cancer.

  • PDF

8kbps에 있어서 ACFBD-MPC에 관한 연구 (A Study on ACFBD-MPC in 8kbps)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.49-53
    • /
    • 2016
  • 최근 무선네트워크의 효율을 높이기 위하여 신호압축 방식의 사용이 증가되고 있다. 특히, MPC 시스템은 비트율을 줄이기 위하여 피치추출 방법과 유성음과 무성음의 음원을 사용하였다. 일반적으로, 유성음원과 무성음원을 사용하는 MPC 시스템에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 재생 음성파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성파형이 정규화 되는 것이 원인으로 작용한다. 본 논문에서는 재생 음성파형의 일그러짐을 제어하기 위하여 피치구간 마다 멀티펄스의 진폭을 보정하고, 특정 주파수를 이용하는 ACFBD-MPC(Amplitude Compensation Frequency Band Division-Multi Pulse Coding)를 제안하였다. 실험은 남자와 여자음성에서 각각 16개의 문장을 사용하였으며, 음성신호는 10kHz 12bit로 A/D 변환하였다. 또한 8kbps의 부호화 조건에서 ACFBD-MPC 시스템을 구현하고, ACFBD-MPC의 SNR를 평가하였다. 그 결과 ACFBD-MPC의 남자 음성에서 14.2dB, 여자 음성에서 13.6dB 임을 확인할 수 있었으며, ACFBD-MPC가 기존의 MPC에 비하여 남자음성에서 1dB, 여자음성에서 0.9dB 개선되는 것을 알 수 있었다. 이 방법은 셀룰러폰이나 스마트폰과 같이 낮은 비트율의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

사설 PSTN에서 2W 전화 신호의 이더넷 변환 프로토콜 (A Conversion Protocol for 2W Telephone Signal over Ethernet in a Private PSTN)

  • 신진범;조길석;이동관;김태현
    • 한국군사과학기술학회지
    • /
    • 제24권6호
    • /
    • pp.645-654
    • /
    • 2021
  • In this paper, we proposed a protocol to convert 2W telephone analog signals to Ethernet data in a private PSTN 2W tactical voice system. There are several kinds of operational problems in the tactical telephone network where 2W telephone copper lines are installed hundreds of meters away from the PBX in a headquarter site. The reason is that it is difficult to install and maintain the 2W telephone copper cable in severe operational fields and to meet safety and stability operational requirements of the telephone line under lighting and electromagnetic environments. In order to solve these challenging demands, we proposed an efficient method that the 2W analog interface signals between a private PBX system and a 2W telephone is converted to Ethernet messages using the optical Ethernet data communication network already deployed in the tactical weapon system. Thus, it is not necessary to install an additional optic cable for the ethernet telephone line and to maintain the private PSTN 2W telephone network. Also it provides safe and secure telecommunication operation under lightning and electromagnetic environments. This paper presents the conversion protocol from 2W telephone signals over Ethernet interface between PBX systems and 2W telephones, the mutual exchange protocol of ethernet messages between two converters, and the rule to process analog signal interface. Finally, we demonstrate that the proposed technique can provide a feasible solution in the tactical weapon system by analyzing its performance and experimental results such as the bandwidth of 2W telephone ethernet network and the transmission latency of voice signal, and the stability of optic ethernet voice network along with the ethernet data network.

VQ Codebook Index Interpolation Method for Frame Erasure Recovery of CELP Coders in VoIP

  • Lim Jeongseok;Yang Hae Yong;Lee Kyung Hoon;Park Sang Kyu
    • 한국통신학회논문지
    • /
    • 제30권9C호
    • /
    • pp.877-886
    • /
    • 2005
  • Various frame recovery algorithms have been suggested to overcome the communication quality degradation problem due to Internet-typical impairments on Voice over IP(VoIP) communications. In this paper, we propose a new receiver-based recovery method which is able to enhance recovered speech quality with almost free computational cost and without an additional increment of delay and bandwidth consumption. Most conventional recovery algorithms try to recover the lost or erroneous speech frames by reconstructing missing coefficients or speech signal during speech decoding process. Thus they eventually need to modify the decoder software. The proposed frame recovery algorithm tries to reconstruct the missing frame itself, and does not require the computational burden of modifying the decoder. In the proposed scheme, the Vector Quantization(VQ) codebook indices of the erased frame are directly estimated by referring the pre-computed VQ Codebook Index Interpolation Tables(VCIIT) using the VQ indices from the adjacent(previous and next) frames. We applied the proposed scheme to the ITU-T G.723.1 speech coder and found that it improved reconstructed speech quality and outperforms conventional G.723.1 loss recovery algorithm. Moreover, the suggested simple scheme can be easily applicable to practical VoIP systems because it requires a very small amount of additional computational cost and memory space.

확산필터뱅크를 전처리기로 사용한 한국어 단모음인식 (The Recognition of Korean Single vowels by Use of the Diffusion Filter Bank as a Pre-processor)

  • 허만탁;김재창
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.81-87
    • /
    • 1997
  • 본 논문에서는 스펙트럼 포락선을 이용하여 음성을 인식하기 위한 새로운 전처리 방법을 제안한다. 이는 확산필터뱅크를 사용하여 스펙트럼 포락선을 추출하는 새로운 방법이다. 확산필터뱅크의 분석대역을 몇 개의 작은 대역으로 나눔으로써 확산회수를 줄였으며 차분회수를 늘임으로써 선택도를 높였다. 이 결과, 총처리시간을 대폭 줄였으며 스펙트럼의 변별력을 증가시켰다. 컴퓨터 시뮬레이션을 통하여 간단한 인식 알고리듬으로 실제 음성의 단모음 인식 실험을 해본 결과 3%의 인식율을 얻음으로써 확산필터뱅크가 많은 주파수 성분을 가진 음성의 주파수 분석을 이용하는 음성인식에 대단히 유효하다는 것을 확인하였다.

  • PDF

잡음환경에서 우리말 연속음성의 무성자음 구간 추출 방법 (Extraction of Unvoiced Consonant Regions from Fluent Korean Speech in Noisy Environments)

  • 박정임;하동경;신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.286-292
    • /
    • 2003
  • 음성 구간 추출이란 입력된 음성신호를 음성 구간과 묵음, 또는 잡음구간으로 구분하는 과정이다. 잡음이 섞여있는 음성신호의 무성자음 신호는 잡음신호와 매우 유사하다. 따라서 음성 구간을 추출하거나 잡음을 제거 또는 감소시킬 때 무성자음에 특별히 주의하지 않으면 무성자음을 손상시키거나 잘못된 잡음 추정으로 이어질 수 있다. 본 논문에서는 잡음 환경에서 연속음성신호의 음성 구간을 정확하게 추출하기 위해 잡음과 무성자음사이의 경계를 명시적으로 검출함으로써 무성자음의 구간을 추출하는 방법을 제안한다. 제안하는 추출방법은 Hirsch가 잡음 추정을 위해 사용한 히스토그램 방법과 연속된 프레임 사이의 주파수 성분의 유사성을 나타내는 파라미터들을 이용하였다. 제안한 방법의 성능을 평가하기 위해 음성신호에 SNR이 각각 10㏈와 15㏈인 7가지의 잡음을 첨가하여 무성자음신호의 추출 실험을 수행하였다.

멀티펄스의 진폭보정에 관한 연구 (A Study on Compensation of Amplitude in Multi Pulse)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제12권9호
    • /
    • pp.4119-4124
    • /
    • 2011
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 음성신호의 진폭이 증가하거나 감소하는 경우에 음성 파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성신호가 정규화되는 것이 원인으로 작용한다. 이것을 해결하기위하여 본 논문에서는 피치구간마다 멀티펄스의 진폭을 보정하는 방법(AC-MPC)을 제시하였으며, 기존의 MPC와 멀티펄스 진폭을 보정한 AC-MPC의 SNRseg를 평가한 결과, AC-MPC의 남자음성에서 0.7dB, 여자음성에서 0.7dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 AC-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

VoIP 시뮬레이션을 지원하는 네트워크 설계 및 분석 도구의 구현 (Implementation of a Network Design and Analysis Tool Supporting VoIP Simulations)

  • 최재원;이광휘
    • 대한전자공학회논문지TC
    • /
    • 제42권1호`
    • /
    • pp.81-89
    • /
    • 2005
  • 본 논문에서는 네트워크를 설계하고 분석할 수 있는 실용적인 시뮬레이션 도구의 구현에 대하여 기술하였다. 본 시뮬레이터의 특징은 쉽고 직관적인 사용법, 장비와 프로토콜의 실제 동작 구현, 시뮬레이션용 트래픽의 실제 생성과 전송, VoIP의 지원 등이다 특히 본 논문은 VoIP를 지원하는 시뮬레이터의 구현과 적용 방법에 초점을 맞추었다. 음성 트래픽의 특성만을 정의하여 전송하고 일반 데이터와 동일하게 처리하여 지연과 같은 품질만 분석하는 기존의 도구와는 차별을 두었다. 이를 위하여 통화를 연결하고 해제하는 호 신호와 음성 정보 트래픽을 구분하여 생성하고 처리하도록 하였다. 또한, VoIP 게이트웨이와 게이트키퍼 등의 장비를 탑재하여 호 처리율이나 실패율과 같은 장비의 성능과 함께 PSTN과 인터넷 상호 간의 음성 트래픽 전송ㆍ품질을 분석할 수 있도록 하였다. 본 시스템의 구현 방법과 적용 예를 통하여 시뮬레이션 도구의 활용화 방안을 제시하였다.

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.