• Title/Summary/Keyword: audio engineering

Search Result 818, Processing Time 0.179 seconds

Low-Power and High-Efficiency Class-D Audio Amplifier Using Composite Interpolation Filter for Digital Modulators

  • Kang, Minchul;Kim, Hyungchul;Gu, Jehyeon;Lim, Wonseob;Ham, Junghyun;Jung, Hearyun;Yang, Youngoo
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제14권1호
    • /
    • pp.109-116
    • /
    • 2014
  • This paper presents a high-efficiency digital class-D audio amplifier using a composite interpolation filter for portable audio devices. The proposed audio amplifier is composed of an interpolation filter, a delta-sigma modulator, and a class-D output stage. To reduce power consumption, the designed interpolation filter has an optimized composite structure that uses a direct-form symmetric and Lagrange FIR filters. Compared to the filters with homogeneous structures, the hardware cost and complexity are reduced by about half by the optimization. The coefficients of the digital delta-sigma modulator are also optimized for low power consumption. The class-D output stage has gate driver circuits to reduce shoot-through current. The implemented class-D audio amplifier exhibited a high efficiency of 87.8 % with an output power of 57 mW at a load impedance of $16{\Omega}$ and a power supply voltage of 1.8 V. An outstanding signal-to-noise ratio of 90 dB and a total harmonic distortion plus noise of 0.03 % are achieved for a single-tone input signal with a frequency of 1 kHz.

Towards Low Complexity Model for Audio Event Detection

  • Saleem, Muhammad;Shah, Syed Muhammad Shehram;Saba, Erum;Pirzada, Nasrullah;Ahmed, Masood
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.175-182
    • /
    • 2022
  • In our daily life, we come across different types of information, for example in the format of multimedia and text. We all need different types of information for our common routines as watching/reading the news, listening to the radio, and watching different types of videos. However, sometimes we could run into problems when a certain type of information is required. For example, someone is listening to the radio and wants to listen to jazz, and unfortunately, all the radio channels play pop music mixed with advertisements. The listener gets stuck with pop music and gives up searching for jazz. So, the above example can be solved with an automatic audio classification system. Deep Learning (DL) models could make human life easy by using audio classifications, but it is expensive and difficult to deploy such models at edge devices like nano BLE sense raspberry pi, because these models require huge computational power like graphics processing unit (G.P.U), to solve the problem, we proposed DL model. In our proposed work, we had gone for a low complexity model for Audio Event Detection (AED), we extracted Mel-spectrograms of dimension 128×431×1 from audio signals and applied normalization. A total of 3 data augmentation methods were applied as follows: frequency masking, time masking, and mixup. In addition, we designed Convolutional Neural Network (CNN) with spatial dropout, batch normalization, and separable 2D inspired by VGGnet [1]. In addition, we reduced the model size by using model quantization of float16 to the trained model. Experiments were conducted on the updated dataset provided by the Detection and Classification of Acoustic Events and Scenes (DCASE) 2020 challenge. We confirm that our model achieved a val_loss of 0.33 and an accuracy of 90.34% within the 132.50KB model size.

깊은 신경망을 이용한 오디오 이벤트 검출 (Audio Event Detection Using Deep Neural Networks)

  • 임민규;이동현;박호성;김지환
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권1호
    • /
    • pp.183-190
    • /
    • 2017
  • 본 논문에서는 깊은 신경망을 이용한 오디오 이벤트 검출 방법을 제안한다. 오디오 입력의 매 프레임에 대한 오디오 이벤트 확률을 feed-forward 신경망을 적용하여 생성한다. 매 프레임에 대하여 멜 스케일 필터 뱅크 특징을 추출한 후, 해당 프레임의 전후 프레임으로부터의 특징벡터들을 하나의 특징벡터로 결합하고 이를 feed-forward 신경망의 입력으로 사용한다. 깊은 신경망의 출력층은 입력 프레임 특징값에 대한 오디오 이벤트 확률값을 나타낸다. 연속된 5개 이상의 프레임에서의 이벤트 확률값이 임계값을 넘을 경우 해당 구간이 오디오 이벤트로 검출된다. 검출된 오디오 이벤트는 1초 이내에 동일 이벤트로 검출되는 동안 하나의 오디오 이벤트로 유지된다. 제안된 방법으로 구현된 오디오 이벤트 검출기는 UrbanSound8K와 BBC Sound FX자료에서의 20개 오디오 이벤트에 대하여 71.8%의 검출 정확도를 보였다.

MOST150 네트워크 환경에서 Audio 데이터 입출력 제어 기능의 설계 및 구현 (Design and Implementation of Audio Data In/Out Control Functions based on MOST150 Network)

  • 천승환;곽길봉;장시웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 춘계학술대회
    • /
    • pp.314-317
    • /
    • 2012
  • 최근 차량의 멀티미디어 장치들이 증가하면서 이 장치들을 광 네트워크로 연결하여 멀티미디어 데이터를 송 수신해서 사용할 수 있는 MOST(Media Oriented Systems Transport) 네트워크를 적용한 차량들이 늘어나고 있다. MOST 네트워크는 최근 자동차 멀티미디어 시스템에 넓게 사용되고 있는 통신 시스템으로서, 동기 및 비동기 데이터를 동시에 전송할 수 있고, 최근에는 150Mbps를 전송할 수 있는 MOST150 네트워크를 이용한 연구가 활발히 진행되고 있다. 본 논문에서는 MOST150 네트워크에서 Audio 데이터 입출력을 제어하기 위한 알고리즘을 설계 및 구현하였다. Audio 데이터를 제어하는 방식은 ADC(Analog to Digital Converter)를 통해 Audio 데이터가 들어오면 IOC(IO Companion)를 통해 INIC으로 Audio데이터를 전달한다. INIC은 MOST150 네트워크로 데이터를 전송하고 그렇게 보내진 Audio 데이터를 MOST150 네트워크 내부의 다른 장치에서 INIC을 통해 데이터를 수신하여 DAC(Digital to Analog Converter)를 통해 Audio 장치에서 소리가 나는 것을 테스트하여 정상적으로 동작함을 확인하였다.

  • PDF

서버-클라이언트 모델에서의 TCP/IP 기반 실시간 음성 처리 (Real-time Audio Processing for TCP/IP in Server-Client Model)

  • 이형호;정대영;박경태;유병석;김정식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.619-621
    • /
    • 2013
  • 본 논문은 TCP/IP 환경에서 서버-클라이언트(Server-Client)를 구축하고 이를 이용하여 실시간으로 음성 데이터를 처리하는 시스템을 제안한다. 서버에서는 음성 데이터를 재생하는 동시에 일정 간격으로 패킷(Packet)을 구성하여 클라이언트로 송신하고, 클라이언트는 수신받은 음성 데이터 패킷을 받아 재생한다. 일반적으로 TCP/IP 환경에서는 재생하는 속도보다 패킷을 수신하는 속도가 빠르기 때문에, 수신하는 음성 데이터를 단일로 재생할 경우 원활하지 않은 재생 현상을 보인다. 이를 해결하기 위해 본 논문에서는 더블 버퍼링(Double Buffering) 기법을 사용하였고, 이를 활용하여 실시간 음성 처리 및 재생을 가능하게 하였다.

  • PDF

회의실의 명료성(STI) 향상을 위한 오디오신호 처리 및 시스템 설계 (Audio Signal Processing and System Design for improved intelligibility in Conference Room)

  • 강철용;이석주;조광연;이선희
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.225-232
    • /
    • 2017
  • 최근에 오디오 신호의 디지털 전송기술의 발전 및 디지털 전송기술을 이용한 오디오 네트워크 장비들의 출시가 이루어지고 있다. 이에 따라 음향시스템의 설계 및 시공에 있어서도 오디오 네트워크 기술 및 장비의 적용이 적극적으로 이루어지고 있다. 회의실이라는 공간은 다수의 참가자가 상호의견교환 및 의사전달을 하는 공간으로, 발언내용이 참석자에게 잘 전달되어야 한다. 마이크 및 스피커 등의 전기음향 장치를 이용하는 것 만 아니라 오디오 네트워크를 이용한 사례를 통해 회의실의 명료도 향상을 개선하고 실제 사례를 통해 오디오 네트워크를 이용한 음향시스템 설계의 적용과 향후 발전방향을 전망한다.

대역확산과 심리음향 모델을 이용한 고음질 오디오 워터마킹 (High Quality Audio Watermarking using Spread Spectrum and Psychoacoustic Model)

  • 노진수;이강현
    • 전자공학회논문지CI
    • /
    • 제43권5호
    • /
    • pp.48-56
    • /
    • 2006
  • 본 논문에서는 심리음향 모델과 MDCT/IMDCT(Modified DCT/Inverse Modified DCT)를 이용하여 고음질 오디오 워터마킹 알고리즘을 제안하였다. 일반적으로 디지털 오디오 워터마크는 디지털 오디오 신호를 주파수 영역으로 변환 한 다음 주파수 영역에 워터마크를 삽입하지만 삽입된 워터마크에 의해 디지털 오디오 음질이 영향을 받게 된다. 제안된 알고리즘에서는 디지털 오디오 데이터를 PN(Pseudo Noise) 코드를 사용하여 확산시킨 다음 심리음향 모델을 참조하여 MDCT 과정을 통하여 오디오 워터마크를 삽입시킨다. MDCT 과정에서 고음질의 오디오를 얻기 위해 필터뱅크 출력의 첨예도에 따라 256, 1,024 또는 2,048 포인트의 윈도우가 선택되어진다. 본 논문에서 워터마크 계수 ${\alpha}$가 2.5 이하일 때, 워터마크의 검출률이 SDMI(Secure Digital Music Initiative)의 제안 조건을 50% 이상 상회 하며, SNR은 4종류의 공격(압축, 절단, FFT, 에코)에 대해 $50{\sim}68dB$ 값을 가짐을 확인하였다.

A Robust Audio Fingerprinting Method Based on Segmentation Boundaries

  • Seo, Jin-Soo
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.260-265
    • /
    • 2012
  • A robust audio fingerprinting method is presented based on segmentation boundaries. In order to obtain robustness against linear speed changes, fingerprint extraction and matching are synchronized with the segmentation boundaries. Experimental results show that the proposed method is also robust against other common audio processing steps including low bit-rate compression, equalization, and time-scale modification.

A public key audio watermarking using patchwork algorithm

  • Hong, Doo-Gun;Park, Se-Hyoung;Jaeho Shin
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.160-163
    • /
    • 2002
  • This paper presents a statistical technique for audio watermarking. We describe the application of the promising public key watermarking method to the patchwork algorithm. Its detection process does not need the original content nor the secret key used in the embedding process. Special attention is given to statistical method working in the frequency domain. We will present a solution of robust watermarking of audio data. In this scheme, an extension of patchwork audio watermarking is presented which enables public detection of the watermark. Experimental results show good robustness of the approach against MP3 compression and other common signal processing manipulations.

  • PDF

Design of Music Learning Assistant Based on Audio Music and Music Score Recognition

  • Mulyadi, Ahmad Wisnu;Machbub, Carmadi;Prihatmanto, Ary S.;Sin, Bong-Kee
    • 한국멀티미디어학회논문지
    • /
    • 제19권5호
    • /
    • pp.826-836
    • /
    • 2016
  • Mastering a musical instrument for an unskilled beginning learner is not an easy task. It requires playing every note correctly and maintaining the tempo accurately. Any music comes in two forms, a music score and it rendition into an audio music. The proposed method of assisting beginning music players in both aspects employs two popular pattern recognition methods for audio-visual analysis; they are support vector machine (SVM) for music score recognition and hidden Markov model (HMM) for audio music performance tracking. With proper synchronization of the two results, the proposed music learning assistant system can give useful feedback to self-training beginners.