• 제목/요약/키워드: Audio processing

검색결과 458건 처리시간 0.027초

서버-클라이언트 모델에서의 TCP/IP 기반 실시간 음성 처리 (Real-time Audio Processing for TCP/IP in Server-Client Model)

  • 이형호;정대영;박경태;유병석;김정식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.619-621
    • /
    • 2013
  • 본 논문은 TCP/IP 환경에서 서버-클라이언트(Server-Client)를 구축하고 이를 이용하여 실시간으로 음성 데이터를 처리하는 시스템을 제안한다. 서버에서는 음성 데이터를 재생하는 동시에 일정 간격으로 패킷(Packet)을 구성하여 클라이언트로 송신하고, 클라이언트는 수신받은 음성 데이터 패킷을 받아 재생한다. 일반적으로 TCP/IP 환경에서는 재생하는 속도보다 패킷을 수신하는 속도가 빠르기 때문에, 수신하는 음성 데이터를 단일로 재생할 경우 원활하지 않은 재생 현상을 보인다. 이를 해결하기 위해 본 논문에서는 더블 버퍼링(Double Buffering) 기법을 사용하였고, 이를 활용하여 실시간 음성 처리 및 재생을 가능하게 하였다.

  • PDF

MPEG Audio 데이터 처리를 위한 확장된 고정소수점 연산처리에 관한 연구 (A study on the extended fixed-point arithmetic computation for MPEG audio data processing)

  • 한상원;공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(2)
    • /
    • pp.250-253
    • /
    • 2000
  • In this paper, we Implement a new arithmetic computation for MPEG audio data to overcome the limitations of real number processing in the fixed-point arithmetics, such as: overheads in processing time and power consumption. We aims at efficiently dealing with real numbers by extending the fixed-point arithmetic manipulation for floating-point numbers in MPEG audio data, and implementing the DSP libraries to support the manipulation and computation of real numbers with the fixed-point resources.

  • PDF

A Beamforming-Based Video-Zoom Driven Audio-Zoom Algorithm for Portable Digital Imaging Devices

  • Park, Nam In;Kim, Seon Man;Kim, Hong Kook;Kim, Myeong Bo;Kim, Sang Ryong
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제2권1호
    • /
    • pp.11-19
    • /
    • 2013
  • A video-zoom driven audio-zoom algorithm is proposed to provide audio zooming effects according to the degree of video-zoom. The proposed algorithm is designed based on a super-directive beamformer operating with a 4-channel microphone array in conjunction with a soft masking process that uses the phase differences between microphones. The audio-zoom processed signal is obtained by multiplying the audio gain derived from the video-zoom level by the masked signal. The proposed algorithm is then implemented on a portable digital imaging device with a clock speed of 600 MHz after different levels of optimization, such as algorithmic level, C-code and memory optimization. As a result, the processing time of the proposed audio-zoom algorithm occupies 14.6% or less of the clock speed of the device. The performance evaluation conducted in a semi-anechoic chamber shows that the signals from the front direction can be amplified by approximately 10 dB compared to the other directions.

  • PDF

A Single-Chip Video/Audio CODEC for Low Bit Rate Application

  • Park, Seong-Mo;Kim, Seong-Min;Kim, Ig-Kyun;Byun, Kyung-Jin;Cha, Jin-Jong;Cho, Han-Jin
    • ETRI Journal
    • /
    • 제22권1호
    • /
    • pp.20-29
    • /
    • 2000
  • In this paper, we present a design of video and audio single chip encoder/decoder for portable multimedia application. The single-chip called as video audio signal processor (VASP) consists of a video signal processing block and an audio single processing block. This chip has mixed hardware/software architecture to combine performance and flexibility. We designed the chip by partitioning between video and audio block. The video signal processing block was designed to implement hardware solution of pixel input/output, full pixel motion estimation, half pixel motion estimation, discrete cosine transform, quantization, run length coding, host interface, and 16 bits RISC type internal controller. The audio signal processing block is implemented with software solution using a 16 bits fixed point DSP. This chip contains 142,300 gates, 22 Kbits FIFO, 107 kbits SRAM, and 556 kbits ROM, and the chip size is $9.02mm{\times}9.06mm$ which is fabricated using 0.5 micron 3-layer metal CMOS technology.

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

다채널 스피커 시스템을 위한 오디오 신호지 직렬 전송 (Serial Transmission of Audio Signals for Multi-channel Speaker Systems)

  • 권오균;송문빈;이승원;이영원;정연모
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.387-394
    • /
    • 2005
  • 본 논문에서는 다채널 오디오 시스템의 스피커들을 직렬로 연결하기 위한 새로운 오디오 신호 전송 기법을 제시한다. 다채널 오디오 본체로부터의 아날로그 신호는 디지털 신호로 변환되고 신호 처리 과정을 거쳐서 직렬로 연결된 각 스피커에 전달된다. 여기서 신호 처리 과정은 오디오 신호의 특성을 고려한 데이터 압축과 전송을 위한 패킷 생성을 포함한다. 각 스피커는 전달된 패킷으로부터 해당하는 디지털 신호만을 검출하여 아날로그 신호로 다시 변환하여 음향을 재생한다. 제시된 모든 기능은 VHDL을 사용하여 모델링되었으며 FPGA 칩으로 구현하였고 실제 다채널 오디오 시스템에서 테스트하였다.

신호의 복원된 위상 공간을 이용한 오디오 상황 인지 (Audio Context Recognition Using Signal's Reconstructed Phase Space)

  • ;;;이승룡;구교호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.243-244
    • /
    • 2009
  • So far, many researches have been conducted in the area of audio based context recognition. Nevertheless, most of them are based on existing feature extraction techniques derived from linear signal processing such as Fourier transform, wavelet transform, linear prediction... Meanwhile, environmental audio signal may potentially contains non-linear dynamic properties. Therefore, it is a big potential to utilize non-linear dynamic signal processing techniques in audio based context recognition.

회의실의 명료성(STI) 향상을 위한 오디오신호 처리 및 시스템 설계 (Audio Signal Processing and System Design for improved intelligibility in Conference Room)

  • 강철용;이석주;조광연;이선희
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.225-232
    • /
    • 2017
  • 최근에 오디오 신호의 디지털 전송기술의 발전 및 디지털 전송기술을 이용한 오디오 네트워크 장비들의 출시가 이루어지고 있다. 이에 따라 음향시스템의 설계 및 시공에 있어서도 오디오 네트워크 기술 및 장비의 적용이 적극적으로 이루어지고 있다. 회의실이라는 공간은 다수의 참가자가 상호의견교환 및 의사전달을 하는 공간으로, 발언내용이 참석자에게 잘 전달되어야 한다. 마이크 및 스피커 등의 전기음향 장치를 이용하는 것 만 아니라 오디오 네트워크를 이용한 사례를 통해 회의실의 명료도 향상을 개선하고 실제 사례를 통해 오디오 네트워크를 이용한 음향시스템 설계의 적용과 향후 발전방향을 전망한다.

A Study on Setting the Minimum and Maximum Distances for Distance Attenuation in MPEG-I Immersive Audio

  • Lee, Yong Ju;Yoo Jae-hyoun;Jang, Daeyoung;Kang, Kyeongok;Lee, Taejin
    • 방송공학회논문지
    • /
    • 제27권7호
    • /
    • pp.974-984
    • /
    • 2022
  • In this paper, we introduce the minimum and maximum distance setting methods used in geometric distance attenuation processing, which is one of spatial sound reproduction methods. In general, sound attenuation by distance is inversely proportional to distance, that is 1/r law, but when the relative distance between the user and the audio object is very short or long, exceptional processing might be performed by setting the minimum distance or the maximum distance. While MPEG-I Immersive Audio's RM0 uses fixed values for the minimum and maximum distances, this study proposes effective methods for setting the distances considering the signal gain of an audio object. Proposed methods were verified through simulation of the proposed methods and experiments using RM0 renderer.

MPEG Audio 비트스트림의 효율적 처리를 위한 입력 버퍼에 관한 연구 (A Study on the input butter for efficient processing of MPEG Audio bitstream)

  • 임성룡;공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(2)
    • /
    • pp.181-184
    • /
    • 2000
  • In this paper, we described a design of the input buffer system for efficiently dealing with MPEG audio bitstream to demux header and side information, audio data. In order to overcome the limitations of fixed-word manipulation in bitstream demuxing, we proposed a new variable length bit retrieval system with FSM sequencer supporting MPEG audio frame format, and serial buffer demuxing audio stream, FIFO circular buffer including header and side information.

  • PDF