• Title/Summary/Keyword: 오디오 코딩

Search Result 94, Processing Time 0.025 seconds

음성통신 서비스를 위한 코덱 표준화 동향

  • Lee, Mi-Suk;Kim, Do-Yeong;Lee, Byeong-Seon
    • Broadcasting and Media Magazine
    • /
    • v.16 no.4
    • /
    • pp.46-58
    • /
    • 2011
  • 본 고에서는 ITU-T와 3GPP를 중심으로 음성통신 서비스를 위해 표준으로 채택된 코덱의 특징과 현재 표준화가 진행중인 3GPP EVS(Enhanced Voice Service) 코덱 기술의 표준화 동향에 대해 살펴본다. ITU-T에서는 2000년 중반부터 기존의 협대역(전화선 대역) 보다 넓은 주파수 대역의 신호를 코딩할 수 있는 광대역과 슈퍼와이드밴드 코덱에 대한 표준화가 활발히 진행되었다. 3GPP에서는 2010년부터 4세대 이동 통신에서 고품질의 대화형 서비스를 제공하기 위해 음성뿐만 아니라 혼합컨텐츠와 오디오 신호에 대해서도 우수한 품질을 제공할 수 있는 코덱 기술에 대한 표준화를 진행하고 있다.

Implementation of Noise Reduction for Digital Video Camcorder (디지털비디오캠코더 소음 저감 알고리즘 구현)

  • Park Jaeha;Oh Yoonhak;Lee Hyuckjae
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.249-252
    • /
    • 2004
  • 본 논문에서는 TeakLite DSP 프로세서를 이용하여 캠코더에서 레코딩을 할 때 모터 소음과 주변 잡음이 입력되어 오디오 신호의 명료도가 떨어지는 문제점을 해결하기 위한 잡음 제거 기법의 실시간 구현에 대해서 기술하고자 한다. 잡음 제거를 위해서는 일반적으로 많이 사용되고 있는 Spectral Subtraction 기법을 사용하였다. 알고리즘 구현시 MIPS 감소에 효과적이었던 최적화 기법들을 적용하여 TeakLite DSP 프로세서에서 최적화되어 동작하도록 하였다. 최적화된 Spectral Subtraction 어셈블리 코드는 TeakLite DSP 프로세서에서 32 kHz, 16 bit 입력에 대해 40 MIPS에서 동작하였다.

  • PDF

An Empirical Approach on Textile Designer's Mental Model focused on the Motif Development for designing CAD tool of Digital Textile Printing (텍스타일 디자이너의 인지적 모형에 대한 실증적 접근 - 디지털 나염 전용 캐드 설계를 위한 모티브 개발을 중심으로-)

  • 송승근;이주현
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2002.11a
    • /
    • pp.160-166
    • /
    • 2002
  • 본 연구의 목적은 비디오/오디오 프로토콜 분석 방식을 이용해서 텍스타일 디자인 프로세스 중 모티브 개발 단계에서 디지털 나염(DTP : Digital Textile Printing) 전용 캐드(CAD)와 같은 디자인 저작도구를 설계할 때 어떤 요소에 중점을 두고 개발 할 것인지에 대한 향상된 지침을 마련하는데 있다. 텍스타일 디자인 프로세스에 대한 프로토콜 분석을 위해 선행 연구를 고찰하여 디자인 행동 범주의 틀을 하향식(top-down)방식으로 설정하고 실제 행동 프로토콜 (action protocol) 분석을 통해 상향식(bottom-up)방식으로 세부 디자인 행동을 도출하였다. 텍스타일 디자인은 선행연구의 건축디자인과는 다른 특징을 지니기 때문에 프로토콜 분석에서도 새로운 디자인 행동 범주(action category)가 필요하게 되었다. 이를 위하여 모델 휴먼 프로세서(Model Human Processor)이론을 근거로 디자인 행동을 모터 행동(motor action), 지각 행동(perceptual action), 인지 행동(cognitive action)의 세 가지 범주[4]로 나누었으며 텍스타일 디자인 프로세스에 적합한 코딩 스킴(coding scheme)을 개발하였다. 본 연구에서는 이 새로운 코딩 스킴을 토대로 디자인 저작도구에 대한 디자이너의 인지적 모형(Cognitive Model)을 개발하였다. 이렇게 개발된 디자이너의 인지적 모형은 디지털 나염을 기반으로 하는 모티브 개발 단계에서 스케치와 렌더링에 대한 디자인 저작 도구의 향상된 설계지침 뿐만 아니라 방향도 시사하였다.

  • PDF

Design and Implementation of DSM-CC Object Carousel Encoder using DirectShow Filters (DirectShow 필터를 이용한 DSM-CC Object Carousel 인코더의 설계 및 구현)

  • Lee Eun Sung;Choi Seong Jong;Park Min Sik;Choi Jin Soo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.105-108
    • /
    • 2003
  • 본 논문에서는 Microsoft DirectShow기반의 DSM-CC Object Carousel과 Data Download 프로토콜을 위한 인코더의 설계 및 구현에 대해 기술한다. DirectShow는 Component Object Model (COM) 기술을 기반으로 하고 있다. 따라서, 작성된 코드의 재사용과 유지보수가 용이하고, 멀티미디어(Multimedia) 데이터를 편리하게 처리말 수 있는 기능을 제공한다. 또한, 개발자가 COM component를 쉽게 제작할 수 있는 방법을 제공한다 하지만, 스트리밍 오디오/비디오 등의 디코딩을 위주로 개발된 DirectShow기술이 데이터 방송 서버에서의 실시간 인코딩 작업에 사용할 때에는 문제점이 발생한다 Data Carousel 방식에서는 인로딩 도중에 Update를 지원해야 한다. 즉, Carousel데이터의 Update가 있을 경우, 스트리밍(Streaming) 하는 동안 Update된 데이터를 인코딩 하여야 한다. 이러한 상황은 DirectShow의 기본 상태로는 표현하기 어려우므로 기본 상태를 확장하여 별도의 사용자 정의 상태를 추가하였다. 또한, 두 작업을 동시에 수행하기에 적합한 스레드(thread) 모델과 Push/pull 버퍼 모델을 설계하였다. DirectShow를 이용하여 인코더를 구현함으로써 개발자는 개발시간과 비용을 절약 할 수 있고, 사용자에게는 인코더를 등록하고 실행하기 쉬운 환경과 인로딩 상태의 실시간 모니터링 기능을 제공한다.

  • PDF

A Study on Implementation of Sound Recording and Player of Smartphone for Mobile Learning (모바일 학습을 위한 스마트폰의 사운드 레코딩과 플레이어 구현에 관한 연구)

  • Seo, Jung-Hee;Park, Hung-Bog
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.8 no.6
    • /
    • pp.847-854
    • /
    • 2013
  • This paper implements a smartphone application for sound recording and player of mobile learning. Due to its ubiquitous nature, smartphones could be used anytime anywhere, and because they combine an audio and a microphone, the application for sound recording and player that this paper suggests can be easily and cost effectively developed without additional infrastructure. This paper also explains a technique which processes data of music lyrics. The technique is built on a database technology by using SQLite, a DBMS combined in a platform of android. Thus, as long as the smartphone application for sound recording and player is developed and the mobile phone has sound source files, learners could record their own voices to the sound. Therefore, we expect the learners without additional infrastructure to enable mobile learning.

An Optimization Technique of Scene Description for Effective Transmission of Interactive T-DMB Contents (대화형 T-DMB 컨텐츠의 효율적인 전송을 위한 장면기술정보 최적화 기법)

  • Li Song-Lu;Cheong Won-Sik;Jae Yoo-Young;Cha Kyung-Ae
    • Journal of Broadcast Engineering
    • /
    • v.11 no.3 s.32
    • /
    • pp.363-378
    • /
    • 2006
  • The Digital Multimedia Broadcasting(DMB) system is developed to offer high quality audio-visual multimedia contents to the mobile environment. The system adopts MPEG-4 standard for the main video, audio and other media format. It also adopts the MPEG-4 scene description for interactive multimedia contents. The animated and interactive contents can be actualized by BIFS(Binary Format for Scene), the binary format for scene description that refers to the spatio-temporal specifications and behaviors of the individual objects. As more interactive contents are, the scene description is also needed more high bitrate. However, the bandwidth for allocating meta data such as scene description is restrictive in mobile environment. On one hand, the DMB terminal starts demultiplexing content and decodes individual media by its own decoder. After decoding each media, rendering module presents each media stream according to the scene description. Thus the BIFS stream corresponding to the scene description should be decoded and parsed in advance of presenting media data. With these reason, the transmission delay of BIFS stream causes the delay of whole audio-visual scene presentation although the audio or video streams are encoded in very low bitrate. This paper presents the effective optimization technique for adapting BIFS stream into expected MPEG-2 TS bitrate without any bandwidth waste and avoiding the transmission delay of the initial scene description for interactive DMB contents.

A Scene Boundary Detection Scheme using Audio Information in MPEG System Stream (MPEG 시스템 스트림상에서 오디오 정보를 이용한 장면 경계 검출 방법)

  • Kim, Jae-Hong;Nang, Jong-Ho;Park, Soo-Yong
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.8
    • /
    • pp.864-876
    • /
    • 2000
  • This paper proposes a new scene boundary detection scheme for the MPEG System stream using MPEG Audio information and proves its usefulness by extensive experiments. A scene boundary has a characteristic that the audio as well as video information are changed rapidly. This paper first classifies this scene boundary into three cases ; Radical, Gradual, Micro Changes, with respect to the audio changes. The Radical change has a large-scale changing of decibel value and pitch value at a scene boundary, the Gradual change shows the long-time transition of decibel and pitch values from max to min or vice versa, and the Micro change displays a some change of pitch or frequency distribution without decibel changes. Upon this analysis, a new scene change detection algorithm detecting these three cases is proposed in which a progressive window with a time line is used to trace the changes in the audio information. Some experiments with various movies show that proposed algorithm could produce a high detection ratio for Radical change that is the most popular scene change in the movies, while producing a moderate detection ratio for Gradual and Micro changes. The proposed scene boundary detection scheme could be used to build a database for visual information like MPEG System stream.

  • PDF

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

Implementation of MPEG-4 BSAC Audio Decoder using ARM926EJ-S Processors (ARM926EJ-S 프로세서를 이용한 MPEG-4 BSAC 오디오 복호화기의 구현)

  • Jeon, Young-Taek;Park, Young-Cheol
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.1 no.2
    • /
    • pp.91-98
    • /
    • 2008
  • Domestic standard for Korean T-DMB includes MPEG-4 BSAC (Bit Sliced Arithmetic Coding) audio coding that has been established in 2003. This paper presents an implementation and optimization of MPEG-4 BSAC Audio Decoder on ARM926EJ-S processor. Tools and modules of the BSAC audio decoder were implemented with 32-bit fixed point operations. Further optimization was accomplished using ARM926EJ-S Inline Assembly. The optimization was based on the total number of multiplications and MAC (Multiply and Accumulation) operations causing most of core cycles of ARM926EJ-S, and also based on analysis of ARMv5 instructions. The result of optimization was evaluated on the basis of MIPS (Million Instruction per second). Implementation results show that BSAC bitstream at 96kbps can be decoded in real-time at 65MHz CPU clocks.

  • PDF

Storing and Broadcast System of Smart Multi Encoding Image (Smart 멀티 인코딩 영상 저장 및 방송 시스템)

  • Kim, Chang-Su;Kim, Jung-Woo;Jung, Hoe-Kyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.7
    • /
    • pp.1633-1638
    • /
    • 2013
  • The mobile phone has now evolved into an effective multimedia devices to watch video content with your PC in addition to the calling features. Thus, the effectiveness of the video content streaming services smartphone will be available. And content should be able to deliver effectively. Be provided with textbook images and video of the speaker means that the effective content delivery. In this paper, we propose a integrated video management system that can be real-time VOD services on the Internet as input Multi-Source of audio-video, video content encoding system to meet the requirements of the above two.