• 제목/요약/키워드: 3D Audio

검색결과 210건 처리시간 0.031초

$\cdot$ 영 동시조음 데이터베이스의 구축 (Speech Coarticulation Database of Korean and English)

  • 김종미
    • 한국음향학회지
    • /
    • 제18권3호
    • /
    • pp.17-26
    • /
    • 1999
  • We present the first speech coarticulation database of Korean, English and Konglish/sup 3)/ named "SORIDA"/sup 4)/, which is designed to cover the maximum number of representations of coarticulation in these languages [1]. SORIDA features a compact database which is designed to contain a maximum number of triphones in a minimum number of prompts. SORIDA contains all consonantal triphones and vowel allophones in 682 Korean prompts of word length and in 717 English prompt words, spoken five times by speakers of balanced genders, dialects and ages. Korean prompts are synthesized lexicons which maximize their coarticulation variation disregarding any stress phenomena, while English prompts are natural words that fully reflect their stress effects with respect to the coarticulation variation. The prompts are designed differently because English phonology has stress while Korean does not. An intermediate language, Konglish has also been modeled by two Korean speakers reading 717 English prompt words. Recording was done in a controlled laboratory environment with an AKG Model C-100 microphone and a Fostex D-5 digital-audio-tape (DAT) recorder. The total recording time lasted four hours. SORIDA CD-ROM is available in one disk of 22.05 kHz sampling rate with a 16 bit sample size. SORIDA digital audio-tapes are available in four 124-minute-tapes of 48 kHz sampling rate. SORIDA′s list of phonetically-rich-words is also available in English and Korean.

  • PDF

완전 디지털 오디오 증폭기를 위한 보간 필터 설계 (An Interpolation Filter Design for the Full Digital Audio Amplifier)

  • 허서원;성혁기
    • 한국정보통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.253-258
    • /
    • 2012
  • 자연 샘플링 펄스폭 변조 방식을 디지털 영역에서 적용하기 위해서는 왜곡성능이 우수하고 계산 량이 적은 보간 필터가 필수적이다. 이를 위하여 본 논문에서는 변형된 패로우 구조를 기반으로 한 새로운 형태의 보간 필터를 제안 및 설계한다. 제안된 필터는 아날로그 신호 추정을 위해 단지 4개의 주변 샘플 값만을 필요로 하는 단순화된 구조를 가지므로 기존의 라그랑지 보간 필터와 비슷한 복잡도를 유지하면서 더 우수한 통과 대역 왜곡 특성을 보인다. 설계된 보간 필터를 이용하여 20 kHz 의 가청 주파수 대역에서 10-3 dB 의 최대 왜곡 편차를 달성하여 기존의 라그랑지 보간 방식과 비교하여 1/6 정도 감소된 최대 왜곡 편차 특성을 실현하였다.

다채널 오디오 코딩을 위한 MPEG Surround-2부: 다양한 모드 및 툴들 (MPEG Surround for Multi-Channel Audio Coding-Part 2: Various Modes and Tools)

  • 방희석
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.610-617
    • /
    • 2009
  • 본 논문에서는 MPEG Surround의 다양한 모드들과 툴들에 대해서 소개한다. MPEG Surround바이노럴 모드의 경우 HRTFs (Head-Related transfer Functions)를 이용하여 가상의 5.1 채널을 지원하기 때문에 휴대용 오디오 기기에서 헤드폰이나 이어폰을 이용하여 재생할 수 있다. 또한, MPEG Surround는 부가 정보 없이 스테레오 채널을 5.1 채널을 지원하는 Enhanced Matrix 모드, 기존의 3D 코딩 신호에 적용할 수 있는 3D 스테레오 모드, 복호화 과정에서 연산량을 크게 줄일 수 있는 저전력 (Low Power)버전 등을 지원한다. 이 외에도, MPEG Surround는 아티스틱 다운믹스 신호에 대해 적용하는 Arbitrary Downmix Gain (ADG)툴, 기존의 행렬 근거 방법들에 의한 다운믹스 신호에 적용되는 행렬 호환성 (Matrix Compatibility)툴, 고비트율을 사용할 수 있을 때 적용되는 잔차 신호 코딩 (Residual Coding)툴, 박수 소리 등 특정 신호에 대해 사용될 수 있는 GES (Guided Envelope Shaping)툴 등을 지원한다. 중요한 모드 및 툴들에 대해 여러 기관에 의해 수행된 청취 평가의 결과도 함께 보이고 있다.

선택적 비트 플레인 부호화를 이용한 오디오 주파수 계수의 무손실 부호화 기술 (Lossless Coding of Audio Spectral Coefficients Using Selective Bit-Plane Coding)

  • 유승관;박호종;오승준;안창범;심동규;백승권;강경옥
    • 한국음향학회지
    • /
    • 제27권1호
    • /
    • pp.18-25
    • /
    • 2008
  • 본 논문에서는 오디오 부호화기의 양자화 된 주파수 계수 인덱스를 무손실 부호화 하는 새로운 방법을 제안한다. 기존의 무손실 부호화기는 계수의 통계적 특성을 이용하여 허프만 부호화 하고 있으나 간단한 구조로 인하여 최고의 성능을 제공하지 못한다. 본 논문에서는 비트 플레인 변환과 런렝스 부호화 기술을 사용하여 성능이 향상된 새로운 주파수 계수의 무손실 부호화 기술을 제안한다. 제안하는 방법은 주파수 계수의 양자화 인덱스를 비트 플레인 변환을 거쳐 상관도가 높은 1차원 비트열로 변환하고 이를 런렝스 부호화 하고 최종적으로 런렝스 심볼을 허프만 부호화 한다. 또한 주파수 대역을 크게 3개의 구역으로 나누고 각 구역에서 비트 플레인 부호화 방법을 선택적으로 사용하도록 하여 성능을 추가로 향상시킨다. 제안한 무손실 부호화 성능을 엔트로피에 의한 이론적 비트 수로 측정하면 기존의 AAC 무손실 부호화에 비하여 최대 6% 성능 향상을 제공한다.

An Experimental Delay Analysis Based on M/G/1-Vacation Queues for Local Audio/Video Streams

  • Kim, Doo-Hyun;Lee, Kyung-Hee;Kung, Sang-Hwan;Kim, Jin-Hyung
    • ETRI Journal
    • /
    • 제19권4호
    • /
    • pp.344-362
    • /
    • 1997
  • The delay which is one of the quality of service parameters is considered to be a crucial factor for the effective usage of real-time audio and video streams in interactive multimedia collaborations. Among the various causes of the delay, we focus in this paper on the local delay concerned with the schemes which handle continuous inflow of encoded data from constant or variable bit-rate audio and video encoders. We introduce two kinds of implementation approaches, pull model and push model. While the pull model periodically pumps out the incoming data from the system buffer, the push model receives events from the device drivers. From our experiments based on Windows NT 3.51, it is shown that the push model outperforms the other for both constant and variable bit-rate streams in terms of the local delay, when the system suffers reasonable loads. We interpret this experimental data with M/G/1 multiple vacation queuing theories, and show that it is consistent with the queuing theoretic interpretations.

  • PDF

차내 경험의 디지털 트랜스포메이션과 오디오 기반 인터페이스의 동향 및 시사점 (Trends and Implications of Digital Transformation in Vehicle Experience and Audio User Interface)

  • 김기현;권성근
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.166-175
    • /
    • 2022
  • Digital transformation is driving so many changes in daily life and industry. The automobile industry is in a similar situation. In some cases, element techniques in areas called metabuses are also being adopted, such as 3D animated digital cockpit, around view, and voice AI, etc. Through the growth of the mobile market, the norm of human-computer interaction (HCI) has been evolving from keyboard-mouse interaction to touch screen. The core area was the graphical user interface (GUI), and recently, the audio user interface (AUI) has partially replaced the GUI. Since it is easy to access and intuitive to the user, it is quickly becoming a common area of the in-vehicle experience (IVE), especially. The benefits of a AUI are freeing the driver's eyes and hands, using fewer screens, lower interaction costs, more emotional and personal, effective for people with low vision. Nevertheless, when and where to apply a GUI or AUI are actually different approaches because some information is easier to process as we see it. In other cases, there is potential that AUI is more suitable. This is a study on a proposal to actively apply a AUI in the near future based on the context of various scenes occurring to improve IVE.

3D Graphics Visualization and Context Information Service for a Virtual Tourist System

  • Nguyen, Congdu;Le, Minh Tuan;Yoon, Dae-Il;Kim, Hae-Kwang
    • Journal of Ubiquitous Convergence Technology
    • /
    • 제1권1호
    • /
    • pp.47-52
    • /
    • 2007
  • In this paper, we present a virtual tourist system with realtime 3D visualization and the assistance of context information service. Our system enables a visitor to take a discovering tour on a virtual environment from a remote client by following navigator or by self-navigating. During the tour, the system provides immersive 3D graphics contents while supporting relevant information to the visitors corresponding to their positions in the virtual environment. When the visitors interact with interested objects, the context information service will also support introduction information for presenting about the objects. The introduction information based on text format is represented by a comfortable way-audio conversion to visitors in different languages depended on their preferences using TTS(Text-To-Speak) tool.

  • PDF

1-비트 4차 델타-시그마 변조기법을 이용한 D급 디지털 오디오 증폭기 (Class-D Digital Audio Amplifier Using 1-bit 4th-order Delta-Sigma Modulation)

  • 강경식;최영길;노형동;남현석;노정진
    • 대한전자공학회논문지SD
    • /
    • 제45권3호
    • /
    • pp.44-53
    • /
    • 2008
  • 본 논문에서는 휴대용 오디고 제품의 헤드폰 구동을 위한 델타-시그마 변조기법 기반의 D급 증폭기를 제안한다. 제안된 D급 증폭기는 고성능 단일 비트 4차 델타-시그마 변조기를 이용하여 펄스폭 변조 신호를 발생시킨다. 높은 신호 대 잡음비를 얻는 것과 동시에 시스템의 안정성 확보를 위하여 시뮬레이션을 통해 변조기 루프필터의 폴과 제로를 최적화하였다. 테스트 칩은 $0.18{\mu}m$ CMOS 공정으로 제작되었다. 칩 면적은 $1.6mm^2$ 이며, 20Hz 부터 20kHz까지의 신호대역을 대상으로 동작한다. 3V 전원전압과 32옴의 로드를 사용하여 측정된 출력은 0.03% 이하의 전고조파 왜율을 갖는다.

고성능 실시간 3D 오디오 엔진 (Low Complexity/High-Speed Real-time 3D Audio Engine)

  • 이승희;이교식;류대현;임태성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.220-222
    • /
    • 2001
  • 가상 현실을 요하는 멀티미디어 콘텐츠, DC-Title, 게임기등의 멀티미디어에서는 고급 장비의 사용 없이 2개의 스피커를 이용하여 3차원 효과를 들을 수 있는 입체 음향 기법이 활용된다. 2채널 3D오디오 방식에 있어서 위치음 효과는 머리전달함수(HRTF)를 사용하여 얻을 수 있다. 콘볼루션을 이용하는 기존의 방식들은 많은 계산량과 HRTP DB 저장을 위한 큰 메모리 용량을 요구한다. 따라서 실시간 구현이 어려울 뿐 아니라 고속 DSP를 사용해야 하는 단점을 가진다. 본 연구에서는 주파수 영역 분석법의 하나인 MDCT를 이용함으로써 계산량을 줄임과 도시에 HRTP DB의 데이터 양도 줄인다. 결과적으로 실시간 처리가 가능할 뿐 아니라 저속 DSP를 사용하여 구현 가능하게 함으로써 저가로 구현 할 수 있다. 본 연구 결과는 기존 제품들 중 스펙트럼 분석법을 이용한 오디오 압축 장치에 활용될 수 있는데 예를 들면 MP3/AAC/WMA Player에 적용하여 3차원 입체 음향을 구현 할 수 있다.

COSMOS의 3D 콘텐츠 음향정보 자동등록 기술 (Audio Information Authoring Technology for 3D Contents of COSMOS)

  • 지수미;권순일;백성욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2011
  • COSMOS (COntentS Making Omnipotent System)는 컴퓨터 게임이나 3차원 애니메이션 제작이 가능하도록 그래픽 랜더링, 특수효과, 물리엔진, 인공지능 엔진 등의 기능을 갖춘 범용성 3차원 콘텐츠 저작 시스템이며, 무엇보다도 직관적인 인터페이스 기능을 통해 사용자의 편리성을 제공해 준다. 본 논문은 COSMOS에서 음향 정보를 자동으로 3D 콘텐츠 구성 요소에 배합될 수 있도록 하는 기술에 대한 내용이다. 본 기술의 도입을 통해 COSMOS에서는 사용자의 의성어 소리를 인식하여, 그 의미에 적합한 디지털 사운드를 검색한 후에 사용자의 의도에 맞추어 변환하여 이와 관련된 콘텐츠 구성 요소와 일치 시켜줌으로써 보다 직관적으로 콘텐츠 저작 기능을 제공할 수 있다.