• Title/Summary/Keyword: Digital Audio

Search Result 623, Processing Time 0.026 seconds

A Study on Visualization of Musical Rhythm Based on Music Information Retrieval (Music Information Retrieval(MIR)을 활용한 음악적 리듬의 시각화 연구 -Onset 검출(Onset Detection) 알고리즘에 의한 시각화 어플리케이션)

  • Che, Swann
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.1075-1080
    • /
    • 2009
  • 이 글은 Music Information Retrieval(MIR) 기법을 사용하여 오디오 콘텐츠의 리듬 정보를 자동으로 분석하고 이를 시각화하는 방법에 대해 다룬다. 특히 MIR을 활용한 간단한 시각화(sound visualization) 어플리케이션을 소개함으로써 음악 정보 분석이 디자인, 시각 예술에서 다양하게 활용될 수 있음을 보이고자 한다. 음악적 정보를 시각 예술로 담아내려는 시도는 20세기 초 아방가르드 화가들에 의해 본격적으로 시작되었다. 80년대 이후에는 컴퓨터 기술의 급속한 발전으로 사운드와 이미지를 디지털 영역에서 쉽게 하나로 다룰 수 있게 되었고, 이에 따라 다양한 오디오 비주얼 예술작품들이 등장하였다. MIR은 오디오 콘텐츠로부터 음악적 정보를 분석하는 DSP(Digital Signal Processing) 기술로 최근 디지털 콘텐츠 시장의 확장과 더불어 연구가 활발히 진행되고 있다. 특히 웹이나 모바일에서는 이미 다양한 상용 어플리케이션이 적용되고 있는데 query-by-humming과 같은 음악 인식 어플리케이션이 대표적인 경우이다. 이 글에서는 onset 검출(onset detection)을 중심으로 음악적 리듬을 분석하는 알고리즘을 살펴보고 기본적인 조형원리에 따라 이를 시각화하는 어플리케이션의 예를 소개한다.

  • PDF

A Study on the Acoustic Characteristics of Sexy Voice (섹시한 음성의 음향학적 특징 연구)

  • Jeong Ok-Ran;Jo Sung-Mi
    • MALSORI
    • /
    • no.57
    • /
    • pp.73-84
    • /
    • 2006
  • The purpose of this study was to explore the acoustic characteristics of sexy voice. In this study, we measured acoustic parameters (fundamental frequency, jitter, shimmer, and nasalance) of a sustained vowel sound produced by 40 actors (20 males and 20 females) and 40 non-actors (20 males and 20 females). Digital audio recordings were made in the sustained vowel |a| for acoustic analyses using Praat (version 4.1.9) and Nasal View (version 4.5). Twenty voice pathologists participated in the listening experiment and judged the degree of sexiness on a 7-point scale. The results showed that fundamental frequency, shimmer and nasalance had significant differences between actors and non-actors. The acoustic parameters of sexy voice matched perceptual aspects of a previous study: Low fundamental frequency-low pitch and high shimmer-husky voice. On the other hand, the nasalance score did not match that of the previous study: Decreased nasalance had a higher score on sexiness scale judged by the listeners. It would be desirable to study the voice quality by analyzing and controlling more acoustic and auditory parameters for practical applications in the future.

  • PDF

A study on the improvement of speech recognition for similar place names (유사지명 인식시의 성능 개선 연구)

  • 백승권;양희식;한민수
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2000.11b
    • /
    • pp.49-53
    • /
    • 2000
  • 본 연구에서는 DAB(Digital Audio Broadcasting) 시스템의 교통정보 검색 서비스를 위하여 경부선 및 호남선의 톨게이트가 위치한 49 개의 지명을 대상으로 이를 인식하고자 할 때 인식 율을 개선하였다. 지명 어휘의 특성을 분석한 결과 전체 지명의 81.6%가 2 음절이었으며 동일한 음절을 포함하는 지명이 전체의 구성된 어휘가 61%로 조사되었다. 시스템에서 인식율을 개선하기 위하여 인식 대상어휘를 3개의 set로 재분류하고 인식 대상 어휘로 판정된 후보 어휘에 대하여 인식 성공여부에 핵심이 되는 음절의 위치에 따라 가중치 윈도우를 적용하였다. 그 결과 화자 독립의 인식율 테스트에서 남성의 경우 7.2%, 여성의 경우 5.1%의 인식율 향상을 보였다.

  • PDF

Analysis & Requirement Specification of High Speed Access Network (초고속 가입자 망의 연구 동향 분석과 가입자망 구조(안))

  • 장종욱
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.04a
    • /
    • pp.317-322
    • /
    • 1998
  • 국내 가입자 망의 대형 시장을 보호하고 각 기업의 중첩 투자에 대비하고 국제 환경에 효과적으로 대응하기 위한 가입자 망 관련 기술 확보를 위해서는 국내 상황에 필요한 가입자 망 전반에 걸친 구조와 기술에 대하여 표준화가 시급한 실정이다. 다시 말하면 가입자 망의 표준화가 우리의 한정된 기술 개발 자원을 효과적으로 활용, 경쟁력 있는 핵심 기술을 집중적으로 개발하여 국각 경쟁력을 우위에서게 할 뿐 아니라 기술개발 결과물이 조기에 시장 경쟁력을 갖도록 해준다. 가입자 망에 대한 관심이 전세계적으로 매우 높아짐에 따라 ITU-T(International Telecommunication Union-Radio communications Sector), ETSI(European Telecommunication Standards Institute), DAVIC(Digital Audio Visual Council)과 FSAN(Full Service Access Network) Gx와 같은 여러 기관들이 가입자 망의 기능과 구조를 정의하고 있다. 이 논문에서는 각 기관들이 제시하는 가입자 망의 모델에 대해서 살펴보고 국내 상황에 맞는 가입자 망 구조의 표준(안)을 제시한다.

  • PDF

Interactive Spatial Augmented Reality Book on Cultural Heritage of Myanmar

  • Hta, Aye Chan Zay;Lee, Yunli
    • Journal of information and communication convergence engineering
    • /
    • v.18 no.2
    • /
    • pp.69-74
    • /
    • 2020
  • Myanmar, also known as Burma, has a rich cultural heritage, and its historical tourist attractions well known around the world. Therefore, we designed and developed an interactive spatial augmented reality (iSAR) book on the cultural heritage of Myanmar. This iSAR book has total of 18 pages with rich media content including videos, animations, audio, and images featuring the cultural heritage of Myanmar in a digital format. In addition to virtual content, navigational features such as virtual buttons and touch-based hand gestures were implemented using Leap Motion and VVVV. Therefore, the developed iSAR book allows virtual content and navigational features to merge seamlessly into a physical book. Five participants were recruited to evaluate the prototype iSAR book, and interviews were conducted to gather their feedback based on its immersive qualities. Thus, the developed iSAR book on Myanmar effectively shares the cultural heritage of Myanmar, and ultimately allows users to explore and gain more insight into the country.

A Blind Video Watermarking Technique Using Luminance Masking and DC Modulus Algorithm (휘도 마스킹과 DC Modulus 알고리즘을 이용한 비디오 워터마킹)

  • Jang Yong-Won;Kim, In-Taek;Han, Seung-Soo
    • The Transactions of the Korean Institute of Electrical Engineers D
    • /
    • v.51 no.7
    • /
    • pp.302-307
    • /
    • 2002
  • Digital watermarking is the technique, which embeds an invisible signal including signal including owner identification and copy control information into multimedia data such as audio, video, and images for copyright protection. A new MPEG watermark embedding algorithm using complex block effect based on the Human Visual System(HVS) is introduced in this paper. In this algorithm, $8{\times}8$ dark blocks are selected, and the watermark is embedded in the DC component of the discrete cosine transform(DCT) by using quantization and modulus calculation. This algorithm uses a blind watermark retrieval technique, which detects the embedded watermark without using the original image. The experimental results show that the proposed watermark technique is robust against MPEG coding, bitrate changes, and various GOP(Group of Picture) changes.

Classification of Pathological Voice from ARS using Neural Network (신경회로망을 이용한 ARS 장애음성의 식별에 관한 연구)

  • Jo, C.W.;Kim, K.I.;Kim, D.H.;Kwon, S.B.;Kim, K.R.;Kim, Y.J.;Jun, K.R.;Wang, S.G.
    • Speech Sciences
    • /
    • v.8 no.2
    • /
    • pp.61-71
    • /
    • 2001
  • Speech material, which is collected from ARS(Automatic Response System), was analyzed and classified into disease and non-disease state. The material include 11 different kinds of diseases. Along with ARS speech, DAT(Digital Audio Tape) speech is collected in parallel to give the bench mark. To analyze speech material, analysis tools, which is developed local laboratory, are used to provide an improved and robust performance to the obtained parameters. To classify speech into disease and non-disease class, multi-layered neural network was used. Three different combinations of 3, 6, 12 parameters are tested to obtain the proper network size and to find the best performance. From the experiment, the classification rate of 92.5% was obtained.

  • PDF

Digital Audio Contents Retrieval System Using a Content-based Query Method (내용기반 질의법을 이용한 디지털 오디오 콘텐츠 검색 시스템)

  • Heo Sung-Phil;Lim Woo-Young;Han Pyong-Hee
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2004.08a
    • /
    • pp.81-85
    • /
    • 2004
  • 내용기반 질의법 (Content-based Query Method)은 멀티미디어 데이터가 가지고 있는 고유의 특성을 검색의 단서로 하여 질의하는 방법이다. 따라서 이러한 내용 기반의 디지털 오디오 콘텐츠 시스템은 유저가 데이터베이스 내에서 찾고자 하는 오디오 관련 정보의 질의 방법으로써 그 노래의 멜로디 정보를 입력함으로써 이루어지게 된다. 본 논문에서는 가수명이나 노래 제목, 혹은 가사의 일부 등 기존의 음악 검색에 필수적인 텍스트 정보인 키워드를 전혀 모르는 상태에서, 휴대폰이나 컴퓨터의 마이크를 통해 자신이 기억하고 있는 노래의 일부분을 흥얼거리는 것만으로, 각종 오디오 정보를 손쉽게 찾아주는 내용기반 질의법을 이용한 디지털오디오 검색시스템 (MuseFinder)을 소개한다. 또한 실제 유저의 편이성을 고려한 GUI에 기초한 고성능의 검색시스템을 구현하는데 있어 주요 이슈와 고려사항에 대해서 살펴보고 그 해결 방법을 제안한다.

  • PDF

An effective video multiplexing method for the DMB multimedia services (DMB 멀티미디어 서비스를 위한 효율적인 비디오 다중화 방식)

  • 나남웅;백선혜;홍성훈
    • Proceedings of the IEEK Conference
    • /
    • 2003.11a
    • /
    • pp.267-270
    • /
    • 2003
  • The DMB recently standardized in Korea is a Eureka-147 DAB(Digital Audio Broadcasting)-based standard which is able to provide multimedia services including moving pictures, still images, text and etc. That has the structure to add the MPEG media codec and the MPEG system, namely, video-multiplexer to the DAB system. In this paper, we analysis the video-multiplexer of the DMB standard and propose a new multiplexer, namely. M4GM(MPEG-4 General Mux) included in the DMB vido-multiplexer for the performance improvement with respect to the transmission efficiency and the expansible functions. In addition, we simulate the two video-multiplexers and then compare and estimate their performance entirely.

  • PDF

Reinforcement of the Coorporative Study for the International Standardization Activities (핵심기술 분야별 표준화 기구 및 포럼 연구 동향 분석)

  • Lee, D.C
    • Electronics and Telecommunications Trends
    • /
    • v.13 no.6 s.54
    • /
    • pp.202-212
    • /
    • 1998
  • 본 고에서는 요즘 전세계적으로 관심을 모으고 있는 핵심기술 분야별 표준화 기구 및 포럼에서 발표된 표준화의 최신동향을 기술별로 정리하였다. 주요 쟁점기술에 대한 내용으로는 총 네 개 기술위원회의 활동으로 IEEE 802.1, 2, 3, 11 위원회에서 논의된 Trunking 기술표준의 제정 및 CATV LAN 방식, ATM Forum에서 논의된 Routing Addressing과 PNNI Interoperability 시험규격, DAVIC에서 논의된 VOD Service, Digital Audio Visual, 그리고 ISO/IEC JTC1 WG11 MPEG 44차 기술표준화 내용을 정리하였다. 각 분야별 쟁점기술표준에 대한 한국의 대응전략을 정리하여 산업체 기술개발에 많이 활용될 수 있을 것으로 사료된다.