• 제목/요약/키워드: Digital Audio

검색결과 623건 처리시간 0.023초

디지털 TV용 Reed-Solomon 복호기의 구현 (Reed-Solomon Decoder using Berlekamp-Massey Algorithm for Digital TV)

  • 박찬일;김종태
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 하계학술대회 논문집 G
    • /
    • pp.3212-3214
    • /
    • 1999
  • RS(Reed-Solomon)부호는 오류 정정을 위한 채널 코딩기법중의 하나로 특히 연집 오류에 대해 강한 특성을 갖고 있으며, CD-P(Compact Disc Player), DAT(Digital Audio Tape). VTR, DVD(Digital Video Disc), 디지탈 TV 디코더등에서 사용되고 있다. 본 논문은 Galois Field, GF[$2^8$]상에서 (204. 188. 8)의 규격을 갖는 디지탈 TV용 RS 복호기의 구현에 관한 연구로 8개의 심볼 오류까지 정정 가능하다. 오증 계산은 16개의 오증 계산셀로 구성되어 지며, 오류 위치 다항식을 계산하는데 있어서는 Berlekamp-Massey 알고리즘을 사용한다. VHDL로 설계되어 Synopsys를 이용하여 검증 및 합성하였다.

  • PDF

COSMOS의 3D 콘텐츠 음향정보 자동등록 기술 (Audio Information Authoring Technology for 3D Contents of COSMOS)

  • 지수미;권순일;백성욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2011
  • COSMOS (COntentS Making Omnipotent System)는 컴퓨터 게임이나 3차원 애니메이션 제작이 가능하도록 그래픽 랜더링, 특수효과, 물리엔진, 인공지능 엔진 등의 기능을 갖춘 범용성 3차원 콘텐츠 저작 시스템이며, 무엇보다도 직관적인 인터페이스 기능을 통해 사용자의 편리성을 제공해 준다. 본 논문은 COSMOS에서 음향 정보를 자동으로 3D 콘텐츠 구성 요소에 배합될 수 있도록 하는 기술에 대한 내용이다. 본 기술의 도입을 통해 COSMOS에서는 사용자의 의성어 소리를 인식하여, 그 의미에 적합한 디지털 사운드를 검색한 후에 사용자의 의도에 맞추어 변환하여 이와 관련된 콘텐츠 구성 요소와 일치 시켜줌으로써 보다 직관적으로 콘텐츠 저작 기능을 제공할 수 있다.

Digital enhancement of pronunciation assessment: Automated speech recognition and human raters

  • Miran Kim
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.13-20
    • /
    • 2023
  • This study explores the potential of automated speech recognition (ASR) in assessing English learners' pronunciation. We employed ASR technology, acknowledged for its impartiality and consistent results, to analyze speech audio files, including synthesized speech, both native-like English and Korean-accented English, and speech recordings from a native English speaker. Through this analysis, we establish baseline values for the word error rate (WER). These were then compared with those obtained for human raters in perception experiments that assessed the speech productions of 30 first-year college students before and after taking a pronunciation course. Our sub-group analyses revealed positive training effects for Whisper, an ASR tool, and human raters, and identified distinct human rater strategies in different assessment aspects, such as proficiency, intelligibility, accuracy, and comprehensibility, that were not observed in ASR. Despite such challenges as recognizing accented speech traits, our findings suggest that digital tools such as ASR can streamline the pronunciation assessment process. With ongoing advancements in ASR technology, its potential as not only an assessment aid but also a self-directed learning tool for pronunciation feedback merits further exploration.

대화형 T-DMB 컨텐츠의 효율적인 전송을 위한 장면기술정보 최적화 기법 (An Optimization Technique of Scene Description for Effective Transmission of Interactive T-DMB Contents)

  • 이송록;정원식;유영재;차경애
    • 방송공학회논문지
    • /
    • 제11권3호
    • /
    • pp.363-378
    • /
    • 2006
  • 디지털멀티미디어방송(Digital Multimedia Broadcasting, DMB)은 고품질의 방송 영상 및 부가 데이터를 이동 중인 차량 내에서나 모바일폰, PDA 등과 같은 휴대형 단말에서 수신할 수 있는 이동 멀티미디어 방송 서비스이다. 미디어 및 상호작용 정보의 인코딩 규격으로는 MPEG-4 표준을 사용하며, 대화형 컨텐츠의 사용자 상호작용 등의 정보는 장면기술정보인 MPEG-4 BIFS(Binary Format for Scene)에 의해서 이루어진다. 사용자와의 상호작용이 풍부하고 장면 구성이 복잡한 컨텐츠일수록 BIFS 데이터가 전송되기 위해서 요구되는 비트율도 증가한다. 그러나 이동 단말에 고품질의 비디오 및 오디오 데이터를 전송하는 DMB 환경에서는 BIFS 스트림의 전송율은 매우 제한적이다. 한편 사용자 단말기에서 DMB 컨텐츠를 재생하려면 비디오, 오디오 등 미디어 객체들을 디코딩하기 전에 장면 구성 정보인 BIFS 스트림을 디코딩 및 파싱하여야 한다. 그러므로 MPEG-4의 높은 미디어 압축율에도 불구하고 제한된 대역폭과 장면 구성 정보 등 부가 데이터 전송 및 디코딩으로 인한 지연이 발생될 수 있다. 따라서 방송 컨텐츠의 특성 상 사용자의 임의 접근 시에도 재생될 컨텐츠의 BIFS 데이터를 파싱하여 대기 시간을 최소화하도록 초기 장면 구성 정보를 효율적으로 전송해야 한다. 본 연구에서는 지상파 DMB 대화형 컨텐츠의 장면기술정보인 BIFS 스트림을 저전송율 환경에 적응된 형태로 전달하기 위해서, 장면기술정보를 최적화하는 기법을 제안한다.

동영상 카투닝 시스템을 위한 자동 프레임 추출 기법 (Auto Frame Extraction Method for Video Cartooning System)

  • 김대진;구떠올라
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.28-39
    • /
    • 2011
  • 멀티미디어 산업의 발달과 함께 디지털 콘텐츠 시장의 확산을 가져오고 있다. 그 중 인터넷 만화와 같은 디지털 만화 시장의 확장은 급속하게 커지고 있어서, 콘텐츠의 부족과 다양성 때문에 동영상 카투닝에 대한 연구가 계속되고 있다. 지금까지는 동영상 카투닝은 비사실적 렌더링과 말풍선에 초점이 맞추어졌으나, 이러한 것들을 적용하기 위해서는 카투닝 서비스에 적합한 프레임 추출이 우선시 되어야만 한다. 기존의 방법으로는 동영상의 장면전환이 일어나는 샷(shot)안의 프레임을 추출하여, 사용자가 지정한 영역을 임의의 색상으로 렌더링(Rendering)하는 시스템이 있다. 하지만 이러한 방법은 사람의 손을 거치는 반자동적인 방법으로서 정확한 프레임 추출을 위해 사람의 손을 거쳐야하는 단점이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하고, 보다 정확한 카투닝에 적용할 프레임을 추출하기 위해 오디오 및 비디오 분리를 통한 방법을 제안한다. 먼저 동영상으로부터 오디오와 비디오를 분리한다. 오디오는 먼저 MFCC와 영교차율의 특징을 추출하고, 이 특징 정보를 미리 학습된 데이터와 GMM 분류기를 통하여 음악, 음성, 음악+음성으로 분류한 후 음성 영역을 설정한다. 비디오는 히스토그램을 이용한 방법과 같은 일반적인 장면전환 프레임을 추출 후 얼굴 검색을 통해서 만화에서 의미가 있는 프레임을 추출한다. 그 후 음성 영역내에 얼굴이 존재하는 장면전환 프레임이나 일정 시간동안 음성이 지속되는 영역 중 장면전환 프레임을 추출하여 동영상 카투닝에 적합한 프레임을 자동으로 추출한다.

저비트율로 압축된 오디오의 음질 개선 방법 (Audio Quality Enhancement at a Low-bit Rate Perceptual Audio Coding)

  • 서정일;서진수;홍진우;강경옥
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.566-575
    • /
    • 2002
  • 이동통신망과 같이 제한된 대역폭에서 실시간 멀티미디어 스트리밍 서비스를 제공하기 위해서는 보다 낮은 비트율로 비디오와 오디오 데이터를 압축하여야 한다. 또한 대부분의 대역이 비디오 데이터를 위해 할당되어 있으므로 제한된 대역폭만이 오디오에 할당되게 된다. 오디오 데이터를 낮은 비트율로 압축하기 위해서는 압축율이 높은 알고리즘을 사용하거나, 표본화 주파수 (sampling frequency)를 낮춤으로써 데이터 양을 줄여 낮은 비트율로 부호화하여야 한다. 본 논문에서는 이러한 문제점을 극복하기 위해서 낮은 표본화 주파수로 오디오 신호를 압축하고, 낮은 표본화주파수를 사용함으로서 발생하는 대역폭의 손실은 소량의 부가정보를 이용하여 복원해 줌으로써 음질을 향상시키는 알고리즘을 제안한다. 높은 주파수의 스펙트럼을 복원하기 위하여 부호화단에서 낮은 주파수 대역과 다운 샘플링 과정 중에 손실되는 높은 주파수 대역간의 에너지비를 바크밴드에 구한 후 이를 부호화하여 복호화 단으로 전달하고 이를 이용하여 높은 주파수 성분을 복원하는 방법을 제안하였다. 제안된 방법을 이용하면 10%∼20% 정도의 추가적인 비트를 사용하면서 기존의 방식보다 세그멘탈 신호대 잡음비는 1㏈∼3㏈의 성능 개선을 보였으며, 주관적인 MOS 듣기 평가를 수행한 결과 기존의 방식보다 음질이 향상됨을 확인하였다. 또한 본 논문에서 제안한 방법은 주파수 영역에서 압축을 수행하는 모든 오디오 부호화 방식에도 적용이 가능하다.

시그마-델타 A/D 컨버터용 디지털 데시메이션 필터 설계 (Design of digital decimation filter for sigma-delta A/D converters)

  • 변산호;류성영;최영길;노형동;남현석;노정진
    • 대한전자공학회논문지SD
    • /
    • 제44권2호
    • /
    • pp.34-45
    • /
    • 2007
  • 오버샘플링(oversampling) 방식의 시그마-델타(sigma-delta) A/D 컨버터에서는 오버샘플링된 신호를 최종 Nyquist rate 으로 낮춰주는 디지털 데시메이션 필터가 필수적이다. 본 논문에서는 면적을 크게 줄이면서 time-to-market의 이점을 가져다주는 고해상도 시그마-델타(sigma-delta) A/D 컨버터용 디지털 데시메이션(decimation) 필터의 Verilog-HDL 설계 및 구현을 보였다. 디지털 데시메이션 필터는 CIC(cascaded integrator-comb) filter와 두 개의 half-band FIR filter로 이루어져 있다. FIR필터에서 곱셈연산의 복잡성을 줄이고 면적을 최소화하기 위해 계수를 CSD(canonical signed digit) 코드로 표현하여 사용하였다. 곱셈 연산은 일반 곱셈기 없이 쉬프트 와 덧셈방식을 이용하여 구현되었다. 3단 데시메이션 필터는 $0.25-{\mu}m$ CMOS 공정으로 제작되었고, 필터의 면적은 $1.36mm^2$ 이며 2.8224 MHz의 클럭 주파수에서 4.4 mW의 파워소모를 보였다. 측정 결과 높은 신호대 잡음 비(SNR)를 요구하는 디지털 오디오용 데시메이션(decimation) 필터의 사양을 충분히 만족시키고 있음을 볼 수 있다.

위성 DAB 수신을 위한 저잡음 증폭기의 설계 및 구현에 관한 연구 (A Study on Design and Implementation of Low Noise Amplifier for Satellite Digital Audio Broadcasting Receiver)

  • 전중성;유재환
    • 한국항해항만학회지
    • /
    • 제28권3호
    • /
    • pp.213-219
    • /
    • 2004
  • 본 논문에서는 1,452∼l,492 MHz L-Band 대역의 위성 DAB 수신기를 위한 저잡음증폭기를 입ㆍ출력 반사계수와 전압정재파비를 개선하기 위하여 평형증폭기 형태로 설계 및 제작하였다. 저 잡음증폭기는 GaAs FET소자인 ATF-10136을 사용한 저 잡음증폭단과 MMIC 소자인 VNA-25을 사용한 이득증폭단을 하이브리드 방식으로 구성하였으며, 최적의 바이어스를 인가하기 위하여 능동 바이어스 회로를 사용하였다. 적용된 능동 바이어스 회로는 소자의 펀치오프전압($V_P$)과 포화드래인 전류($I_{DSS}$)의 변화에 따라 주어진 바이어스 조건을 만족시키기 위해 소스 저항과 드래인 저항의 조절이 필요없다. 즉, 능동 바이어스 회로는 요구된 드래인 전류와 전압을 공급하기 위해 게이트-소스 전압($V_{gs}$)을 자동적으로 조절한다. 저잡음증폭기는 바이어스 회로와 RF 회로를 FR-4기판 위에 제작하였고, 알류미늄 기구물에 장착하였다. 제작된 저잡음증폭기는 이득 32 dB, 이득평탄도 0.2 dB, 0,95 dB 이하의 잡음지수, 입ㆍ출력 전압정재파비는 각각 1.28, 1.43이고, $P_{1dB}$ 는 13 dBm으로 측정되었다.

Demonstration of Bidirectional Services Using MPEG-4 BIFS in Terrestrial DMB Systems

  • Shin, Ji-Tae;Suh, Doug-Young;Jeong, Yong-Chan;Park, Seung-Ho;Bae, Byung-Jun;Ahn, Chung-Hyun
    • ETRI Journal
    • /
    • 제28권5호
    • /
    • pp.583-592
    • /
    • 2006
  • Digital broadcasting technology has developed focusing on multi-channel/multi-media, high-definition quality, and mobility-support. Recently, there has been a clear trend toward bidirectional service with the convergence between broadcasting and communication. The broadcasting viewer is no longer simply a passive receptor but has also become an information generator. Currently, the digital multimedia broadcasting (DMB) specifications are the major standard for portable digital broadcasting and have been establishing the overall guidelines for bidirectional service using the MPEG-4 system. While detailed specifications for DMB systems are not well-established for bidirectional service yet, they share the basic concepts underlying the European Eureka-147 Digital Audio Broadcasting (DAB) system. This paper develops key scenarios for bidirectional service in DMB, describes the signal transaction of broadcasting and return channels, and demonstrates typical scenarios using binary format for scenes (BIFS) in the MPEG-4 system.

  • PDF

VOD 서비스를 위한 인터페이스 및 프로토콜 표준화 동향 분석 (Standardization of Interfaces and Protocols for Video on Demand Services)

  • 장승석;김정홍;이의택
    • 전자통신동향분석
    • /
    • 제10권3호통권37호
    • /
    • pp.29-45
    • /
    • 1995
  • 대화형 멀티미디어 서비스중에서 대표적인 VOD(Video on demand) 서비스 일반에 관한 표준제정이 DAVIC(Digital Audio-Visual Council)을 중심으로 한창 진행되고 있다. 본 고에서는 DAVIC에서 정하고 있는 시스템 기준모델을 각 구성요소별로 살펴보고 디지털 음성-영상 응용 및 서비스들간의 상호 운용성을 위해 현재 표준제정 중인 인터페이스와 프로토콜을 1995년 1월에 만들어진 초안과 3월의 그 수정판 (DAVIC 1.0)을 중심으로 상세히 소개하려고 한다.