• Title/Summary/Keyword: 음성 코덱

Search Result 119, Processing Time 0.027 seconds

Improvement of Speech/Music Classification Based on RNN in EVS Codec for Hearing Aids (EVS 코덱에서 보청기를 위한 RNN 기반의 음성/음악 분류 성능 향상)

  • Kang, Sang-Ick;Lee, Sang Min
    • Journal of rehabilitation welfare engineering & assistive technology
    • /
    • v.11 no.2
    • /
    • pp.143-146
    • /
    • 2017
  • In this paper, a novel approach is proposed to improve the performance of speech/music classification using the recurrent neural network (RNN) in the enhanced voice services (EVS) of 3GPP for hearing aids. Feature vectors applied to the RNN are selected from the relevant parameters of the EVS for efficient speech/music classification. The performance of the proposed algorithm is evaluated under various conditions and large speech/music data. The proposed algorithm yields better results compared with the conventional scheme implemented in the EVS.

Development of an IPv6 Multicast based High quality Video Conferencing Tool using MPEG4 and MP3 codec (MPEG4/MP3 코덱을 이용한 IPv6 멀티캐스트 기반 고품질 화상회의 응용 개발)

  • 조호식;유태완;최양희;인민교;이승윤;김형준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.595-597
    • /
    • 2002
  • IPv4 주소 공간의 부족으로 IPv6라는 새로운 해결책이 등장하였으나 아직은 널리 보급되지 못하고 6BONE과 같은 실험망에서만 사용되고 있는 실정이다. 그러나 IPv6는 가까운 미래에 IPv4를 대체할 차세대 인터넷 기술이며 본 논문은 이러한 배경에서 IPv6 멀티캐스트 환경에서 동작하는 화상회의 툴을 소개한다. 이 툴은 화상에는 MPEG4 코덱을 적용하고 음성에는 MP3 코덱을 적용하여 사용자당 1Mbps이하의 대역폭에서 고품질의 화상회의를 가능하도록 한다. 본 논문에서는 화상회의 응용의 전체적인 구조와 DirectShow 기술을 사용한 화상과 음성 정보의 압축과 스트리밍에 대해서 중점적으로 설명한다.

  • PDF

Artificial speech bandwidth extension technique based on opus codec using deep belief network (심층 신뢰 신경망을 이용한 오푸스 코덱 기반 인공 음성 대역 확장 기술)

  • Choi, Yoonsang;Li, Yaxing;Kang, Sangwon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.36 no.1
    • /
    • pp.70-77
    • /
    • 2017
  • Bandwidth extension is a technique to improve speech quality, intelligibility and naturalness, extending from the 300 ~ 3,400 Hz narrowband speech to the 50 ~ 7,000 Hz wideband speech. In this paper, an Artificial Bandwidth Extension (ABE) module embedded in the Opus audio decoder is designed using the information of narrowband speech to reduce the computational complexity of LPC (Linear Prediction Coding) and LSF (Line Spectral Frequencies) analysis and the algorithm delay of the ABE module. We proposed a spectral envelope extension method using DBN (Deep Belief Network), one of deep learning techniques, and the proposed scheme produces better extended spectrum than the traditional codebook mapping method.

Real-Time Implementation of the G.729.1 Using ARM926EJ-S Processor Core (ARM926EJ-S 프로세서 코어를 이용한 G.729.1의 실시간 구현)

  • So, Woon-Seob;Kim, Dae-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.33 no.8C
    • /
    • pp.575-582
    • /
    • 2008
  • In this paper we described the process and the results of real-time implementation of G.729.1 wideband speech codec which is standardized in SG15 of ITU-T. To apply the codec on ARM926EJ-S(R) processor core. we transformed some parts of the codec C program including basic operations and arithmetic functions into assembly language to operate the codec in real-time. G.729.1 is the standard wideband speech codec of ITU-T having variable bit rates of $8{\sim}32kbps$ and inputs quantized 16 bits PCM signal per sample at the rate of 8kHz or 16kHz sampling. This codec is interoperable with the G.729 and G.729A and the bandwidth extended wideband($50{\sim}7,000Hz$) version of existing narrowband($300{\sim}3,400Hz$) codec to enhance voice quality. The implemented G.729.1 wideband speech codec has the complexity of 31.2 MCPS for encoder and 22.8 MCPS for decoder and the execution time of the codec takes 11.5ms total on the target with 6.75ms and 4.76ms respectively. Also this codec was tested bit by bit exactly against all set of test vectors provided by ITU-T and passed all the test vectors. Besides the codec operated well on the Internet phone in real-time.

A VoIP Traffic Generator for Simulating Call Processing in IP Contact Center Systems (IP 컨택센터에서 통화 처리 모의 실험을 위한 VoIP 트래픽 생성기)

  • Kim Soo-Hee;Jung In-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.1239-1242
    • /
    • 2006
  • 본 논문에서는 IP 컨택센터에서 통화 처리 모의실험을 위한 VoIP 트래픽 발생기를 설계하고 구현한다. 구현된 트래픽 발생기(VoIPTG)는 H.323과 SIP 기반의 VoIP 콜 생성과 음성코덱(G.711, G.723.1등)을 사용하는 RTP 트래픽을 발생시킴으로써 다수의 대화자들이 음성 통화하는 상황을 모의실험을 할 수 있도록 해준다. VoIPTG를 이용하면 H.323 또는 SIP 세션 제어 프로토콜 선택, 사용자(call)수 변화, 시간 변화, 음성코덱의 선택 등 여러 가지 조합을 통해 다양한 모의실험 환경을 연출 할 수 있다. 이러한 트래픽 발생기는 IP 기반 컨택센터의 전반적인 기능 검사 및 성능평가를 위해 유용하게 사용될 수 있으며, 특히 IP 기반 녹취 시스템의 성능 평가를 위해서 필수적이다.

  • PDF

Analytical Performance Comparisons of AMR Codec Mode Allocations on the Downlink in a WCDMA system (WCDMA 순방향링크에서 AMR 음성 코덱 모드 할당에 대한 성능 비교)

  • Jeong, Seong-Hwan;Kim, Tae-Hyeon;Hong, Jeong-Wan;Lee, Chang-Hun
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2005.05a
    • /
    • pp.230-237
    • /
    • 2005
  • WCDMA방식에서 채택한 AMR(Adaptive Multirate) 음성 코덱은 4.75kbps에서 12.2kbps까지 8개의 가변 출력률을 가진다. 기지국제어시스템(Radio Network Controller)은 무선망 상황에 따라 AMR 출력 모드를 가변적으로 조정해 줌으로써 높은 사용자 QoS와 효율적인 시스템 성능을 얻을 수 있다. 본 연구에서는 순방향 WCDMA 채널에서 세 가지의 AMR 출력 모드 할당 방식을 제안하고, 음성 사용자가 경험하는 QoS 만족도를 시스템 성능 척도로하여 제안된 방식들을비교 할 수 있는 분석적 방법을 제시한다. 실험 예제를 통해서 시스템 부하에 따른 시스템 성능 척도의 변화를 도시함으로써 최적의 AMR 모드 할당 방식을 결정하는 기준을 제시한다.

  • PDF

Implementation of VoIP Gateway on Real-Time Linux (실시간 리눅스 기반의 VoIP 게이트웨이 시스템 구현)

  • 류홍석;정용진;민상원;정광모
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.679-681
    • /
    • 2002
  • VoIP(Voice over Internet Protocol)는 일반 전화망이 아닌 인터넷 망을 통해 실시간 데이터인 음성을 전송하는 방식으로 음성 통신비용의 절감 효과와 다양한 서비스로 인한 부가 가치를 통해 개인, 기업, 기간 통신 사업자들에게 큰 이득을 가져다 줄 수 있다. 이러한 추세에 발맞추어 본 논문에서는 RTLinux 기 반에서 VoIP 게이트웨이를 구현함으로서 실시간 처리를 요하는 시스템의 개발기간 단축과 시스템 성능 향상을 목적으로 시스템을 구현하였다. RTLinux는 기존 리눅스 커널 위에서 동작하며, 또한 하드리얼타임을 제공하여 리눅스가 가지고 있던 실시간 처리 문제를 극복할 수 있다. 구현한 시스템은 end-to-end 간에 코덱 (G.723.1)을 전송한 후 프레임간 Delay와 Jitter, loss를 측정하여 기존 리눅스와 RTLinux간의 시스템 성능을 비교 테스트하였으며, 그 결과 기존 리눅스에 비교하여 RTLinux 기반의 게이트웨이가 코덱이 제한하는 시간 안에 음성 전송을 처리함으로서 실시 간 처리를 요하는 시스템 개발에 적절한 솔루션임을 확인하였다.

  • PDF

A Study on a quality of Voice Codec for Internet Telephone Service (인터넷 전화서비스의 음성 코덱 품질에 관한 연구)

  • Min, Gyeong-ju;Lee, Jong-kuk;Lee, Jae-jeong;Hong, Jae-Hwan;Nam, Ki-dong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.1021-1024
    • /
    • 2007
  • 인터넷이 발달하고 VoIP 의 활성화로 인하여 사용자들은 인터넷 전화서비스의 통화품질에 대한 관심이 크게 증가하고 있다. 본 고에서는 인터넷 전화서비스의 단말에 사용하고 있는 음성 코덱의 품질 측정을 위해 IP 패킷 전송품질 파라미터(ITU-T Y.1540)들을 인가하면서 이들 파라미터들의 변화에 따른 E-Model(ITU-T G.107) 종합 음성품질(R 값)을 측정하여 인터넷전화 단말의 프로세싱 품질을 파악하고 종단간서비스에서 단말이 차지하는 부분을 분석하여 인터넷 전화서비스의 통화품질 개선 및 향후 단말의 인증기준 등에 활용하고자 한다.

A Design and Implementation of the Real-Time VoIP Terminal System Based on Linux (리눅스 기반 실시간 처리 VoIP 단말기 시스템의 설계 및 구현)

  • Lee, Myeong-Geun;Lee, Sang-Jeong;Seo, Jeong-Min;Im, Jae-Yong
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.345-352
    • /
    • 2001
  • In this paper, a VoIP (Voice on Internet Protocol) terminal system, which can process voice in real time based on Linux, is designed and implemented. The hardware of it is designed using a i486 processor and a DSP codec chip which encodes and decodes voice data in real time. As an operating system, RTLinux, which is a real-time operating system based on Linux, is ported to manage real-time voice processing. The voice processing module of the system uses G.723.1 voice codec of ITU-T standard. It transfers voice data within 30ms to assure good voice quality. In order to satisfy the real time requirements and QoS (Quality-of-Service) for the voice data, the real-time voice processing device driver is designed and implemented. To verify the system, the chatting application program is developed and tested for QoS of the system.

  • PDF