• 제목/요약/키워드: 음성압축

검색결과 218건 처리시간 0.032초

초광대역 음성통화 서비스를 위한 압축 기술 및 표준화 (Speech Codec Standardization for Super-wideband Communication)

  • 오은미
    • 방송과미디어
    • /
    • 제19권1호
    • /
    • pp.48-55
    • /
    • 2014
  • 오디오 신호 압축 기술 관점에서 최근 모바일 통신 시장의 가장 큰 변화 중에 하나는 광대역 음성 코덱인 AMR-WB가 HD voice 또는 VoLTE(Voice over Long Term Evolution) 서비스에 사용된다는 것이다. 모바일 방송 및 음악 재생뿐만 아니라, 통화에서도 다양한 신호를 고음질로 압축해야 하는 필요성이 대두되어 3GPP에서 EVS(Enhanced Voice Service) Codec이 표준화 진행 중이다. 본 논문에서는 실감 통화를 위해 초광대역 신호까지 압축하는 음성 통화 코덱 기술 및 3GPP표준화 현황을 소개한다. 3GPP 표준 기수에서 정의한 디자인 및 성능 요구사항과 더불어 이전 음성 압축기술과의 차이점 등을 논의한다. 또한, 향후 표준화 계획 및 시장 전망에 대해서 논의한다.

13kbps QCELP에서 8kbps QCELP로의 음성 패킷 변환 기술 (Voice Packet Conversion from 13kbps QCELP to 8kbps QCELP Speech Codecs)

  • 박호종;권상철
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.71-76
    • /
    • 1999
  • 디지털 이동 통신 시스템에서 서로 다른 음성 압축기를 사용하는 단말기 사이의 통신은 음성 신호를 두 번의 압축/복원 과정을 거쳐 전달하므로 음질 저하, 계산량 증가, 전달 지연 증가 등의 문제를 발생시킨다. 본 논문에서는 이와 같은 단말기 사이의 통신에서의 문제점을 해결하기 위하여 음성 패킷 변환 방법을 제안하고, 13kbps QCELP 패킷을 8kbps QCELP 패킷으로 변환하는 방법을 개발한다. 여러 음성 신호를 이용한 모의 실험 결과, 본 논문에서 개발된 패킷 변환기가 짧은 음성전달 지연과 약 33%의 계산량으로 일반적인 이중 압축 방법과 동등한 음질의 음성 신호를 합성하는 것을 확인하였다.

  • PDF

제한된 고음질 음성 합성용 DB 압축법에 관한 연구 (A Study on the Compression Method for Restricted DB in High Quality Speech Synthesis)

  • 박형빈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.265-268
    • /
    • 1998
  • 일반적으로 음성 합성용 데이터 베이스에서는 고음질을 유지할 수 있는 파형 부호화법을 주로 사용한다. 그것은 파형 부호화법이 발성자의 개성과 메시지 정보를 보존하기 때문에 음질의 명료성이 우수하기 때문이다. 그러나 기존에는 파형 부호화법을 적용해서 음성 파형 자체의 잉여성분만을 제거한 후 합성용 데이터 베이스로 사용하기 때문에 음성 합성용 데이터 베이스의 크기가 커지는 단점을 가진다. 따라서 본 논문에서는 이러한 단점을 극복하기 위해서 기존의 운율조절법을 통해서 음성 합성용 데이터 베이스를 압축하는 방법을 제안한다. 결과적으로 제안한 방법을 사용함으로써 고음질을 갖는 음성 합성용 데이터 베이스를 가질 수 있었고 데이터 베이스의 크기도 줄일 수 있었다.

  • PDF

Adaptive Compressed Sensing과 Dictionary Learning을 이용한 프레임 기반 음성신호의 복원에 대한 연구 (A Study on the Reconstruction of a Frame Based Speech Signal through Dictionary Learning and Adaptive Compressed Sensing)

  • 정성문;임동민
    • 한국통신학회논문지
    • /
    • 제37A권12호
    • /
    • pp.1122-1132
    • /
    • 2012
  • 압축센싱은 이미지, 음성신호, 레이더 등 많은 분야에 적용되고 있다. 압축센싱은 주로 통계적 특성이 시불변인 신호에 적용되고 있으며, 측정 데이터를 줄여 압축률을 높일수록 복원에러가 증가한다. 이와 같은 문제점들을 해결하기 위해 음성신호를 프레임 단위로 나누어 병렬로 처리하였으며, dictionary learning을 이용하여 프레임들을 sparse하게 만들고, sparse 계수 벡터와 그 복원값의 차를 이용하여 압축센싱 복원행렬을 적응적으로 만든 적응압축센싱을 적용하였다. 이를 통해 통계적 특성이 시변인 신호도 압축센싱을 이용하여 빠르고 정확한 복원이 가능함을 확인할 수 있었다.

다양한 객체가 결합되는 무 손실 압축 강의 콘텐츠 제작기 구현 (Study of the compression of the various video stream objects using lossless method for the education contents)

  • 임창록;강필준;이상엽
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
    • /
    • pp.437-440
    • /
    • 2010
  • 동영상, 음악, 카메라영상, 음성 등 다양한 객체를 결합하는 강의 제작기는 강의 콘텐츠 제작에 유용하다. 본 프로그램은 다양한 객체를 결합하여 무 손실 압축 처리한 강의 콘텐츠를 제작한다. 결과물로서 음성/영상/인덱스의 3가지 종류의 파일이 생성된다. 인덱스파일은 영상 정보, 영상 파일 구성정보, 음성정보, 음성파일 구성정보를 가지며 음성파일은 각 객체의 음성만을 interpolation 처리 후 하나의 데이터로서 혼합한 결과물이다. 영상 파일은 영상 정보만을 결합한 뒤 wavelet, motion estimation, 사전코드 방식과 huffmancode 방식을 혼합한 방식을 응용한 무 손실 압축 영상데이터 이다.

  • PDF

비압축 3D HD 영상 및 다채널 음성 전송 (Uncompressed 3D HD Video and Multi-channel Sound Transport)

  • 채종권;이영한;김종원;김홍국
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.706-712
    • /
    • 2007
  • 국가간 연구목적으로 개설된 초고속 광 네트워크 기술의 발전은 새로운 응용 기술의 등장을 요구하고 있다. 고화질 저지연의 실감 협업 응용은 이러한 연구 목적에 부합할 뿐만 아니라 향후 커뮤니티 기반 응용 기술의 요구를 충족시킬 것으로 보인다. 본 논문에서는 실감 협업 응용 기술에 필요한 비압축 HD stereoscopic 영상 전송 시스템을 구성해 3D HD 영상을 사용자가 체감할 수 있도록 한다. 또한, 소프트웨어 기반 다채널 음성 재생을 다루며 실험을 통해 방향성 있는 협업 환경 구축의 가능성을 보여준다. 입체감 있는 미디어 재생을 위해 병렬 구조의 좌 우 송수신 시스템을 구축 후 stereoscopic 비압축 영상 전송을 수행하며, 좌 우 영상 세션간의 인터 미디어 동기화 기법의 설계방법을 제안한다. 음성 재생 소프트웨어는 ALSA를 이용하여 구현하였으며 가변 데이터 길이 및 프레임 손실로 인한 채널 뒤섞임(channel swapping)을 방지하기 위한 버퍼를 재생 모듈 전처리단에 추가하였다. 초고속 네트워크와 비압축 미디어 전송의 결합은 IP를 이용해 다채널 음성 지원의 실감 HDTV를 가능케 하므로 이를 유용하게 활용할 수 있는 사용 시나리오를 살펴본다.

  • PDF

무선전화 시스템용 잡음억제회로의 설계 (A Design of Noise Reduction Circuit for A radio Telephonic System)

  • 문종규;김덕규
    • 대한전자공학회논문지TE
    • /
    • 제39권2호
    • /
    • pp.84-89
    • /
    • 2002
  • 본 논문에서는 무선전화 시스템의 잡음제거 방법을 제안한다. 구현회로는 압축기(Compressor), 신장기(Expender) 및 필터로 구성된다. 제안방법의 기본개념은 채널잡음을 방지하기 위해 전송전에 음성신호를 압축(Compress)하여 전송하고 원래의 신호를 복원하기 위해 전송신호의 역 비율로 신장(Expand)한다. 압축과 신장과정을 통해서 음성신호의 감쇠나 왜곡은 일어나지 않는다. 압축과정에서 압축기의 이득은 입력신호의 유효 다이나믹 영역과 신호대 잡음 비를 향상시키기 위해 음성신호의 포락선 레벨에 따라 자동적으로 제어된다. 압축비율은 음성신호의 제곱근(Root) 배로 압축한다. 압축된 신호는 신장기에서 음성신호의 제곱이 되게 신장하여 원래의 신호를 복원한다. 시뮬레이션을 통해 제안한 방법의 성능과 안정성을 검증하였다.

음성압축 방식의 변화가 한국어 단음절 숫자 인지기능에 미치는 영향의 비교 연구 (Comparative Studies of Perceiving Korean Monosyllabic Digit Words under Different Speech Compression Schemes)

  • 임덕환;원유경
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.262-268
    • /
    • 2013
  • 다양한 음성 압축방식이 여러 분야에서 광범위하게 사용되고 있으며 그 심리음향적 인지결과는 대상 언어의 특성과 압축 방식에 따라서 다를 수가 있다. 한국어에서도 이러한 인지 결과를 비교하는 정량적인 자료가 관련된 임상이나 응용 분야에서 필요하지만 구체적인 내용이 확인되어 있지 않다. 본 연구에서는 통제된 언어적 특성을 갖는 0에서 9까지 한국어 단음절 숫자 들이 무작위로 조합되는 다섯 쌍 조합(quintet set)을 대상으로 하여 자주 사용되는 세가지 대표적인 음성 압축방식의 특성을 비교 분석하였다. 비교 기준으로는 기존의 연구에서 분석 정리된 시간과 주파수 정보가 모두 일정하게 변화되는 PNT (Preserving No Trait) 압축에서 얻은 자료를 비교 근거로 선정하였다. 이를 기준으로 하여 동일한 조건의 정상인 그룹에서 심리음향적 피치(pitch) 정보가 주로 보전되는 PPT (Preserving Pitch Trait), 시간 정보가 주로 보전되는 PTT (Preserving Time Trait) 압축방식의 인지 결과를 기록하고 분석하였다(N=20). 본 연구 결과에서 얻어진 자료를 보면, 정보의 압축비율이 높을 수록 심리음향학적으로 중요한 주파수 정보(피치)를 보전하는 것이 인지도 측면에서 가장 유리한 것으로 나타났다(PPT>PTT>PNT). 또한, 세가지 압축방법에서 50% 인지율을 보이는 압축률의 역치도 PPT가 20%, PTT가 42%, PNT가 44% 순으로 나타났다. 따라서 인지도 측면에서만 살펴보면 본 조건에서는 PPT 압축 방식이 가장 우수한 것으로 추정되었다. 이러한 숫자 자극을 이용한 평가 방법은 향후 새로운 압축 방식의 효율성과 인지도 측면을 비교 가능하게 하며, 이를 이용하면, 청각정보처리기능을 진단하거나 압축 관련 특수 보청기 적합 재활에서 정량적인 지표를 제공하는 도구로도 사용될 수 있을 것으로 판단된다.

피치검색기법과 3-Level Clipping을 이용한 음성 파형부호화법에 관한 연구 (On a Waveform Coding Technique Using Pitch Searching and 3-Level Clipping)

  • 김규홍
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.127-130
    • /
    • 1998
  • 피치검색과 3-level clipping을 이용한 새로운 파형부호화법을 제안하고자 한다. 제안한 방법에서는 우선 피치를 검출하여 기준피치파형과 인근피치파형을 검색한다. 그 후 유사도 측정시 기준피치파형과 인근 피치파형에 대해 3-level clippng을 수행한다. 클리핑된 기준피치파형가 인근피치파형간의 유사도를 측정하여 유사성이 크다면 피치정보와 에너지 정보만을 전송하거나 저장하여 압축을 하고, 유사성이 적다면 인근피치파형을 압축을 하지 않고 저장한다. 그 후에 저장된 ?ㅇ을 기준 피치파형으로 재정의 하여 다시 반복적으로 압축을 수행한다. 압축된 음성신호를 다시 복원할 때에는 수신 또는 저장된 음성신호를 이용하여 PSOLA 방식으로 합성을 수행한다. 평균압축율이 약 65%일 경우에도, MOS 값이 4이상을 유지하였다.

  • PDF

QCELP Implementation on TMS320C30 DSP Board TMS320C30 DSP를 이용한 QCELP Codec의 실현

  • 한경호
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권1E호
    • /
    • pp.83-87
    • /
    • 1995
  • 디지털 이동통신에서 사용되는 음성 압축기술의 한가지인 QCELP를 TI사의 TMS320C30을 사용한 DSP 보드를 이요하여 구현하였다. 음성을 받아 QCELP 방식으로 압축하는 프로그램은 TI의 C 코드로 작성하여 DSP 보드의 RAM에 download하여 수행되도록 하였다. PC에는 DSP 보드에서 생성된 voice 데이타를 받아 file로 저장하는 작업을 하게된다. 이것도 C 코드로 작성하였다. 외부 마이크로 입력된 음성신호는 A/D 변환을 거쳐 PCM 데이타가 된다. PCM 데이타는 DSP에 입력되어 QCELP방식으로 압축된 음성 데이타 패킷이 된다. 이 패킷은 PC로 보내 file로 저장하게 된다. 음성을 듣고자 할 경우, 압축된 음성 데이타 패킷을 PC가 DSP보드로 보내어 QCELP방식으로 음성을 합성, 재생한다. 이것을 D/A변환을 거쳐 실지음성이 된다. DSP보드와 PC는 각각의 프로그램 수행상태를 나타내는 Software flag로서로 패킷 데이타를 주고 받을때 결정한다.

  • PDF