• 제목/요약/키워드: 음성압축

검색결과 218건 처리시간 0.028초

IEEE 802.15.4 표준에 적용을 위한 음성부호화 기술 (A Voice Coding Technique for Application to the IEEE 802.15.4 Standard)

  • 진진흥;강석근
    • 방송공학회논문지
    • /
    • 제13권5호
    • /
    • pp.612-621
    • /
    • 2008
  • 이용 가능한 데이터 영역과 전송전력 등 다양한 제한 요소들로 인하여 지그비 통신의 기술규격에는 음성통신에 대한 기준 사양이 포함되지 않았다. 본 논문에서는 지그비의 기반인 IEEE 802.15.4 표준에 적용하기 위한 음성부호화 기법이 제시된다. 여기서는 높은 압축율과 파형 복구능력이 우수한 파형부호기의 실현이 필수적이다. 이를 위하여 제시된 방법에서는 다단 이산 웨이블릿변환과 두 가지 펄스부호변조로 구성된 이진부호기가 사용된다. 이론적인 분석과 실내 무선 환경에서의 모의실험 결과 2단 웨이블릿변환을 적용한 경우가 압축율과 음성신호 복구능력 면에서 가장 적합한 것으로 판단된다. 직선전파경로 성분이 지배적인 경우 제시된 방법은 중간 정도의 신호 대 잡음비에서도 만족스러운 복구능력을 가진다. 따라서 제시된 음성부호화 방법은 향후 지그비를 이용한 음성통신의 표준 선정에 참고 가능한 기술이 될 수 있을 것으로 사료된다.

Radial Basis Function Networks를 이용한 이중 임계값 방식의 음성구간 검출기 (Voice Activity Detection Algorithm base on Radial Basis Function Networks with Dual Threshold)

  • 김홍익;박승권
    • 한국통신학회논문지
    • /
    • 제29권12C호
    • /
    • pp.1660-1668
    • /
    • 2004
  • 본 논문에서는 간단한 구조, 적은 계산량과 안정된 빠른 수렴속도를 가진 RBF (Radial Basis Function) 신경회로망을 이용한 이중 임계값 방식의 음성구간 검출기 알고리즘을 제안하고 시뮬레이션을 통해 유용성을 확인하였다. 음성압축기에 사용되는 CELP (Code-Excited Linear Prediction) 파라미터들을 신경회로망 입력으로 하여 잡음에 강하게 반응하게 하였고, 음성구간 검출기의 성능향상을 위해 음성구간과 침묵구간에서 다른 임계값을 사용하는 이중 임계값 방식을 적용하였다. 실험 결과 이중 임계값을 이용한 RBF 신경망 음성구간 검출기는 G.729 Annex B 음성구간 검출기 보다 우수한 성능을 보였고, 기존의 MLP (Multi Layer Perceptron) 신경회로망을 이용한 음성구간 검출기와 비교하여 음성구간에서는 비슷한 성능을 보였으나 침묵구간에서 25% 정도의 성능향상을 보였다.

실시간 지능형 능동 청각 시스템

  • 이창훈;김현돈;최종석;김문상
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2004년도 춘계학술대회 논문요약집
    • /
    • pp.26-26
    • /
    • 2004
  • 산업용으로 주로 쓰이던 로봇이 인간의 생활에 밀접하게 다가오면서 인간과 로봇의 활동공간의 공유가 늘어가고 있다. 이로 인하여 접하는 시간이 증대되어 인간과 친밀한 인터페이스 구현에 대한 연구가 활발히 진행되고 있으며, 이와 관련하여 지능형 로봇에 있어 음성시스템은 필수적이다. 최근 통신분야와 관련하여 음성인식과 음성합성의 기술이 급속히 발전하고 있으나, 음성인식에 있어 현재 헤드?을 이용하거나 마이크로폰에서 약 30cm정도 떨어진 거리에서 음성을 인식하는 것이 일반적이며, 그 이상의 거리에서나 잡음이 존재하는 실제 환경에서 인식률이 급격히 떨어져 이동롯봇과 같은 실용시스템과의 접목하는 기술이 부족한 상황이다.(중략)

  • PDF

음성 패킷을 이용한 채널의 에러 정보 전달 (Transmission of Channel Error Information over Voice Packet)

  • 박호종;차성호
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.394-400
    • /
    • 2002
  • 디지털 음성 통신에서 송신하는 음성 패킷의 전송 에러율을 알면 송신 채널 상황에 적합한 압축 동작을 통하여 전체 통신의 품질을 향상시킬 수 있다. 그러나 현재의 이동통신과 인터넷 통신에서는 음성 패킷의 전송 에러정보를 알려주는 프로토콜이 지원되지 않는다. 본 논문에서는 이를 해결하기 위하여 채널의 전송 에러 정보를 음성 패킷에 삽입하여 실시간으로 전달하는 방법을 제안한다. 제안하는 채널 에러 정보 삽입 방법은 ACELP (algebraic code-excited linear predictin) 코드벡터의 펄스 위치의 상관 관계를 이용하며, 이를 통하여 추가정보 삽입에 의한 음질 저하를 막고 오인식율을 줄일 수 있다. 다양한 음성 데이터를 이용하여 제안한 방법의 성능을 측정하였으며 음질의 저하가 거의 발생하지 않고 정보의 검출 능력과 오인식율에서 만족할 만한 성능을 가지는 것을 확인하였다.

고정 타임슬롯 모드를 사용하는 PCM 시스템에서 디지털 음성 데이터 보안 기법 (Cipher method of digital voice data using fixed time slot mode in PCM system)

  • 임성렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.782-785
    • /
    • 2010
  • 본 논문은 연속된 음성 신호를 전송로 상에 전송하기 위해 음성 신호를 G.711 표준 권고인 PCM으로 다중화한 후 고정 타임슬롯을 배정하여 전송하는 시스템에서 PCM 화된 디지털 음성 데이터를 실시간으로 암호화하여 전송하는 스트림 암호화 기법에 관한 것이다. 실시간으로 처리되는 음성 데이터의 암호화 시에는 하드웨어 방식이 적합한 데, 본 논문에서는 고정 타임슬롯을 배정받는 음성 데이터의 실시간 암호화 기법에 관한 것이다. 일반적으로 아날로그 음성 신호 코딩 시에 국내에서는 북미 방식인 ${\mu}-law$ 코딩 기법을 적용하는 데 이는 표본화한 음성 데이터를 양자화전에 압축하고 복호화 후 신장하는 비선형 양자화 기법을 적용하는 것으로 표본화된 값을 8 비트의 PCM 데이터로 변화하여 E1(2.048Mbps) 급 속도로 전송한다. 본 논문에서는 PCM 전송로 상에 전송되기 전의 직렬 입력 데이터를 암호화 장치를 거쳐 해당 타임슬롯에 해당하는 8 비트의 데이터를 실시간으로 암호화하여 전송로 상으로 전송하고 역으로 수신 단에서는 PCM 전송로를 거친 직렬 입력 데이터를 암호화된 타임슬롯을 판별하여 해당 타임슬롯의 데이터를 복호화하여 원래 데이터를 복원한다. 본 논문에서는 고정 타임슬롯을 배정받은 PCM 데이터를 암호화하여 전송한 후 수신 단에서 복호화 과정을 거친 후 타임슬롯 단위로 데이터 암호화/복호화가 가능함을 보여준다.

모바일 리치미디어 서비스 기술 특허 동향 분석 (Analysis on Patent Trends for Mobile Richmedia Service Technology)

  • 최진수;정세윤;차지훈;이태진;강경옥;문경애;이용일
    • 전자통신동향분석
    • /
    • 제23권1호통권109호
    • /
    • pp.130-144
    • /
    • 2008
  • 최근 초고속 인터넷, WiBro, HSDPA 등의 통신 환경과 지상파, 케이블, 위성, DMB 망등의 디지털 방송 환경의 발전으로 인해 음성, 영상, 이미지, 텍스트 등의 다양한 멀티미디어 서비스 제공이 휠씬 용이하게 됨에 따라 IPTV, 디지털 TV, DMB 방송, DVD, 영상 회의 등과 같은 응용분야가 각광을 받고 있다. 이러한 응용 분야에서 멀티미디어 데이터를 효율적으로 저장하거나 전송하기 위해서는 음성 및 영상의 압축부호화가 필수적으로 요구되며, 또한 대화형 데이터 서비스를 제공하기 위해서는 데이터 표현, 전송 및 처리가 아주 중요하다. 특히 제한된 대역폭과 낮은 성능의 단말과 같은 모바일 방송통신 환경에서 오디오, 비디오, 이미지 등의 다양한 멀티미디어 서비스를 제공 받기 위해서는 높은 압축률의 고효율 오디오/비디오 부호화 기술과 초경량의 데이터 서비스 기술이 필수적으로 요구된다. 본 고에서는 최신 고효율 오디오/비디오 부호화 기술 및 초경량 데이터 서비스 기술 동향을 살펴보고, 관련 기술의 특허 동향을 살펴본다.

벡터의 발생 순서를 이용한 효율적인 벡터양자화 (An Effective Vector Quantization using Generating Sequence of the Vector)

  • 김동환;윤재선;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.189-192
    • /
    • 2000
  • 벡터양자화는 신호의 압축에 이용되는 일반적인 방법이다. 그러나 유클리드 거리 등을 이용한 거리 계산량이 많아서 코드북 크기나 압축율의 제한이 있게 된다. 따라서 PDS(partial distance search)와 같은 벡터양자화 부호화의 계산량을 줄이기 위한 많은 방법들이 제안되고 있다. 본 논문에서는 이웃한 음성신호는 급격히 변하지 않고 서서히 변해가는 성질에 착안하여 현재의 벡터 다음에 발생되는 벡터를 조사하여 인덱스를 저장한 후 이를 다음 벡터의 벡터양자화 때 참고함으로써 불필요한 계산을 줄이는 방법이다. 제안한 방법으로 음성신호에 대해 실험한 결과 전탐색의 결과와 비교하여 빠른 시간에 큰 오차없이 벡터양자화 부호화를 할 수 있었다. 이 방법은 PDS와 같은 이미 제안되어 있는 많은 방법들과 같이 이용하면 더욱 효과적인 벡터양자화 부호화를 할 수 있을 것이다.

  • PDF

MPEG-NNR 의 지역 비선형 양자화를 이용한 CNN 압축 (Compression of CNN Using Local Nonlinear Quantization in MPEG-NNR)

  • 이정연;문현철;김수정;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.662-663
    • /
    • 2020
  • 최근 MPEG 에서는 인공신경망 모델을 다양한 딥러닝 프레임워크에서 상호운용 가능한 포맷으로 압축 표현할 수 있는 NNR(Compression of Neural Network for Multimedia Content Description and Analysis) 표준화를 진행하고 있다. 본 논문에서는 MPEG-NNR 에서 CNN 모델을 압축하기 위한 지역 비선형 양자화(Local Non-linear Quantization: LNQ) 기법을 제시한다. 제안하는 LNQ 는 균일 양자화된 CNN 모델의 각 계층의 가중치 행렬 블록 단위로 추가적인 비선형 양자화를 적용한다. 또한, 제안된 LNQ 는 가지치기(pruning)된 모델의 경우 블록내의 영(zero) 값의 가중치들은 그대로 전송하고 영이 아닌 가중치만을 이진 군집화를 적용한다. 제안 기법은 음성 분류를 위한 CNN 모델(DCASE Task)의 압축 실험에서 기존 균일 양자화를 대비 동일한 분류 성능에서 약 1.78 배 압축 성능 향상이 있음을 확인하였다.

  • PDF

VOIP 음질 개선을 위한 패킷 크기의 최적화 (Optimization of the packet size to enhance the voice quality of the VOIP system)

  • 임강빈;정기현;최경희
    • 대한전자공학회논문지TC
    • /
    • 제40권9호
    • /
    • pp.373-383
    • /
    • 2003
  • 본 논문에서는 다양한 서비스가 복합적으로 운용되고 있는 인터넷 망에서PCM 및 ADPCM으로 압축된 음성 데이터를 전송할 경우, 패킷 크기와 한계 지연시간의 변화가 수신측의 음질에 미치는 영향을 분석하고 주어진 한계 지연시간에 대하여 최고의 음질을 제공하기 위한 전송 패킷의 크기에 대하여 논한다. 결과를 얻기 위한 실험은 공중 인터넷 망을 통하여 연결된 두 대의 PC 상에서 이루어졌다. 송신측은 마이크로부터의 음성신호를 PCM 및 ADPCM으로 부호화하고 이를 UDP 패킷을 이용하여 전송하였으며, 수신 측에서는 망에서 발생하는 전송 지연 및 패킷 손실 등을 거친 패킷이 음성신호로 재생된다. 음질 평가를 위하여 송수신 음성 데이터를 수집하여 오프라인에서 비교하며, 알고리즘으로는 객관성을 유지하기 위하여 MNB 방법을 이용하였다. 실험 결과에 의하면, 40Kbps, 32Kbps, 16Kbps의 ADPCM으로 압축된 음성의 전송에서 한계 전송 지연을 100ms로 하였을 경우 음질 열화를 최소화하기 위하여는 패킷 크기의 하한이 각각 300, 400, 500바이트, 패킷 크기의 상한은 공히 1200바이트인 것이 요구된다.

QR 코드에 음성 데이터 삽입을 위한 AMR 압축 비트열 분석 (Analysis of AMR Compressed Bit Stream for Insertion of Voice Data in QR Code)

  • 오은주;조현지;정현아;배정은;유훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.490-492
    • /
    • 2018
  • 본 논문은 음성 데이터를 QR 코드에 입력 및 전송하는 기법을 연구하기 위해 실생활에 가장 많이 사용되는 AMR 음성 데이터를 분석한 결과를 제공한다. AMR은 HEADER와 Speech Data로 구성되어 있고, 비트 형식으로 전송되고 있으며 총 8개의 비트 전송률 모드를 갖고 있다. HEADER에는 Speech Data의 모드 정보가 포함되어 있으며 모드에 따라 Speech Data의 길이는 달라진다. 그 중 QR 코드에 삽입하기 가장 적절한 전송률 모드를 선택하고 해당 모드에 대한 분석을 제공한다. 각 모드에 대한 분석 및 실험을 통해 추후 음성 데이터에 대해 더 높은 압축률을 보이는 것이 최종 목표이다. 그럼으로써 음성 데이터를 보다 효율적으로 전송할 수 있다는 점에서 성능 개선을 보인다.

  • PDF