• 제목/요약/키워드: Vocoder

검색결과 151건 처리시간 0.031초

주파수대역 정보를 이용한 가변률 IMBE-LP 음성부호화 알고리즘 (Variable Rate IMBE-LP Coding Algorithm Using Band Information)

  • 박만호;배건성
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.576-582
    • /
    • 2001
  • MBE(Multi-Band Excitation) 음성부호화 방식은 프레임 단위로 유/무성음을 구분하는 기존의 분석-합성 방식과는 달리 한 프레임 내에서의 주파수 영역을 여러 대역으로 나누고, 각 대역별로 유/무성음 구간을 판정하여 그에 맞는 여기신호를 이용하여 음성을 합성한다. 이러한 MBE 방식은 프레임 단위로 유/무성음을 구분하는 기존의 방식들이 갖는 합성음의 buzziness 영향이나 잡음이 섞인 음성을 분석할 때 생길 수 있는 유/무성음 판정 오류의 영향을 최소화함으로써 음질 향상을 이룰 수 있다. IMBE-LP 방식은 MBE 방식을 이용하여 2.4 kbps의 저전송률을 얻기 위한 음성부호화 알고리즘으로 MBE 모델에서 사용되는 각 대역별 스펙트럼 정보를 LP(Linear Prediction) 계수로 모델링 한다. 본 연구에서는 2.4 kbps IMBE-LP 알고리즘을 구현하고, 주파수대역 정보를 이용하여 분석프레임의 음성특성에 따라 LP차수를 달리 함으로써 전송률을 줄일 수 있는 방법을 제안하고 실험하였다.

  • PDF

위상 일치와 가변 지수 감쇠 가중치 부여 방법이 적용된 가상 저음 시스템 (Phase-matched Harmonic Generation and Variable Slope Exponential Weighting for Virtual Bass System)

  • 문현기;박영철;황영수
    • 방송공학회논문지
    • /
    • 제21권6호
    • /
    • pp.889-898
    • /
    • 2016
  • 가상 저음 시스템은 기본 주파수 성분의 배음을 생성하여 스피커의 저역 재생 대역을 확장하는 방법으로 소형 스피커에 널리 사용된다. 가상 저음 시스템의 주관적인 성능은 배음의 가중치 부여 방법과 관련이 높기 때문에, 기존 연구에서는 지수 감쇠 가중치 부여 방법과 음색 매칭 방법 등 다양한 가중치 부여 방법이 제안되었다. 그러나 생성한 배음과 기존 신호간의 위상을 맞추지 않을 경우 정확한 가중치 부여가 불가능하다. 본 논문에서는 기존 가중치 부여 방법의 한계점을 분석하고 이를 개선한 가중치 부여 방법을 제안하였다. 제안한 방법은 생성한 배음의 위상을 기존신호의 위상과 일치시키고, 기본 주파수에 따라 배음 가중치를 가변적으로 부여하는 방법이다. 기존 가상 저음 시스템과 객관 및 주관 비교 평가를 수행한 결과, 위상 일치 방법은 자연스럽고 효과적인 저역강화에 필수적임을 확인하였으며, 제안한 배음 가중치 부여 방법은 제한된 상황에서 기존 가중치 부여 방법보다 효과적임을 확인하였다.

웨이블릿 변환을 이용한 잡음제거기 설계 (Design of the Noise Suppressor Using Wavelet Transform)

  • 원호진;김종학;이인성
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.37-46
    • /
    • 2001
  • 본 논문에서는 웨이블릿 변환을 이용한 주변 잡음제거기를 제안하였다. 기존의 고정된 시간-주파수 해상도를 가지는 단구간 푸리에 분석법 대신 다양한 시간-주파수 해상도를 제공하는 웨이블릿 분석법을 사용함으로써 시간 특성이 변하는 베이블 (Babble) 잡음에 좀더 효율적인 잡음제거 방법을 설계하였다. 본 논문에 제안된 웨이블릿 변환 잡음제거기는 스펙트럴 차감법에 기반하여 구성하였으며, 고주파 영역에서 높은 시간 해상도를 갖는 웨이블릿 마스크 패턴을 사용함으로써 시간 특성이 빠르게 변화하는 고주파 잡음에 더욱 효율적인 동작을 하도록 설계하였다. 성능평가를 위해 차량 잡음, 길거리 잡음, 베이블 잡음과 같은 이동통신에서 많이 사용하는 주변잡음에서 시험하였으며, 그 주관적 음질 평가 결과 베이블 잡음의 경우 기존의 EVRC(Enhanced Variable Rate Coder) 잡음 제거기보다 Mos (Mean Opinion Score) 0.2의 성능 개선을 이룰 수 있었다. 출력 음성의 스펙트로그램에서도 성능 개선을 확인할 수 있었다.

  • PDF

5MHz 대역폭을 갖는 ETRI Wideband CDMA 시스템의 물리계층 (Phisical layer of ETRI wideband CDMA with 5 MHz bandwidth)

  • 방승찬;박형래;한영남;임명섭;이헌;한기철;박항구
    • 정보와 통신
    • /
    • 제13권4호
    • /
    • pp.56-63
    • /
    • 1996
  • 본 논문에서는 한국전자통신연구소가 개인통신서비스 시스템 규격으로 제안한 4.3008Mcps 광대역 CDMA의 물리계층을 소개한다. 제안된 물리계층은 $28{\times}2^n$ 길이의 Hadamard 코드를 사용하여 5MHz 대역에 적합하게 설계되었다. 여기서는 13kbps CELP를 주 보코더로 채택했고 32kbps ADPCM도 채택할 수 있다. 역방향 링크에 버스트 파일럿 방법이 제안되었고, 이것은 연속 파일럿 방식에 비해 용량 증가를 가져온다. 또 시그널링이 많아질 경우에도 서비스의 품질을 유지하기 위하여 정보 데이터와 시그널링 데이터를 시간다중화하였고, 시그널링 활성도를 이용하는 것이 제안되어 용량을 증가시켰다. QPSK 데이터와 QPSK 확산, 가변 프레임크기, 코드쌍 할당 방법을 이용하여 정보데이타를 64kbps가지 전송한다. 제안된 여러 가지 방법들은 향후 FPLMTS의 요소 기술로도 이용될 수 있다.

  • PDF

LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구 (A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics)

  • 민소연;배명진
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.304-309
    • /
    • 2002
  • LSP (Line Spectrum Pairs) 파라미터는 음성코덱 (codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC (Linear Predictive Coding) 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP변환 방법 중 음성 부호화기에서 주로 사용하는 실근 (real root)방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 기존의 실근 방법과 비교 평가한 알고리즘은 첫 번째 검색 대역에 멜 스케일 (met scale)을 사용하였고, 두 번째는 LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검색구간의 순서와 검색간격을 달리 하였다. 실험결과, 기존의 실근 방식에 비하여 두 가지 방식 모두가 변환시간의 47% 이상이 감소되는데 반하여 동일한 근을 찾음을 알 수가 있었다.

RISC 기반 DSP 프로세서 아키텍쳐의 성능 평가 (A Performance Evaluation of a RISC-Based Digital Signal Processor Architecture)

  • 강지랑;이종복;성원용
    • 전자공학회논문지C
    • /
    • 제36C권2호
    • /
    • pp.1-13
    • /
    • 1999
  • 디지털 신호처리용 응용 프로그램의 복잡도가 증가햐면서, 효율적인 컴파일러를 지원하는 DSP 프로세서 구조의 필요성이 증대되고 있다. 많은 범용 레지스터와 직교적(orthogonal)인 명령어 집합을 가지는 RISC프로세서 구조에 메모리 오퍼랜드, 전용 어드레스 계산 유닛, 단일 사이클 MAC 명령어, zero-overhead 하드웨어 루프 등 DSP 프로세서의 구조적 특징을 가하여 효율적인 컴파일러를 가지는 고성능의 RISC 기반 DSP를 구현할 수 있다. 본 논문에서는 이 네 가지 DSP 아키텍쳐 구성 요소를 지원하는 코드변환기를 개발하고, 이를 이용하여 각각의 DSP 아키텍쳐 구성 요소들을 보완하였을 때 성능에 미치는 영향을 정량적으로 평가하였다. 성능 평가 실험에는 C 언어로 작성된 7개의 DSP 벤치마크 프로그램과 QCELP 음성 부호화기를 이용하였으며, 평가 결과를 RISC 프로세서뿐만 아니라 Texas Instruments 사의 TMS320C3x, TMS320C54x, TMS320C5x DSP 프로세서와 비교하였다.

  • PDF

상관관계 특성을 용한 CELP 보코더의 고속 피치검색 알고리듬 (A Fast Pitch Searching Algorithm Using Correlation Characteristics in CELP Vocoder)

  • 이주헌;배명진;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.20-25
    • /
    • 1994
  • CELP 타입의 보코더에서 가장 큰 단점은 계산량이 상당히 커서 실시간 구현에 어려움이 많다는데 있다. 이러한 계산량의 부담을 줄이기 위해서 본 논문에서는 음질의 저하없이 피치검색시간을 단축하는 간단한 방법을 제안한다. 음성신호의 상관함수에서 발견되는 몇 가지의 특성으로부터 피치검색은 상관함수의 양의 구간만으로 한정될 수 있다. 이러한 피치검색구간의 한정은 상관함수에서 음의 진폭구간을 앞선 양의 진폭 구간의 폭만큼으로 추정하여 건너뜀으로서 구현할 수 있다. 또한 검색되는 피치래그의 개수를 일정한 수로 제한할 수도 있는데 실험적으로 약 58로 제한된다. 따라서 제안된 수의 피치래그에서만 피치검색이 수행된다. 제안된 방법으로 피치검색을 수행한 결과 기존의 방법에 비하여 음질의 저하없이 약 51%의 시간단축이 되었다.

  • PDF

G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬 (Transcoding Algorithm for SMV and G.729A Vocoders via Direct Parameter Transformation)

  • 장달원;서성호;이선일;유창동
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.71-83
    • /
    • 2003
  • 본 논문에서는 G.729A와 SMV 음성부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호부호화 알고리듬을 제안한다. 상호부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 Tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기가 음성을 부호화하기 위하여 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV 에서 G.729A로의 트랜스코딩에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 트랜스코딩 등의 알고리듬을 제안하고, G.729A에서 SMV로의 트랜스코더에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리듬을 제안한다 제안된 알고리듬을 다양한 방법으로 평가해본 결과 기존의 Tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다.

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 한국통신학회논문지
    • /
    • 제27권3A호
    • /
    • pp.196-204
    • /
    • 2002
  • STC(Sinusoidal Transform Coding) 방식은 주파수 영역에서 음성신호의 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 음성부호화 방식을 말한다. 저전송률 STC 방식에서는 스펙트럼의 모든 피크를 이용하는 대신, 기본 주파수와 고조파에 해당하는 스펙트럼 포락선에서의 크기와 그때의 위상을 이용하여 음성을 합성한다. 본 논문에서는 정현파 모델에 기반한 2.4kbps 음성부호화 알고리즘을 제안한다. 피치정보는 모든 스펙트럼 피크를 사용한 합성음과 선택된 주파수와 고조파를 이용한 합성음과의 평균자승에러를 이용하여 추정하고, 위상정보는 여기신호 펄스의 시작시기를 나타내는 onset time과 성도 모델 전달함수의 위상을 이용하여 얻는다. 크기정보는 SEEVOC 알고리즘과 선형예측계수를 이용하여 추정한다. 실험결과, 합성음의 스펙트럼 특성은 원음성의 포만트 정보를 대부분 가지고 있으며, 위상정보도 원음성의 위상을 잘 따라감을 확인하였다. 합성음의 음질평가를 위해서 informal한 MOS(Mean Opinion Score) 테스트를 시행하였으며, 2.0kbps의 HVXC와 비교하여 대체적으로 MOS 3.1 이상의 음질을 얻을 수 있었다.