• 제목/요약/키워드: 음성 코딩

검색결과 126건 처리시간 0.024초

G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬 (Transcoding Algorithm for SMV and G.729A Vocoders via Direct Parameter Transformation)

  • 장달원;서성호;이선일;유창동
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.71-83
    • /
    • 2003
  • 본 논문에서는 G.729A와 SMV 음성부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호부호화 알고리듬을 제안한다. 상호부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 Tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기가 음성을 부호화하기 위하여 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV 에서 G.729A로의 트랜스코딩에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 트랜스코딩 등의 알고리듬을 제안하고, G.729A에서 SMV로의 트랜스코더에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리듬을 제안한다 제안된 알고리듬을 다양한 방법으로 평가해본 결과 기존의 Tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다.

배경잡음 및 패킷손실에 강인한 voice-over-IP 수신단 기반 음질향상 기법 (Robust speech quality enhancement method against background noise and packet loss at voice-over-IP receiver)

  • 김지연;김형국
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.512-517
    • /
    • 2018
  • 음성 품질의 향상은 통신 분야의 주요 관심사이다. 본 논문에서는 VoIP(Voice-over-IP) 수신부에서의 배경잡음 및 패킷손실에 강인한 음질향상 방식을 제안한다. 제안된 방식에서는 하이브리드 마르코프 체인 기반 네트워크 지터추정, 추정된 지터를 이용한 적응적 플레이아웃 스케줄링, 그리고 진폭 및 위상 복원 기반의 음성 향상 방식 등을 결합하여 IP 네트워크를 통해 VoIP 수신부에 도착하는 음성신호의 품질을 향상시킨다. 실험결과는 제안된 방식이 송신부의 인코딩 전에 음성신호에 추가된 잡음을 제거하고 불안정한 네트워크 환경에서 양질의 음성을 제공하는 것을 확인할 수 있다.

Low Bit Rate을 고려한 LMS-MPC 방식에 관한 연구 (A Study on LMS-MPC Method Considering Low Bit Rate)

  • 이시우
    • 디지털융복합연구
    • /
    • 제10권5호
    • /
    • pp.233-238
    • /
    • 2012
  • 유성음원과 무성음원을 시용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음성 파형에 일그러짐이 나타난다. 이것을 해결하기 위하여 본 논문에서는 개별피치와 LMS(Least Mean Square)를 적용한 LMS-MPC를 제시하였으며, 기존의 MPC와 LMS-MPC의 SNRseg를 평가한 결과, LMS-MPC의 남자음성에서 1.5dB, 여자음성에서 1.3dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 LMS-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화 하는 방식에 활용할 수 있을 것으로 기대된다.

임베디드 리눅스 시스템을 이용한 디지털 사진 액자 구현 (Implementation of Digital Photo Frame using Embedded Linux System)

  • 현경석;이명의
    • 한국산학기술학회논문지
    • /
    • 제7권5호
    • /
    • pp.901-906
    • /
    • 2006
  • 본 논문에서는 디지털 카메라의 사진을 메모리 카드를 통해 입력받고 디스플레이하며 각 사진에 대한 음성 레코딩과 MP3 플레이가 가능한 디지털 사진 액자 시스템 구현에 대하여 기술한다. Intel PXA255 보드의 시스템 제어를 위한 부트로더와 리눅스 커널을 포팅하며 외부 장치들을 위한 디바이스 드라이버를 작성한다. 리눅스 시스템 상에서 이미지 출력 및 음성 레코딩, MP3 플레어 기능을 구현하기 위해 마이크로윈도우즈 시스템의 구성 파일을 수정하고 응용 프로그램을 작성한다. 본 논문 연구를 통해서 저 전력, 고성능의 임베디드 프로세서와 리눅스 시스템을 이용한 디지털 사진 액자 개발에 쉽게 접근할 수 있으며 구현된 디바이스 드라이버와 응용 프로그램 개발 절차를 통해 임베디드 시스템 개발과 관련한 분야에 기초 자료로 사용할 수 있을 것이다.

  • PDF

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

Multi-frame AR model을 이용한 LPC 계수 양자화 (Quantization of LPC Coefficients Using a Multi-frame AR-model)

  • 정원진;김무영
    • 한국음향학회지
    • /
    • 제31권2호
    • /
    • pp.93-99
    • /
    • 2012
  • 음성코딩 시 성도는 Linear Predictive Coding (LPC) 계수를 이용해서 모델링 한다. 일반적으로 LPC 계수는 양자화와 선형보간 관점에서 유리한 Line Spectral Frequency (LSF) 파라미터로 변경하여 사용한다. 10차 이상의 다차원 LSF 데이터를 벡터 양자화를 이용하여 직접 코딩하게 되면 벡터 내 상관관계 (intra-frame correlation)를 모두 이용할 수 있으므로 rate-distortion 관점에서는 높은 효율을 기대할 수 있다. 하지만, 계산량과 메모리 요구량이 높아져서 실제 코딩 시스템에서는 사용할 수 없게 되므로, 차원을 나누어 압축하는 Split Vector Quantization (SVQ)이 이용된다. 또한, LSF 데이터는 과거 벡터와의 벡터 간 상관관계 (inter-frame correlation)가 높으므로, 이를 이용한 Predictive Split Vector Quantization (PSVQ)이 사용되고 있다. PSVQ는 SVQ 보다 높은 rate-distortion 성능을 보인다. 본 논문에서는 음성 저장 장치를 위한 최적의 PSVQ를 구현하기 위해서 다수의 과거 프레임 정보와의 벡터 간상관관계 (inter-frame correlation)를 고려한 Multi-Frame AR-model 기반 SVQ (MF-AR-SVQ)를 제안하였다. 기존 PSVQ와 비교해 보았을 때, MF-AR-SVQ는 계산량과 메모리 요구량의 큰 증가 없이, 평균 spectral distortion 관점에서 약 1비트의 성능 향상을 보였다.

한국어 연속음성인식을 위한 발음사전 구축 (Pronunciation Dictionary For Continuous Speech Recognition)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

가변전송률 CELP 부호화기 설계를 위한 발성률 비교 분석에 관한 연구 (A Study on a comparison and analysis of Speaking rate estimation for adaptive bit rate on CELP vocoder)

  • 장경아;민소연;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.105-108
    • /
    • 2004
  • 음성 부호화 기술은 전송률과 복잡도를 줄이고 음질을 향상시키는 방향으로 진행되고 있다. 현재 상용화되고 있는 CELP형 보코더는 낮은 전송률에 비해 우수한 음질을 제공한다. 본 논문에서는 기존의 방식과 다르게 보코더 단에 입력 음성이 들어가기 앞서 전처리 기법을 수행하는 전처리단을 부가하여 전송률을 낮추는 방법을 소개하고, 소개된 방법들을 각기 비교하고 분석하고자 한다. 전처리기법들을 음성 인식이나 합성에서 사용되는 파라미터들을 적용시켰으며, 처리시간이나 계산시간에 있어 기존의 방식에서 많은 영향을 미치지 않은 간단한 알고리즘으로 구현하였다. 소개하는 전처리단에서는 기존의 코딩방식에서 사용하지 않은 파라미터들, 발성율, 지속시간, PSOLA 방식들을 이용하였다.

  • PDF

DSP를 이용한 음성 및 오디오 시스템 설계

  • 김성수;조성호
    • 전기의세계
    • /
    • 제46권5호
    • /
    • pp.39-44
    • /
    • 1997
  • 현재 DSP는 음성 및 오디오 신호처리 시스템, 디지털 통신 시스템, 제어 시스템, 영상처리 시스템 등 많은 영역에 걸쳐 성공적으로 사용되고 있다. 몇가지 대표적인 활용분야를 살펴보면, 음성신호 압축 분야 [1-4], MPEG (moving picture expert group)과 같은 오디오신호 압축분야[5,6], 그리고 디지털 통신 시스템에서의 적응 반향제거기, 적응 동화기, 채널간섭 제거, 변복조기, 채널 코딩, 암호화기[7-14] 등에서도 DSP가 사용되고 있다. 그리고 수중 음향 신호처리[15], 디지털 필터 디자인, 전력 스펙트럼 추정, 수중 음향 신호처리 같은 디지털 신호처리 분야[16-23]와 적응 신호처리[24-26], 이외에도 능동 소음 제어기 및 적응 제어기와 같은 제어 시스템 [27]에도 유용하게 이용되고 있다. 또한 영상 압축, 디지털 방송, 의료기기 등과 같은 영상처리 분야[28-32] 및 그 밖의 많은 분야에서 DSP의 활용은 점점 커져가고 있는 추세이다.

  • PDF

ATM Adaptation Layer Type 2 스위칭을 위한 소프트웨어 스위치 서버 구현 (Software ATM Switch Server for ATM Adaptation Layer Type 2)

  • 신동훈;김태석;권택근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.180-182
    • /
    • 2000
  • 기존의 ATM(Asynchronous Transfer Mode) 스위치는 하나의 셀 안에 하나의 음성 데이터를 전송하는 방식이었다. 이러한 방식으로는 적은 양을 갖는 실시간 가변 비트율의 음성 데이터의 서비스를 제공하기에는 비효율적이었다. 이에 ATM 네트워크에서 사용자에게 실시간 가변 비트율로, 적은 양의 음성 데이터를 멀티플랙싱하여 하나의 ATM 셀의 유료부하에 실어 보내는 방식인 AAL2(ATM Adaptation Layer Type 2) 프로토콜의 표준화가 이루어졌다. AAL2 스위치 서버는 AAL2 프로토콜로 인코딩된 ATM 셀을 스위칭하기 위해서 개발되었다. AAL2 스위치 서버는 CPS(Common Part Sublayer) 패킷을 추출해내는 부분과 CPS 패킷의 식별자를 갖고 식별자 스위칭하는 부분, 그리고 스위칭이 끝난 식별자를 갖는 CPS 패킷을 ATM 셀로 만들어 ATM 네트워크를 통해서 전송하는 부분으로 나뉜다. AAL2 스위치 서버를 3개의 부분으로 나누는 이유는 셀을 전송받는 부분과, 식별자 스위칭하는 부분, 다시 셀을 전송하는 부분으로 나누어 병렬 처리를 함으로써 스위치의 성능을 향상시킨다. 이 논문에서는 AAL2 스위치 서버를 구현하고, 그 활용방안에 대해서 알아보도록 한다.

  • PDF