• 제목/요약/키워드: 음성 코덱

검색결과 119건 처리시간 0.021초

인터넷상의 실시간 음성 전송을 위한 에러 복원 알고리즘의 연구 (Study of Error Reconstruction Algorithm for Real-time Voice for Transmissions over the Internet)

  • 신현숙;최연성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2001년도 춘계종합학술대회
    • /
    • pp.388-394
    • /
    • 2001
  • 인터넷상의 실시간 음성 전송 시에 발생하는 손실을 은닉하기 위한 다수의 알고리즘들이 제안되고 있다. 이 알고리즘들의 주 목적은 적은 대역폭을 사용하여 손실을 복원하고 복원 후 좋은 음질을 보장하는 것이다. 손실 은닉 알고리즘들은 receiver based와 sender- / receiver-based로 나뉘어진다. 본 논문에서 sender- 와 receiver-based 복원 알고리즘을 CELP를 사용하는 저 비트율 코덱에 적용하고자 한다.

  • PDF

EVRC 코덱으로 재생하는 음악의 품질을 개선하기 위한 전처리 기법 (A Preprocessing Approach to Improving the Quality of the Music Produced by the EVRC)

  • 남영한;하태균;전윤호;김재수;박섭형
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.476-485
    • /
    • 2003
  • 이 논문에서는 CDMA(Code Division Multiple Access) 음성 압축 표준의 하나인 EVRC(enhanced variable rate codec) 코덱으로 재생되는 음악의 품질을 개선하기 위한 전처리 알고리듬을 제안한다. EVRC는 음성을 압축하는 목적으로 최적화되었기 때문에, 음악을 압축하여 전송하면 품질을 심하게 저하시키기도 한다. EVRC로 음악을 압축할 때 발생하는 품질 저하 현상들 중에서 가장 심한 것의 하나가 끊김 현상인데, 끊김 현상은 프레임들이 연속적으로 Rate 1/8로 전송될 때 발생한다. EVRC는 장기 예측 이득의 크기를 바탕으로 입력 프레임들의 전송률을 결정하므로, 장기 예측 이득을 증가시켜 대부분의 프레임이 Rate 1 혹은 Rate 1/2로 압축될 수 있도록 하였다. 실험 결과를 보면 이러한 전처리 방법은 음악 신호에 대해 잘 적용되며 끊김 현상이 발생하는 프레임의 개수가 상당히 줄어들었음을 확인할 수 있다.

텔레메틱스 단말기 내의 오디오/비디오 명령처리를 위한 임베디드용 음성인식 시스템의 구현 (Implementation of Embedded Speech Recognition System for Supporting Voice Commander to Control an Audio and a Video on Telematics Terminals)

  • 권오일;이흥규
    • 대한전자공학회논문지TC
    • /
    • 제42권11호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 논문에서는 차량 내에서 음성인식 인터페이스를 이용한 오비오, 비디오와 같은 응용서비스 처리를 위해 임베디드형 음성인식 시스템을 구현한다. 임베디드형 음성인식 시스템은 DSP 보드로 제작 포팅된다. 이는 음성 인식률이 마이크, 음성 코덱 등의 H/W의 영향을 받기 때문이다. 또한 차량 내 잡음을 효율적으로 제거하기 위한 최적의 환경을 구축하고, 이에 따른 테스트 환경을 최적화한다. 본 논문에서 제안된 시스템은 차량 내에서의 신뢰적인 음성인식을 위해 잡음제거 및 특징보상 기술을 적용하고 임베디드 환경에서의 속도 및 성능 향상을 위한 문맥 종속 믹스쳐 공유 음향 모델링을 적용한다. 성능평가는 일반 실험실 환경에서의 인식률과 실제 차량 내에서의 실차 테스트를 통해 검증되었다.

SBR을 이용한 주파수 밴드선택 여기 선형예측 광대역 음성/오디오 부호화 (Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR)

  • 장성훈;이인성
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.556-562
    • /
    • 2013
  • 본 논문은 컴포트 노이즈(comfort noise)를 이용하는 주파수 밴드선택 음성/오디오 코덱에서 컴포트 노이즈 대신 SBR(Spectral Band Replication) 기술을 이용하여 여기 신호를 대체 함으로서 밴드 선택 광대역 음성/오디오 부호화기의 성능 향상을 목표로 한다. 비 전송 밴드에 SBR 기술로 합성된 신호를 삽입하기 위하여 부밴드 별로 전송된 신호를 활용하며, 각각의 부밴드 별로 에너지 가중치를 설정한다. 백색잡음 성분의 컴포트 노이즈 대신 전송신호에 의존하는 신호를 합성 함으로서 보다 높은 음질의 밴드 선택 부호화기를 제안하였다.

해상도 조절과 검색순서 조절을 통한 음성부호화기용 복잡도 감소 알고리즘 (The Reduction Algorithm of Complexity using Adjustment of Resolution and Search Sequence for Vocoder)

  • 민소연;이광형;배명진
    • 한국산학기술학회논문지
    • /
    • 제8권5호
    • /
    • pp.1122-1127
    • /
    • 2007
  • 일정한 스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형 보간이 용이하다는 장점을 갖는 LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 제안하는 알고리즘은 LSP분포 특성에 따라 검색구간의 순서와 검색간격을 달리하며, 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 real root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 48.13% 단축되었다.

  • PDF

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구 (A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics)

  • 민소연;배명진
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.304-309
    • /
    • 2002
  • LSP (Line Spectrum Pairs) 파라미터는 음성코덱 (codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC (Linear Predictive Coding) 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP변환 방법 중 음성 부호화기에서 주로 사용하는 실근 (real root)방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 기존의 실근 방법과 비교 평가한 알고리즘은 첫 번째 검색 대역에 멜 스케일 (met scale)을 사용하였고, 두 번째는 LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검색구간의 순서와 검색간격을 달리 하였다. 실험결과, 기존의 실근 방식에 비하여 두 가지 방식 모두가 변환시간의 47% 이상이 감소되는데 반하여 동일한 근을 찾음을 알 수가 있었다.

헬스케어 로봇으로의 응용을 위한 음색기반의 감정인식 알고리즘 구현 (Implementation of the Timbre-based Emotion Recognition Algorithm for a Healthcare Robot Application)

  • 공정식;권오상;이응혁
    • 전기전자학회논문지
    • /
    • 제13권4호
    • /
    • pp.43-46
    • /
    • 2009
  • 음성신호는 화자에 대한 고유한 정보와 주변의 음향환경에 대한 정보는 물론 감정과 피로도 등 다양한 정보가 포함되어 있다. 이에 음성신호를 이용한 연구분야에서 감정 상태를 파악하기 위한 연구가 지속되어 왔다. 이에 본 논문에서는 화자의 감정을 인식하기 위해 ETSI의 3GPP2 표준코덱인 Selectable Mode Vocoder(SMV)를 분석한다. 이를 기반으로 감정 인식에 효과적인 특징들을 제안한다. 이후 선정된 특징 벡터를 이용하여 Gaussian Mixture Model(GMM) 기반의 감정 인식 알고리즘을 개발하고 Mixture component 개수를 변화시키면서 성능을 검증한다.

  • PDF

ISDN 멀티미디어 통신단말용 시스템-온-칩 및 소프트웨어 구현 (The Implementation of an ISDN System-on-a-Chip and communication terminal)

  • 김진태;황대환
    • 한국정보통신학회논문지
    • /
    • 제6권3호
    • /
    • pp.410-415
    • /
    • 2002
  • 본 논문에서는 ISDN 망에서 통신 단말용으로 구현된 시스템-온-칩과 이 칩을 활용하여 설계 제작된 ISDN 단말에 관해 기술한다. ISDN 단말의 여러 가지 기능이 통합되어 구현된 본 논문의 ISDN 시스템-온-칩은 32비트 ARM7TDMI RISC 코아 프로세서부, 네트워크 인터페이스를 위해 ISDN S/T-정합부, 각종 톤 발생과 음성 신호를 PCM 데이터로 변환하기 위한 음성 코덱부 및 user와 인터페이스를 위한 PC 정합부로 구성되어 있다. 또한 이 칩을 활용하여 ISDN 통신단말을 구성하기 위한 소프트웨어 구조와 및 서비스절차 에 대해 기술하며, 끝으로 구현된 통신단말의 구조에 관해 살펴본다.

통합 서비스를 지원하는 B-ISDN 정합 장치의 구현 (Implementation of a B-ISDN terminal adapter supporting for integrated services)

  • 성정식;유재호;이문우;김도영
    • 한국정보통신학회논문지
    • /
    • 제1권1호
    • /
    • pp.35-46
    • /
    • 1997
  • 이 논문에서는 ATM을 기반으로 하는 B-ISDN을 통하여 기존의 음성, 영상 및 비연결형 데이타 서비스를 각각, 그리고 동시에 지원하는 B-ISDN 정합 장치에 관해 논한다. B-ISDN 정합 장치에서는 ATM망에 N-ISDN 단말기를 정합하고, NTSC 방식의 TV, VTR등을 DS3급의 코덱을 거쳐 ATM망에 정합함으로써 기존의 음성 및 영상을 B-ISDN에서 지원할 수 있도록 하였다. 또한 이더네트 LAN을 ATM망에 정합하여 비연결형 서비스를 제공할 수 있도록 하였고, N-ISDN 및 DS3 트래픽을 실시간으로 처리하기 위해 AAL 1을 사용하고, LAN 트래픽을 처리하기 위해 AAL 3/4 또는 AAL 5를 사용하였다.

  • PDF