• 제목/요약/키워드: 음성 신호 처리

검색결과 473건 처리시간 0.032초

4G 모바일 증감음성 서비스를 위한 코덱 기술 동향 (Trends of Codec Technology for 4G Mobile Enhanced Voice Service)

  • 이미숙;김도영;이병선
    • 전자통신동향분석
    • /
    • 제25권6호
    • /
    • pp.29-37
    • /
    • 2010
  • 본 논문에서는 무선망과 신호처리 기술의 발달과 1GHz급 이상의 고성능 모바일 장치의 등장에 따라 현재의 모바일 음성 서비스 품질과 확연히 차별화된 서비스를 제공하기 위해 3GPP에서 논의중인 EVS 코덱의 기술적 특성 및 최간 표준화 동향에 대해 기술한다. 3GPP에서는 지난 3월, 2년간의 논의를 거쳐 4G 모바일과 같은 EPS 시스템에서 차별화된 새로운 증감음성 품질의 서비스 제공이 필수적이라는 판단 하에 EVS 코덱 표준의 개발을 시작하였다. 현재 EVS 코덱 표준화를 위해 세부적인 가능과 성능 목표에 대해 협의를 진행중이며 표준의 완료 계획시점인 2012년 상반기경, 4G/LTE에서는 광대역 수준의 음성서비스에 비해 신호대역폭이 2배가 확장된 슈퍼와이드밴드급의 증감음성 서비스가 제공될 것으로 전망한다.

TMS320C6201를 이용한 CS-ACELP(G.729)의 실시간 구현 (Real-Time Implementation of the CS-ACELP(G.729) Using TMS320C6201 DSP)

  • 백성기;박만호;배건성
    • 한국통신학회논문지
    • /
    • 제26권3B호
    • /
    • pp.288-294
    • /
    • 2001
  • 본 논문에서는 CS-ACELP 음성부호화기를 TMS320C6201 고정소수점 DSP 칩을 탑재한 EVM 보드 상에서 권고안(G.729)과 함께 제공되는 고정수점 C 프로그램을 바탕으로 실시간 구현하였다. CS-ACELP 음성부호화기를 실시간 구현하기 위한 최적화 방법에 대해 기술하였으며, 구현된 시스템의 음질 평가를 위해서 음성신호에 대한 C 프로그램의 출력과 구현된 시스템의 출력을 비교하였다. 실험 결과, 최적화 작업을 통해 구해진 전체 프로그램 메모리의 크기는 약 14.04kWords 였으며, 한 프레임(10ms)을 처리하는데 2.5 ms가 소요되었다. 또한, 임의의 음성신호에 대한 C 프로그램의 출력과 구현된 시스템의 출력을 ITU-T에서 제공되는 test vector를 이용하여 bit-exact 함을 확인하였으며, 위의 실험결과를 바탕으로 TMS320C6201 EVM 보드에서 마이크와 스피커를 이용하여 CS-ACELP 음성부호화기가 왜곡이나 지연없이 실시간 구현됨을 확인하였다.

  • PDF

강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출 (Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition)

  • 정성윤;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

PCA 기반 파라메타를 이용한 숫자음 인식 (The Recognition of Korean Syllables using Parameter Based on Principal Component Analysis)

  • 박경훈;표창수;김창근;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.181-184
    • /
    • 2000
  • 본 논문에서는 음성 특징추출의 한 방법으로서 기존의 방법들과는 달리 음성의 통계적인 특성들을 고려하여, 입력 공간내에서 변동량이 가장 많은 방향으로 주축을 발견한 다음 그 정보를 이용하여 데이터의 중복성을 제거하는 주성분 해석(PCA:Principal Component Analysis)기법을 사용하여 음성의 특징을 추출하는 방법을 제안한다. 본 논문의 숫자음 인식실험 결과와 비교하기 위하여 기존의 음성특징 파라메타인 Mel-Cepstrum과 비교하였을 때, 0.5%의 인식률 차이가 있었으나, 음성특징 추출시 기존의 파라메타에 비하여 비교적 짧은 시간에 구해지는 점과 데이터의 통계적 특성을 이용한 최적의 기저벡터를 이용한다면 단어나 문장 인식시에 보다 나은 인식률을 얻으리라 사료된다.

  • PDF

잡음환경 음성명료도 향상을 위한 이진 마스크 추정 후처리 알고리즘 (A Post-processing for Binary Mask Estimation Toward Improving Speech Intelligibility in Noise)

  • 김기백
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.311-318
    • /
    • 2013
  • 시간-주파수 영역에서의 이진 마스킹을 이용하여 잡음환경에서 잡음을 제거하여 음질을 향상하는 방법에 대해 논하고자 한다. 잡음이 섞여 있는 음성신호를 시간-주파수 영역으로 분해하여, 상대적으로 잡음이 많이 섞여 있는 시간-주파수 영역 (시간-주파수 유닛의 신호 대 잡음 비 (Signal-to-Noise Ratio: SNR)가 낮은 영역)의 신호에 마스크 "0"을 할당하여 제거함으로써 음성명료도를 향상시킬 수 있다. 이전의 연구에서는 가우시안 혼합 모델을 이용하여 마스크 "0"과 마스크 "1"을 분류하는 방법을 사용하였다. 각 주파수 밴드별로 수집된 데이터를 이용하여 가우시안 혼합 모델을 학습하고 테스트 데이터가 들어오면 현재의 시간-주파수 마스크가 "0"인지 "1"인지 판별하게 된다. 본 논문에서는 이러한 알고리즘에 주파수 영역에서의 종속성을 고려하여 추정된 마스크에 대해 후처리를 수행하는 알고리즘을 제안한다. 주파수 영역에서의 종속성에 관한 후처리는 비터비 (Viterbi) 알고리즘을 이용하며, 제안된 후처리 알고리즘을 적용하여 이진 마스크 추정 오차를 줄여 음성 명료도 향상을 기대할 수 있다.

입력신호 상호상관을 이용한 주파수 영역 블라인드 음원 분리 (Frequency Domain Blind Source Seperation Using Cross-Correlation of Input Signals)

  • 성창숙;박장식;손경식;박근수
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.328-335
    • /
    • 2005
  • 본 논문에서는 혼합된 입력음성신호들을 분리하기 위해 마이크로폰 어레이를 이용한 주파수영역 ICA 블라인드 음원분리 방법을 제안한다. 음성신호가 지연 혼합되어 입력되더라도 신호와 잡음을 분리하기 위한 분리행렬이 최적해로 수렴할 수 있도록 입력신호의 상호상관도를 이용하여 지연 혼합의 초기 지연값을 결정하는 방법을 제안한다. 그리고 계산량을 줄이기 위하여 주파수영역 블라인드 음원분리 알고리즘을 채용한다. 본 논문에서 제안하는 블라인드 음원분리 방법의 성능을 컴퓨터시뮬레이션을 통하여 확인한다.

  • PDF

음색변경을 위한 피치시점 검출에 관한 연구 (On a Detection of Pitch Point for Voice Color Conversion)

  • 박형빈;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.149-152
    • /
    • 2000
  • 음성신호처리분야에서 피치시점 검출은 음성 합성시에 여기원의 특성을 나타내어 음질의 자연성을 결정한다. 이에 본 논문에서는 음색 변경시에 운율조절에 필요한 피치시점 검출법을 제안한다. 제안한 방법은 시간영역에서 직접 처리하기 때문에 피치동기분석이 용이하고 다른 영역으로의 변환과정이 불필요하다. 또한 기존의 피치시점검출 방법에서는 결정논리를 실험적인 문턱 값이나 무게치를 적용하여 처리하는 반면에 제안한 방법은 분석구간별로 얻어지는 주기적인 성문특성을 적용하여서 정확한 피치시점을 검출할 수 있었다

  • PDF

사용자 프라이버시 보호를 위한 음성 특징 제거 기법 설계 및 구현 (Design and Implementation of the Voice Feature Elimination Technique to Protect Speaker's Privacy)

  • 유병석;임수현;박미소;이유진;윤성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.672-675
    • /
    • 2012
  • 음성은 가장 익숙하고 편리한 의사 소통 수단으로 스마트폰과 같이 크기가 작은 모바일 기기의 입력 인터페이스로 적합하다. 서버 기반의 음성 인식은 서버를 방문하는 다양한 사용자들을 대상으로 음성 모델을 구축하기 때문에 음성 인식률을 높일 수 있고 상용화가 가능하다. 구글 음성인식, 아이폰의 시리(SiRi)가 대표적인 예이며 최근 스마트폰 사용자의 증가로 이에 대한 수요가 급증하고 있다. 서버 기반 음성 인식 기법에서 음성 인식은 스마트폰과 인터넷으로 연결되어 있는 원격지 서버에서 이루어진다. 따라서, 사용자는 스마트폰에 저장된 음성 데이터를 인터넷을 통하여 음성 인식 서버로 전달해야 된다[1, 2]. 음성 데이터는 사용자 고유 정보를 가지고 있으므로 개인 인증 및 식별을 위한 용도로 사용될 수 있으며 음성의 톤, 음성 신호의 피치, 빠르기 등을 통해서 사용자의 감정까지도 판단 할 수 있다[3]. 서버 기반 음성 인식에서 네트워크로 전송되는 사용자 음성 데이터는 제 3 자에게 쉽게 노출되기 때문에 화자의 신분 및 감정이 알려지게 되어 프라이버시 침해를 받게 된다. 본 논문에서는 화자의 프라이버시를 보호하기 위하여 사용자 음성 데이터로부터 개인의 고유 특징 및 현재 상태를 파악할 수 있는 감정 정보를 제거하는 기법을 설계 및 구현하였다.

음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템 (Time-Frequency Domain Impulsive Noise Detection System in Speech Signal)

  • 최민석;신호선;황영수;강홍구
    • 한국음향학회지
    • /
    • 제30권2호
    • /
    • pp.73-79
    • /
    • 2011
  • 본 논문에서는 음성 신호를 녹음하는 과정에서 발생하는 충격 잡음의 위치를 검출하는 새로운 알고리즘을 제안하였다. 제안한 방법은 충격 잡음의 주파수 축 특성을 반영하여 기존의 방법에 비해 높은 검출 정확도를 가지면서 음성의 피치를 충격 잡음과 구분하지 못하는 문제를 해결하였다. 또한, 시간 축, 주파수 축 파라미터의 단점을 상호 보완하여 false-alarm 문제를 최소화하는 시간-주파수 축 충격 잡음 검출 시스템을 제안하였다. 실제 녹음된 충격 잡음을 이용한 실험 결과, 제안한 시간-주파수 축 충격 잡음 검출기는 99.33 %의 가장 높은 검출 정확도와 1.49 %의 가장 낮은 false-alarm 비율을 나타내었다.

Dialog/4 보드를 이용한 전화음성 기반의 화자 인증 시스템의 구현 (An Implementation of Telephone-based Speaker Verification System using Dialog/4 Board)

  • 이순려;박일구;최홍섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.89-92
    • /
    • 2004
  • 전화 음성용 화자인증 시스템 전화기에서 의뢰인의 ID와 음성을 입력받은 후 인증관련 처리론 PC에서 수행하여 그 인증 결과를 의뢰인의 전화로 알려주는 시스템으로 본 논문에서는 CTI(Computer Telephony Integration) 기술이 적용된 Dialog/4 보드를 이용하여 시스템을 구현하였다. Dialog/4 보드를 통하여 시스템에 입력된 ID와 음성에 대하여 신호처리와 특징 추출을 거친후 ID에 해당하는 화자모델과 배경화자 정보를 이용하여 유사도를 계산하여 의뢰인에 대한 인증 또는 거절의 결과를 알려준다. 실제의 전화음성을 이용한 화자인증 시스템이 성능평가에서 전화음성으로 실험을 할 경우 $99.6\%$의 인증률을 보여주었다.

  • PDF