• 제목/요약/키워드: 음성 신호 처리

검색결과 473건 처리시간 0.021초

VoiceXML을 이용한 자동차 정보 안내 시스템 구현 (An Implementation of Automobile Information System using VoiceXML)

  • 양정수;김동규;김정현;노용완;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.290-293
    • /
    • 2005
  • 음성 인식 기술이 발달함에 따라 음성 인식 기술을 이용한 응용의 개발이 중요한 문제로 떠오르고 있다. VoiceXML은 전화기를 통한 음성 인터페이스를 위한 XML 언어로서 손쉬운 방법으로서 음성 인터페이스를 설계, 구현할 수 있도록 만들어진 언어이다. 본 논문에서는 이를 이용해 전화를 통하여 음성으로 자동차 정보 안내 시스템을 사용할 수 있는 사용자 인터페이스를 구현한다. 구현된 시스템 및 서비스는 VoiceXML의 장점을 활용하여 원거리에서 편리하게 사용자가 자동차의 정보를 안내받고 제어할 수 있는 인터페이스 자체보다는 음성 인터페이스의 설계 및 구현에 중점을 두었다. 10인의 피실험자가 각 10회씩 총 100회를 실험한 결과 99.3%의 인식률을 보였다. 추후 차세대 자동차 텔레메틱스 서비스와 연동하면 구현되어진 시스템의 활용이 증대될 것이라 판단된다.

  • PDF

독립성분분석을 이용한 DSP 기반의 화자 독립 음성 인식 시스템의 구현 (Implementation of Speaker Independent Speech Recognition System Using Independent Component Analysis based on DSP)

  • 김창근;박진영;박정원;이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.359-364
    • /
    • 2004
  • 본 논문에서는 범용 디지털 신호처리기를 이용한 잡음환경에 강인한 실시간 화자 독립 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 부동소수점 디지털 신호처리기인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 CODEC과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 실시간 음성 인식기에 사용한 음성특징 파라메터는 일반적으로 사용되어 지는 MFCC(Mel Frequency Cepstral Coefficient)대신 독립성분분석을 통해 MFCC의 특징 공간을 변화시킨 파라메터를 사용하여 외부잡음 환경에 강인한 특성을 지니도록 하였다. 두 가지 특징 파라메터에 대해 잡음 환경에서의 인식실험 결과, 독립성분 분석에 의한 특징 파라메터의 인식 성능이 MFCC보다 우수함을 확인 할 수 있었다.

정서정보의 변화에 따른 음성신호의 특성분석에 관한 연구 (Analysis of Speech Signals According to the Various Emotional Contents)

  • 조철우;조은경;민경환
    • 한국음향학회지
    • /
    • 제16권3호
    • /
    • pp.33-37
    • /
    • 1997
  • 본 논문은 정서정보를 포함하여 수집된 음성자료를 여러 가지 신호처리 방법으로 분석한 결과에 대하여 기술하고 있다. 정서정보를 포함한 음성은 연극배우로부터 수집하였으며 분석은 주로 피치정보의 변화와 지속시간을 중심으로 행하였다. 수집된 음성에 대한 분석결과 정서정보의 변화에 따른 음성 파라미터의 변화치를 얻을 수 있었으며 이 실험은 앞으로의 정서음성정보의 분석에 필요한 기초적 실험으로 의의가 있다.

  • PDF

패킷음성 프로토콜의 구현 (Implementation of Packet Voice Protocol)

  • 이상길;신병철;김윤관
    • 한국통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.1841-1854
    • /
    • 1993
  • Ethernet에 음성신호의 전송을 위한 패킷음성 프로토콜을 PC 구현하였다. 구현한 패킷음성 프로토콜은 CCITT의 G.764 패킷음성 프로토콜을 수정하여 사용하였다. 이를 위하여 ethernet을 통한 음성통신을 하기 위한 하드웨어 시스템을 설계하였는데, 전화기 인터페이스부분, 음성처리부분, PC인터페이스부분 및 제어부분으로 나누어진다. 소프트웨어는 OSI 7 계층에 맞추어 설계하였으며 ethernet device driver, 전화기 인터페이스 하드웨어 driver 그리고 패킷음성 프로토콜 처리부분으로 구성되어 있다. 실제 실험결과 ethernet을 통하여 전화를 연결하고 만족한 음성통화를 할 수 있었다.

  • PDF

잡음하에서 이득 적응을 가지는 비정상상태 자기회귀 은닉 마코프 모델에 의한 오염된 음성을 위한 인식 (Recognition for Noisy Speech by a Nonstationary AR HMM with Gain Adaptation Under Unknown Noise)

  • 이기용;서창우;이주헌
    • 한국음향학회지
    • /
    • 제21권1호
    • /
    • pp.11-18
    • /
    • 2002
  • 본 논문에서는 부가 잡음에 오염된 음성신호에 이득 적응을 가지는 음성인식을 시간 영역에서 다루었다. 잡음은 유색잡음이라고 가정한다. 전화망에서 마찰음 (fricative), 운음 (glides), 유음 (liquds), 그리고 천이영역(transition region)과 같은 음성 신호의 뚜렷한 비정상상태를 극복하기 위해서 NAR-HMM (nonstationary autoregressive HMM)7을 제안하였다. 비정상상태 AR 처리는 M개의 알고 있는 기저 함수 (basis function)의 선형 결합으로 이루어진 다항 함수 (polynomial function)로 나타낼 수 있다. 오염된 신호만을 이용할 수 있을 때, 잡음의 추정 (estimation)문제는 필연적으로 발생한다. 다중 Kalman 필터를 사용함으로써, 잡음모델의 추정과 음성의 이득곡선 (gain contour)을 수행하였다. 제안한방법의 잡음 추정은 오염된 신호로부터 효과적으로 잡음을 제거하여 깨끗한 음성신호를 얻을 수 있었다. 또한 잡음 추정을 하는 일반적인 ARHMM보다 제안한 NAR-HMM이 약 2-3%의 인식성능을 향상시켰다.

EM 알고리즘을 이용한 음성 파라미터 추정 및 향상 (Paper Title : Speech Parameter Estimation and Enhancement Using the EM Algorithm)

  • 이기용;강영태;이병국
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.68-75
    • /
    • 1994
  • 신호처리의 많은 분야에서, 심하게 비가우시안 성질을 가지는 분포, 혹은 분포의 중간은 가우시안 특성을 가지지만 양 끝에서는 편차가 크게 나는 분포를 다루어야 하는 경우가 종종 있다. 이러한 편차에 효과적으로 대처하기 위하여 본 논문에서는 음성 신호의 여기 신호로서 혼합 분포(mixture distribution)을 고려한다. 이것은 음성 분석시 피치 주파수가 미치는 영향을 감소시키며, 배경 잡음을 제거하는 데에도 효과적이다. 음성 신호 파라미터의 추정 및 향상을 위하여 EM 알고리즘을 사용하묘, 향상 과정에서는 강인 칼만 필터링 기법을, 파라미터 추정 관정에서는 검출/추정 기법을 사용한다. 실험 결과, 본 논문에서 제안하는 알고리즘이 입력 신호대잡음비가 열악한 경우에 기존의 것보다 우수한 성능을 보인다.

  • PDF

멀티미디어 신호처리에 기초한 스마트홈 가상대화 시스템 (Virtual Dialog System Based on Multimedia Signal Processing for Smart Home Environments)

  • 김성일;오세진
    • 한국지능시스템학회논문지
    • /
    • 제15권2호
    • /
    • pp.173-178
    • /
    • 2005
  • 본 논문은 보다 편리한 가정 생활환경 구축을 목적으로 한 가상대화시스템 구현에 관한 연구이다. 이를 실현하기 위하여 본 논문은 음성인식, 음성합성, 비디오 신호 및 센서신호처리 등의 멀티미디어 신호처리에 그 기술적 기반을 두고 있다. 대화시스템의 중요한 모듈로서의 음성합성기, HM-Net(Hidden Markov Network)에 기반한 실시간 음성인식기, 픽셀의 밝기차를 이용한 실시간 움직임 검출 및 터치센서 등을 대화시스템에 통합함으로써 이루어진다. 실제 구동 실험에서 주위 노이즈 환경의 영향으로 시뮬레이션 결과보다는 성능이 떨어지나, 소파에 앉아있는 동안 자동되는 시스템의 실험 평가에서 가전제품 능의 컨트롤이 비교적 사용하기 쉬웠다는 결과를 얻었다.

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원 (Target Speaker Speech Restoration via Spectral bases Learning)

  • 박선호;유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.179-186
    • /
    • 2009
  • 본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

디지털 신호처리 프로세서의 성능에 대한 DRAM의 영향 분석 (Effects Analysis of DRAM for Digital Signal Processor Performance)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.177-183
    • /
    • 2018
  • 현재, 영상처리, 음성처리, 필터링, 등화 등의 분야에 디지털 신호처리 시스템이 광범위하게 쓰이고 있다. 더불어, 디지털 신호처리 시스템을 구성하는 디지털 신호처리 프로세서의 성능에 지대한 영향을 미치는 DRAM에 대한 연구가 산업계와 학계에서 활발하게 진행되고 있다. 따라서, 모의실험을 통하여 디지털 신호처리 프로세서의 성능에 대한 신뢰할만한 결과를 얻기 위하여, 보다 정확한 DRAM 모델을 갖추는 것이 중요하다. 본 논문에서는 싸이클 단위로 정확하게 동작하는 DRAM 시뮬레이터와 연동할 수 있는 디지털 신호처리 프로세서 모의실험기를 개발했다. 그리고 UTDSP 디지털 신호처리 벤치마크를 개발한 모의실험기에 대한 입력으로 하여, DRAM이 디지털 신호처리 프로세서의 성능에 끼치는 영향을 분석하였다.