• 제목/요약/키워드: Speech signal processing

검색결과 331건 처리시간 0.024초

직교인자의 동적 특성을 이용한 화자인식 (Speaker Recognition Using Dynamic Time Variation fo Orthogonal Parameters)

  • 배철수
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.993-1000
    • /
    • 1992
  • 음성신호의 분석으로부터 유도되는 직교인자는 화자의 개인성을 많이 포함하고 있으므로, 최근 많은 연구자들이 이것을 이용한 통계적 처리방법으로 화자인식을 수행하여 좋은 화자인식율을 얻고 있다. 그러나 이러한 방법들은 아직 음성의 발성속도나 시간적 동특성으로 인해서 발생하는 문제점을 갖고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해서 음성분석의 한 방법인 Karhunen-Loeve 직교 변환에 의해서 추출한 직교인자를 화자인식에 이용하는 방법에 DTW법을 결합하는 두가지 기법을 제안하였다. 첫째는 직교인자를 특징벡터로 하여 DTW법을 적용하고, 둘째는 직교인자를 최적경로에 이용하는 기법이다. 이들 두 기법에 의한 화자인식 결과와 직교인자의 통계적 처리에 의한 종래의 화자인식방법의 결과를 비교하였다. 사용된 직교인자는 음성신호에서 선형예측계수와 부분자기상관계수를 각각 추출하여 위의 화자인식방법에 각각 적용하였다. 이를 실험한 결과, 선형예측계수로 부터 얻은 직교인자를 최적경로를 이용한 기법에 적용하는 경우 88.6%의 가장 높은 인식율을 얻었다.

  • PDF

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

전화망에서의 음성인식을 위한 전처리 연구 (Front-End Processing for Speech Recognition in the Telephone Network)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.57-63
    • /
    • 1997
  • 본 논문에서는 다양한 전화선 채널에서 수집된 한국통신(KT)의 데이터베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 특징벡터 및 전처리방법을 연구하였다. 먼저 잡음 및 주변 환경 변화에 강인한 갓으로 알려져 있는 특징벡터들을 이용한 인식 성능을 비교하고, 가중 켑스트랄 거리측정 방법을 이용하여 인식시스템의 성능 향상을 검증하였다. 실험 결과, KT의 인식 시스템에서 이용하는 LPC 켑스트럼의 경우에 비하여 PLP(Perceptual Linear Prediction)과 MFCC)Mel Frequency Cepstral Coefficient)등에 대하여 인식률이 향상되었다. 켑스트럼간의 거리측정에 있어서는 RPS(Root Power Sums)와 BPL(Band Pass Lifter)과 같은 가중 켑스트랄 거리측정 함수들이 인식성능 향상에 도움을 주었다. 스펙트럼 차감법(Spectral Subtraction)의 적용은 왜곡에 의한 효과가 커서 인식률이 저하되었지만, RASTA(RelAtive SpecTrAl) 처리방법, CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)의 적용시에는 인식 성능 향상을 보였다. 특히, CMS 방법은 간편하면서도 높은 인식 성능 향상을 보였다. 마지막으로, CMS의 실시간 구현을 위한 방법들의 인식 성능을 비교하고, 인식 성능 저하를 막기 위한 개선책을 제시하였다.

  • PDF

스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 (On-Line Audio Genre Classification using Spectrogram and Deep Neural Network)

  • 윤호원;신성현;장우진;박호종
    • 방송공학회논문지
    • /
    • 제21권6호
    • /
    • pp.977-985
    • /
    • 2016
  • 본 논문은 스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 방법을 제안한다. 제안한 방법은 온라인 동작을 위하여 1초 단위로 신호를 입력하여 speech, music, effect 중 하나의 장르로 분류하고, 동작의 범용성을 위하여 기존 오디오 분석에 널리 사용되는 MFCC 대신에 스펙트로그램 기반의 특성 벡터를 사용한다. 실제 TV 방송 신호를 사용하여 장르 분류 성능을 측정하였고, 제안 방법이 기존 방법보다 각 장르에 대하여 우수한 성능을 제공하는 것을 확인하였다. 특히 제안 방법은 기존 방법에서 나타나는 music과 effect 사이를 잘못 분류하는 문제점을 감소시킨다.

차량 항법용 음성인식 시스템의 구현 (Implementation of a Speech Recognition System for a Car Navigation System)

  • 이태한;양태영;박상택;이충용;윤대희;차일환
    • 전자공학회논문지S
    • /
    • 제36S권9호
    • /
    • pp.103-112
    • /
    • 1999
  • 본 논문에서는 차량 항법영 음성 인식을 위한 화자 독립 단독음 인식 시스템을 범용 DSP를 사용하여 구현하였으며, 잡음 처리 기술로 SNR 정규화와 RAS를 결합한 방법을 제안하여 인식 시스템의 성능을 개선시켰다. 인식 알고리즘으로서 반연속 HMM을 사용하였으며, TMS320C31을 이용하여 구현하였다. 실험에서 사용된 인식 단어는 차량 항법 시스템을 위한 명령어 69단어이며, 구현된 인식 시스템은 자동차 환경에서 녹음된 음성 데이터에 의한 인식 결과와 하드웨어 구현에 따르는 제약 조건을 동시에 고려하여 구현되었다. 주행 중에 녹음된 데이터에 대한 컴퓨터 시뮬레이션 상에서 특징 벡터 중 MFCC-CMS를 이용하고, 잡음 처리 방법으로 SNR 정규화와 스펙트럼 차감법을 결합하여 실험한 경우 최고 93.62%의 인식 성능을 보였으며, 89.93%의 인식률을 갖는 기존 방법보다 3.69%의 인식 성능 향상을 가져왔다. 제안된 잡음 처리 방법은 자동차 안에서의 SNR이 5dB이하에서 좋은 인식 성능을 보이는 것으로 나타났다.

  • PDF

잡음 환경에서 음성 인식을 위한 신호처리 (Signal Processing for Speech Recognition in Noisy Environment)

  • 김원구;임용훈;차일환;윤대희
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.73-84
    • /
    • 1992
  • 본 논문에서는 잡음 환경에서 음성 인식 시스템의 성능을 개선할 수 있는 잡음제거 방식과 거리 측정 방법을 연구하고 백색 및 유색 잡음 환경에서 거리 측정 방법에 따른 음성 인식 시스템의 성능을 평가하였다. 잡음 제거 방법으로는 음성 인식 시스템의 전처리 과정으로서 사용될 수 있는 스펙트럼 차감법, 자기 상관 차감법, 적응 잡음 제거, 적응 빔 형성기가 있으며 거리 측정 방법으로는 Log Likelihood Ration($d_{LLR}$), 켑스트럼에 의한 거리 측정 ($d_{CEP}$), 가중 켑스트럼 거리 측정 ($d_{WCEP}$), 스펙트럼 기울기에 의한 거리 측정 ($d_{RPS}$), 켑스트럼 투영 거리 측정방법 ($d_{CP},\;d_{BCP},\;d_{WCP},\;d_{BWCP}$)들이 있다. 백색 및 자동차 잡음 환경에서의 화자 종속 단독음 인식 실험 결과, 켑스트럼 계수의 높은 차수에 큰 가중을 두는 거리 측정 방법인 $d_{RPS},\;d_{WCEP}$가 잡음에 강한 특성을 나타내었으며, 잡음이 존재할 때는 pre-emphasis를 하지 않은 경우가 높은 인식율을 얻을 수 있었다.

  • PDF

Electromyographic evidence for a gestural-overlap analysis of vowel devoicing in Korean

  • Jun, Sun-A;Beckman, M.;Niimi, Seiji;Tiede, Mark
    • 음성과학
    • /
    • 제1권
    • /
    • pp.153-200
    • /
    • 1997
  • In languages such as Japanese, it is very common to observe that short peripheral vowel are completely voiceless when surrounded by voiceless consonants. This phenomenon has been known as Montreal French, Shanghai Chinese, Greek, and Korean. Traditionally this phenomenon has been described as a phonological rule that either categorically deletes the vowel or changes the [+voice] feature of the vowel to [-voice]. This analysis was supported by Sawashima (1971) and Hirose (1971)'s observation that there are two distinct EMG patterns for voiced and devoiced vowel in Japanese. Close examination of the phonetic evidence based on acoustic data, however, shows that these phonological characterizations are not tenable (Jun & Beckman 1993, 1994). In this paper, we examined the vowel devoicing phenomenon in Korean using data from ENG fiberscopic and acoustic recorders of 100 sentences produced by one Korean speaker. The results show that there is variability in the 'degree of devoicing' in both acoustic and EMG signals, and in the patterns of glottal closing and opening across different devoiced tokens. There seems to be no categorical difference between devoiced and voiced tokens, for either EMG activity events or glottal patterns. All of these observations support the notion that vowel devoicing in Korean can not be described as the result of the application of a phonological rule. Rather, devoicing seems to be a highly variable 'phonetic' process, a more or less subtle variation in the specification of such phonetic metrics as degree and timing of glottal opening, or of associated subglottal pressure or intra-oral airflow associated with concurrent tone and stricture specifications. Some of token-pair comparisons are amenable to an explanation in terms of gestural overlap and undershoot. However, the effect of gestural timing on vocal fold state seems to be a highly nonlinear function of the interaction among specifications for the relative timing of glottal adduction and abduction gestures, of the amplitudes of the overlapped gestures, of aerodynamic conditions created by concurrent oral tonal gestures, and so on. In summary, to understand devoicing, it will be necessary to examine its effect on phonetic representation of events in many parts of the vocal tracts, and at many stages of the speech chain between the motor intent and the acoustic signal that reaches the hearer's ear.

  • PDF

AMDF의 회전변환을 이용한 피치 주기 검출 알고리즘 (Pitch Period Detection Algorithm Using Rotation Transform of AMDF)

  • 서현수;배상범;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1019-1022
    • /
    • 2005
  • 최근 정보 통신 기술의 급속한 발전에 의해 음성 신호 처리에 관련된 많은 연구가 진행됨에 따라 피치 주기는 음성 인식, 화자 식별, 음성 분석 및 합성 등과 같은 많은 응용분야에서 중요한 요소로써 적용되고 있다. 이러한 피치 주기 검출에 관련된 시간 영역과 주파수 영역에서의 많은 알고리즘이 제안되었으며, 시간 영역의 피치 검출 알고리즘의 하나인 AMDF(average magnitude difference function)는 각 valley점의 거리를 피치 주기로 계산한다. 그러나 피치 주기 검출을 위한 valley점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 따라서 본 논문에서는 AMDF의 회전변환을 이용하여 전체 최소 valley점을 음성 신호의 피치 주기로 인식하는 간단한 알고리즘을 제안하였으며, 음성의 시작구간에 대해 경계값을 설정하여 피치 주기 선정에 대한 판단기준으로 사용하였다. 그리고 제안한 알고리즘을 시뮬레이션을 통해 기존의 방법들과 비교하였다.

  • PDF

스마트폰 기반의 실시간 모음 인식 마우스 구현 (Implementation of Real-time Vowel Recognition Mouse based on Smartphone)

  • 장태웅;김현용;김병만;정해
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.531-536
    • /
    • 2015
  • 음성인식은 HCI(Human Computer Interface)분야에서 가장 활발히 연구되고 있는 분야로 음성을 이용하여 디지털 디바이스를 제어하는 것을 목적으로 하고 있으며 마우스는 GUI 컴퓨터 환경에서 가장 널리 사용하는 장치로서 높은 보급률을 자랑하는 컴퓨터 주변기기 중의 하나이다. 본 논문은 스마트폰 환경에서 실시간 모음 음성 인식을 이용한 마우스 제어 방법에 관하여 제안한다. 구현 방법은 스마트폰에서 실시간으로 일정크기의 음성 신호를 입력 받아 핵심 음성 신호를 추출하고 MFCC(Mel Frequency Cepstral Coefficient)를 이용하여 특징을 추출하여 학습되어 있는 코드 북을 이용하여 양자화를 진행하고 HMM(Hidden Markov Model)을 이용하여 해당 모음 단어를 인식한다. 그리고 각 모음에 해당하는 마우스 명령어로 변환하여 화면상의 가상의 마우스를 제어한다. 최종적으로, 우리는 구현된 스마트폰의 앱을 가지고 데스크톱 PC의 화면상에서 다양한 마우스의 동작을 보여준다.

CMOS Floating 저항을 이용한 저역통과 필터의 설계 (Low Pass Filter Design using CMOS Floating Resister)

  • 이영훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권2호
    • /
    • pp.77-84
    • /
    • 1998
  • 요즈음 CMOS 기술의 발전에 의해서 연속시간 신호시스템이 매우 각광을 받고 있다. 따라서 이 논문에서는 음성신호 처리영역에서 동작하는 CMOS floating 저항을 이용한저역통과 필터를 설계하였다. 특히 이 논문에서는 포화영역에서 동작하는 all CMOS floating 저항을 설계하였으며, $\pm$1V 영역에서 $\pm$0.04%의 선형성이 얻어졌다. 주파수 응답은10MHz를 초과하였으며 능동 RC회로의 집적화에 매우 유용할것으로 생각한다. 이 방법에 의해 설계도니 저역통과필터는 SC 필터보다 그 구조가 간단하므로 IC의 형태로 만들 때 칩 면적을 많이 줄일 수 있다. 설계된 필터의 특성은 pspice에 의해 시뮬레이션 하였으며, 그 특성이 우수함이 입증되었다.

  • PDF