• 제목/요약/키워드: Speech detection

검색결과 471건 처리시간 0.025초

텔레매틱스 시스템을 위한 반향제거 및 Barge-In 기능을 갖는 음성인터페이스 (Speech Interface with Echo Canceller and Barge- In Functionality for Telematic System)

  • 김준;배건성
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.483-490
    • /
    • 2009
  • 본 논문에서는 배경잡음과 반향이 존재하는 차량환경에서 음성인식 성능을 향상시키기 위해 상관계수를 이용한 동시통화 검출 알고리즘을 적용한 음향 반향제거기와 barge-in 기능을 갖는 음성 인터페이스를 구현하였다. 상관계수를 이용한 동시통화 검출 알고리즘은 임계치 설정 및 배경잡음의 영향 등으로 인해 검출 오류가 발생한다. 이를 보완하기 위해 동시통화 검출 조건으로 매 샘플마다 입력신호에서 추정한 배경잡음 및 반향신호의 평균 전력을 이용하여 동시통화 검출 오류를 줄였으며, 시변의 임계치를 적용한 후처리 단을 통해 시변의 잔여 잡음 성분을 제거하였다. 또한 안내음성 중에 음성입력이 가능하도록 barge-in 기능을 적용한 음성 인터페이스 시스템을 구현하였다. 제안한 음성 인터페이스 시스템은 동시통화 검출 오류와 이로 인해 발생되는 문제점을 효율적으로 해결할 수 있음을 실험을 통하여 확인하였다.

변형된 AMDF를 이용한 피치 주기 검출 알고리즘 (Pitch Period Detection Algorithm Using Modified AMDF)

  • 서현수;배상범;김남호
    • 한국정보통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.23-28
    • /
    • 2006
  • 피치 주기는 음성 인식, 화자 식별, 음성 분석 및 합성 등과 같은 음성 신호 처리 분야에 있어서 중요한 요소이며, 이러한 피치 주기 검출에 관련된 다양한 알고리즘이 지금까지 연구되고 있다. 피치 검출에 사용되는 알고리즘의 하나인 AMDF(average magnitude difference function)는 각 계곡점의 거리를 피치 주기로 계산한다. 이때, 피치 주기 검출을 위한 계곡점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 따라서 본 논문에서는 AMDF의 회전변환을 이용하여 전체 최소 계곡점을 음성 신호의 피치 주기로 검출하는 간단한 알고리즘을 제안하였으며, 시뮬레이션을 통해 기존의 방법들과 비교하였다.

숨은마코프모형을 이용하는 음성 끝점 검출을 위한 이산 특징벡터 (A Discrete Feature Vector for Endpoint Detection of Speech with Hidden Markov Model)

  • 이재기;오창혁
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.959-967
    • /
    • 2008
  • 본 연구의 목적은 숨은마코프모형을 사용하여 음성구간의 끝점을 검출하는 문제에서 소음의 환경에서도 강건하며 계산의 부하가 적은 이산형 특징벡터를 제안하고 이의 성질을 실증적으로 밝히는 것이다. 제시된 특징벡터는 일차원의 소리 신호의 에너지의 변화율을 나타내는 경사도이며 숨은마코프모형과 관련된 계산에서의 부하를 감소하기 위하여 세 개의 값으로 이산화하였다. 여러 소음 수준의 끝점 검출의 실험에서, 제시된 특징벡터가 잡음 환경에서도 강건함을 보였다.

묵음 검출 기능을 사용한 하이브리드 압신 델타 변조기 (Hybrid Commanding Delta Modulation with Silence Detection)

  • 조동호;은종관
    • 대한전자공학회논문지
    • /
    • 제19권6호
    • /
    • pp.84-90
    • /
    • 1982
  • 본 논물에서는 HCDM(hybrid companding delta modulation)을 사용하여 음성을 부호화할 때, 음성의 간헐성을 이용하여 전송속도를 줄이거나 잡음에 대한 신호비(SQNR)을 증가시키는 연구를 하였다. 음성부분과 묵음(silence)부분을 식별하는 판별기를 이용하여 음성의 묵음부분을 검출하며, 이때 음성부분에 대해서는 HCDM 부호화를 행한다. 음성을 5msec 간격으로 검사하여, 그때 검출되는 묵음부분에 대해서는 그 구간이 묵음이라는 정도만을 전송하며, 수신단에서는 이 정보를 이용하여 묵음부불을 재생한다. 그런데 HCDM 부호기는 2진 신호를 일정한 속도로 또 동기적으로 전송하기 때문에, 버퍼 (buffer)를 사용해야 하며 또한 그것을 효율적으로 제어해야 한다. 음성을 부호화할 때, 묵음검출 기능을 이용하는 HCDM 부호기를 사용하면, 재래의 HCDM 보다 잡음에 대한 신호비를 6dB 만큼 증가시킬 수 있거나, 전송속도를 1/3가량 줄일 수 있다.In this paper we exploit the use of the intermittent property of speech to reduce the transmission rate or to increase signal-to-quantization noise ratio (SQNR) in coding speech by hybrid companding data modulation (HCDM). In this scheme we detect silence in speech by a speech/silence discriminator. HCDM coding is done only for speech portion. For silence that is detected in evert block of 5 ms, only the information indicating that the Since the HCDM coder transmits bina교 signal synchronously at a fixed rate, the use of a buffer and its efficient control is essential. By using the HCDM with silence detection in coding speech, we could improve SONR by as much as 6 dB over the conventional HCDM or reduce the transmission rate by one third of the HCDM rate.

  • PDF

다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출 (Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks)

  • 장병용;권오욱
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.89-96
    • /
    • 2019
  • 본 논문에서는 방송 콘텐츠에서 음성 구간 검출을 효과적으로 할 수 있는 심층 학습 모델 구조를 제안한다. 또한 특징 벡터의 시간적 변화를 학습하기 위한 다중 스케일 시간 확장 합성곱 층을 제안한다. 본 논문에서 제안한 모델의 성능을 검증하기 위하여 여러 개의 비교 모델을 구현하고, 프레임 단위의 F-score, precision, recall을 계산하여 보여 준다. 제안 모델과 비교 모델은 모두 같은 학습 데이터로 학습되었으며, 모든 모델은 다양한 장르(드라마, 뉴스, 다큐멘터리 등)로 구성되어 있는 한국 방송데이터 32시간을 이용하여 모델을 학습되었다. 제안 모델은 한국 방송데이터에서 F-score 91.7%로 가장 좋은 성능을 보여주었다. 또한 영국과 스페인 방송 데이터에서도 F-score 87.9%와 92.6%로 가장 높은 성능을 보여주었다. 결과적으로 본 논문의 제안 모델은 특징 벡터의 시간적 변화를 학습하여 음성 구간 검출 성능 향상에 기여할 수 있었다.

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법 (Lip Reading Method Using CNN for Utterance Period Detection)

  • 김용기;임종관;김미혜
    • 디지털융복합연구
    • /
    • 제14권8호
    • /
    • pp.233-243
    • /
    • 2016
  • 소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영양정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Mode)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

MUSIC 스펙트럼을 이용한 잡음환경에서의 목표 신호 구간 검출 (Target signal detection using MUSIC spectrum in noise environments)

  • 박상준;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.103-110
    • /
    • 2012
  • In this paper, a target signal detection method using multiple signal classification (MUSIC) algorithm is proposed. The MUSIC algorithm is a subspace-based direction of arrival (DOA) estimation method. Using the inverse of the eigenvalue-weighted eigen spectra, the algorithm detects the DOAs of multiple sources. To apply the algorithm in target signal detection for GSC-based beamforming, we utilize its spectral response for the DOA of the target source in noisy conditions. The performance of the proposed target signal detection method is compared with those of the normalized cross-correlation (NCC), the fixed beamforming, and the power ratio method. Experimental results show that the proposed algorithm significantly outperforms the conventional ones in receiver operating characteristics (ROC) curves.

윈도우의 영향이 제거된 에너지 파라미터에 관한 연구 (A Study of Energy Parameter without Windowing Influence in Speech Signal)

  • 조태수;신동성;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.277-280
    • /
    • 2001
  • The preprocessing is very important course in speech signal processing. It influence the compression-rate in speech coding and the recognition-rate in speech recognition etc. In this paper, we propose that minimizing window-influence method with pitch period and start points. The proposed method is available for voiced detection and word labeling.

  • PDF

감정 인지를 위한 음성 및 텍스트 데이터 퓨전: 다중 모달 딥 러닝 접근법 (Speech and Textual Data Fusion for Emotion Detection: A Multimodal Deep Learning Approach)

  • 에드워드 카야디;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.526-527
    • /
    • 2023
  • Speech emotion recognition(SER) is one of the interesting topics in the machine learning field. By developing multi-modal speech emotion recognition system, we can get numerous benefits. This paper explain about fusing BERT as the text recognizer and CNN as the speech recognizer to built a multi-modal SER system.

음성인식을 위한 혼돈시스템 특성기반의 종단탐색 기법 (A New Endpoint Detection Method Based on Chaotic System Features for Digital Isolated Word Recognition System)

  • 장한;정길도
    • 전자공학회논문지SC
    • /
    • 제46권5호
    • /
    • pp.8-14
    • /
    • 2009
  • 음성 인식 연구에서 잡음이 있는 상태에서 음성 발음상의 시작점과 종단점을 찾는 것은 매우 중요하다. 기존 음성인식 시스템의 오차는 대부분 참고템플릿의 시작점과 종단점을 왜란이나 잡음으로 인해 자동적으로 찾지 못했을 경우 발생한다. 따라서 음성 신호상에서 필요 없는 부분을 제거할 수 있는 방법이 필요하다. 기존의 음성 종단점을 찾는 방법으로는 시간도메인 측정방법, 미세시간 에너지 분석, 영교차율 방법이 있다. 위의 방법들은 저주파 신호 노이즈의 영향에 정밀성을 보장을 못한다. 따라서 본 논문에서는 시간영역상에서 리야프노프 지수를 이용한 종단점 인식 알고리즘을 제안하였다. 기존의 방법들과의 비교를 통해 제안한 방법의 성능 우수성을 보였으며, 시뮬레이션 및 실험을 통해 잡음환경에서도 음성종단 인식이 가능함을 보였다.