• 제목/요약/키워드: Voice Detection

검색결과 283건 처리시간 0.024초

Impact of Voice Activity Detection on Channel Allocation in Cellular Networks

  • Limsaksri, Wichan;Thipchaksurat, Sakchai;Varakulsiripunth, Ruttikorn
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1067-1071
    • /
    • 2004
  • In this paper, the performance enhancement algorithm of channel allocation for voice and data transmission in cellular networks is proposed. The voice activity detection has been applied to dynamic channel allocation procedure to detect and separate the silence and speech among conversation periods. Hence a data user can use the silent period of an active voice channel to transmit its information. To control the selecting of channel allocation policies, the information of number of data in transmission waiting queue has been determined in order to accept the performance measurement. In the simulation results, the improvement of the performance shows via the quality of services, which are an average delay in queue, a blocking probability, and an impact of the proposed scheme is presented in the system.

  • PDF

음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 (Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.169-174
    • /
    • 2013
  • 음성 인식 성능 저하의 문제는 모델 훈련 환경과 인식 환경의 차이이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음 특징 정규화 방법을 사용하고 있다. 기존의 묵음 특징 정규화 방법은 낮은 신호 대 잡음비에서 묵음 구간의 에너지 레벨이 증가하여 음성과 비음성에 대한 분류의 정확도가 떨어짐으로 인해 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출 방법을 제안하였다. 제안한 방법은 높은 신호 대 잡음비에서는 음성 에너지를 최대화시켜 특징이 잡음의 영향을 적게 받는 특성을 이용하였고 낮은 신호 대 잡음비에서는 음성/비음성의 켑스트럼 특징 분포 특성을 이용하여 인식 성능을 향상시켰다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었다.

데이터 증강기법을 이용한 음성 위조 공격 탐지모형의 성능 향상에 대한 연구 (Data augmentation in voice spoofing problem)

  • 최효정;곽일엽
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.449-460
    • /
    • 2021
  • 본 논문에서는 음성위조공격탐지(Voice spoofing detection) 문제에 데이터 증강을 적용한다. ASVspoof 2017은 리플레이 공격 탐지에 대해 다루며 진짜 사람의 음성과 환경이나 녹음·재생 장치의 조건들을 다르게 하여 위조한 가짜 음성을 분류하는 것을 목적으로 한다. 지금까지 이미지 데이터에 대한 데이터 증강 연구가 활발히 이루어졌으며 음성에도 데이터 증강을 시도하는 여러 연구가 진행되어왔다. 하지만 음성 리플레이 공격에 대한 데이터 증강시도는 이루어지지 않아 본 논문에서는 데이터 증강기법을 통한 오디오 변형이 리플레이 공격 탐지에 어떠한 영향을 미치는지에 대해 탐구해본다. 총 7가지의 데이터 증강기법을 적용해보았으며 그 중 DVC, Pitch 음성 증강기법이 성능향상에 도움되었다. DVC와 Pitch는 기본 모델 EER의 약 8% 개선을 보여주었으며, 특히 DVC는 57개의 환경변수 중 일부 환경에서 눈에 띄는 정확도 향상이 있었다. 가장 큰 폭으로 증가한 RC53의 경우 DVC가 기본 모델 정확도의 약 45% 향상을 이끌어내며 기존에 탐지하기 어려웠던 고사양의 녹음·재생 장치를 잘 구분해냈다. 본 연구를 토대로 기존에 증강기법의 효과에 대한 연구가 이루어지지 않았던 음성 위조 탐지 문제에서 DVC, Pitch 데이터 증강기법이 성능 향상에 도움이 된다는 것을 알아내었다.

조건 사후 최대 확률과 음성 스펙트럼 변이 조건을 이용한 통계적 모델 기반의 음성 검출기 (A Statistical Model-Based Voice Activity Detection Employing the Conditional MAP Criterion with Spectral Deviation)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.324-329
    • /
    • 2011
  • 본 논문에서는 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP)과 음성 스펙트럼 변이 조건을 기반으로 한 새로운 음성 검출기 (voice activity detection, VAD)를 제안한다. 제안된 음성 검출기는 통계적 모델을 기반으로 한 우도비 테스트 (likelihood ratio test, LRT)의 문턱값을 결정하는데 조건 사후 최대 확률과 스펙트럼 변이의 상태 값을 조건부 확률로 부과한다. 제안된 알고리즘을 다양한 잡음 환경에서 기존의 CMAP 기반의 음성 검출기와 비교한 결과 전체적으로 향상된 성능을 보였으며 특히 SNR이 낮은 조건에서 향상 폭이 컸다.

비음수 행렬 인수분해 기반의 음성검출 알고리즘 (Voice Activity Detection Based on Non-negative Matrix Factorization)

  • 강상익;장준혁
    • 한국통신학회논문지
    • /
    • 제35권8C호
    • /
    • pp.661-666
    • /
    • 2010
  • 본 논문에서는 비음수 행렬 인수분해 기법을 기반으로 한 새로운 음성 검출 (Voice Activity Detection, VAD) 알고리즘을 제안한다. 먼저, 기존의 통계모델기반의 음성검출기를 분석하고, 이를 기반으로 비음수 행렬 인수분해를 통해 도출한 입력 기초 벡터와 잡음 기초 벡터 차이로 음성의 유무를 판단한다. 이때 최적의 문턱값을 찾기 위해 통계모델 기반의 음성검출기에 의해 추정된 잡음 구간에서 NMF 결과의 분포에 따라 최적화된 문턱값을 비음수 행렬기반의 음성 검출 알고리즘에 적용하는 방법을 제안한다. 실험 결과 기존의 통계적 모델 기반의 음성검출기에 비해 6.75%의 성능향상을 가져왔다.

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기 (Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.76-81
    • /
    • 2010
  • 본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기 (voice activity detection, VAD)의 성능 향상을 위해 2차 조건 사후 최대 확률 (second-order conditional maximum a posteriori, second-order CMAP)기법을 적용한 우도비 테스트 (likelihood ratio test, LRT)를 제안한다. 제안된 알고리즘은, 기존의 통계적 모델에 기반한 음성 검출기와 CMAP 기반의 음성 검출기를 분석한 다음, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률에 따라 실시간으로 적응형 문턱값을 구하여 기하 평균한 우도비와 비교하는 음성검출 결정법 (decision rule)을 제시한다. 제안된 알고리즘을 비정상 (non-stationary) 잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.

패킷 음성/데이터 집적 단말기의 개발 (Development of an Integrated Packet Voice/Data Terminal)

  • 전홍범;은종관;조동호
    • 한국통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.171-181
    • /
    • 1988
  • 본 논문에서는 packet-switched network에서 음성을 서비스하는데 있어서 고려해야 할 여러가지 점들을 살펴보고, 실제로 음성과 데이터를 동시에 서비스하는 packet voice/data terminal을 구현하였으며 그 성능 분석을 시도하였다. PVDT의 software는 OSI 7 layer architecture에 맞추어 설계하였으며 음성과 데이터를 link level부터 구별하여 서비스하였다. 또한 음성 packet의 전송 delay를 작게 하기 위해 데이터보다 음성을 우선적으로 서비스하도록 하였으며 간략화된 protocol로 재전송에 의한 overhead를 없앴다. PVDT의 hardware의 구성은 기능별로 master control module, speech processing module, speech activity detection module, telelphone interface module, input/output inteface module로 나누어진다. Packet음성통신망에 대한 해석으로는 음성 packet의 전송 delay의 variance에 의한 영향을 줄이기 위한 최적 재생지연시간을 전송 delay의 분포를 통해 계산하였다.

  • PDF

Applying the Bi-level HMM for Robust Voice-activity Detection

  • Hwang, Yongwon;Jeong, Mun-Ho;Oh, Sang-Rok;Kim, Il-Hwan
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권1호
    • /
    • pp.373-377
    • /
    • 2017
  • This paper presents a voice-activity detection (VAD) method for sound sequences with various SNRs. For real-time VAD applications, it is inadequate to employ a post-processing for the removal of burst clippings from the VAD output decision. To tackle this problem, building on the bi-level hidden Markov model, for which a state layer is inserted into a typical hidden Markov model (HMM), we formulated a robust method for VAD not requiring any additional post-processing. In the method, a forward-inference-ratio test was devised to detect the speech endpoints and Mel-frequency cepstral coefficients (MFCC) were used as the features. Our experiment results show that, regarding different SNRs, the performance of the proposed approach is more outstanding than those of the conventional methods.

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

실시간 음성인식 다이얼링 시스템 개발 (Development of a Real-time Voice Recognition Dialing System;)

  • 이세웅;최승호;이미숙;김흥국;오광철;김기철;이황수
    • 정보와 통신
    • /
    • 제10권10호
    • /
    • pp.22-29
    • /
    • 1993
  • This paper describes development of a real-time voice recognition dialing system which can recognize around one hundred word vocabularies in speaker independent mode. The voice recognition algorithm is implemented on a DSP board with a telephone interface plugged in an IBM PC AT/486. In the DSP board, procedures for feature extraction, vector quantization(VQ), and end-point detection are performed simultaneously in every 10msec frame interval to satisfy real-time constraints after the word starting point detection. In addition, we optimize the VQ codebook size and the end-point detection procedure to reduce recognition time and memory requirement. The demonstration system is being displayed in MOBILAB of Korea Mobile Telecom at the Taejon EXPO '93.

  • PDF