• 제목/요약/키워드: Voice Detection

검색결과 283건 처리시간 0.022초

잡음 환경에서의 음성 검출 알고리즘 비교 연구 (A Comparative Study of Voice Activity Detection Algorithms in Adverse Environments)

  • 양경철;육동석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.45-48
    • /
    • 2006
  • As the speech recognition systems are used in many emerging applications, robust performance of speech recognition systems under extremely noisy conditions become more important. The voice activity detection (VAD) has been taken into account as one of the important factors for robust speech recognition. In this paper, we investigate conventional VAD algorithms and analyze the weak and the strong points of each algorithm.

  • PDF

엔트로피와 하모닉 검출을 이용한 잡음환경에 강인한 음성검출 (Robust Voice Activity Detection in Noisy Environment Using Entropy and Harmonics Detection)

  • 최갑근;김순협
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.169-174
    • /
    • 2010
  • 이 논문은 잡음환경에서 음성인식률 향상을 위한 끝점 검출 방법에 대해 소개한다. 제안된 방법은 엔트로피와 음성의 하모닉 검출을 이용해 음성 구간과 비음성 구간을 검출한다. 음성의 스펙트럴 에너지에 대한 엔트로피를 사용하여 끝점검출을 하게 되면 비교적 높은 SNR 환경(SNR 15dB)에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱값이 변화 하여 낮은 SNR환경(SNR 0dB)에서는 정확한 끝점 검출이 어렵다. 본 논문은 낮은 SNR 환경(0dB)에서도 정확한 끝점을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 검출하여 끝점을 검출하는 방법을 제안한다. 실험결과 기존의 엔트로피만을 이용한 방법보다 개선된 성능을 보였다.

Feedback Active Noise Control Based Voice Enhancing Ear-Protection System

  • Moon, Seong-Pil;Chang, Tae-Gyu
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권4호
    • /
    • pp.1627-1633
    • /
    • 2017
  • This paper proposes a voice enhancing ear-protection system which is based on feedback active noise control(FBANC). The proposed system selectively suppresses the background noise and preserves the talking voice by controlling the adaptive algorithm with the voice activity period detection module. The noise reduction performance of the proposed noise canceling algorithm is analytically derived for the two key performance affecting parameters, i.e., electro-acoustic coupling distance and noise bandwidth. The proposed system is also implemented with a floating-point DSP system and its performance is experimentally tested to compare with the analytically derived results. The achieved levels of noise reduction for the three different noise bandwidths cases, i.e., 10Hz, 50Hz, and 90Hz, are high to show 17.05dB, 10.54dB and 8.99dB, respectively. The feasibility of the proposed system is also shown by the peak noise reduction achieved more than 25dB while preserving the voice component in the frequency range between 200-800Hz.

Emergency Signal Detection based on Arm Gesture by Motion Vector Tracking in Face Area

  • Fayyaz, Rabia;Park, Dae Jun;Rhee, Eun Joo
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.22-28
    • /
    • 2019
  • This paper presents a method for detection of an emergency signal expressed by arm gestures based on motion segmentation and face area detection in the surveillance system. The important indicators of emergency can be arm gestures and voice. We define an emergency signal as the 'Help Me' arm gestures in a rectangle around the face. The 'Help Me' arm gestures are detected by tracking changes in the direction of the horizontal motion vectors of left and right arms. The experimental results show that the proposed method successfully detects 'Help Me' emergency signal for a single person and distinguishes it from other similar arm gestures such as hand waving for 'Bye' and stretching. The proposed method can be used effectively in situations where people can't speak, and there is a language or voice disability.

음성 검출 기반의 저연산 이득 제어 알고리즘 (A Gain Control Algorithm of Low Computational Complexity based on Voice Activity Detection)

  • 김상균;조우형;정민아;권장우;이상민
    • 한국통신학회논문지
    • /
    • 제40권5호
    • /
    • pp.924-930
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 적은 연산량으로 소형 음향기기의 음질 향상을 위한 새로운 저연산 이득 제어 알고리즘을 제안한다. 대표적인 소형 음향기기인 보청기의 이득 제어 알고리즘은 입력 신호를 잡음 제거 한 후 이 신호의 파워를 기준으로 광역동범위압축 (wide dynamic range compression, WDRC)을 하기 때문에 불필요한 신호까지 증폭된다. 제안된 이득 제어 알고리즘은 음성 검출기 (voice activity detection, VAD)의 결과를 이용하여 음성의 존재 유/무에 따라 적응적으로 이득을 제어한다. 성능 평가를 위해 제안된 알고리즘은 VAD를 적용하지 않은 알고리즘과 정상 및 비정상 잡음환경에서 다양한 조건을 부과하여 비교하였으며, 실험결과 제안된 알고리즘이 전체 성능 및 잡음 구간에서 향상된 결과를 보였다.

스마트폰 음성 녹음 파일 위변조 검출을 위한 스펙트로그램 분석의 한계점 (Limitations of Spectrogram Analysis for Smartphone Voice Recording File Forgery Detection)

  • 한상민;손영민;박재완
    • 문화기술의 융합
    • /
    • 제9권2호
    • /
    • pp.545-551
    • /
    • 2023
  • 오늘날 누구나 디지털 정보를 용이하게 활용할 수 있게 됨에 따라 디지털 증거의 채택이 증가되고 있다. 하지만 다양한 음성 파일 편집 도구를 보급과 함께 정교한 편집 과정을 거친 음성 녹음 파일의 경우 위변조 진위 여부를 판단하는 것은 사실상 불가능하다. 본 연구는 음성 녹음 파일에 삽입, 삭제, 연결 및 합성 편집 기술을 활용해 원본 파일과 구별하기 어려운 위변조가 가능함을 증명하고자 한다. 본 연구는 위변조 된 음성 파일을 원본과 동일한 확장자로 인코딩하는 작업을 통해 위변조 검출의 어려움을 제시한다. 또한 특징점이 발생한 실험에 한 하여 추가적으로 천이대역의 삭제 및 2차 인코딩 작업을 수행할 경우 위변조 검출은 불가능함을 나타냈다. 이를 통해 본 연구는 음성 녹음 파일을 디지털 증거로 채택하기 위한 더 엄격한 증거능력 판단 기준 수립에 공헌할 것으로 기대된다.

Harnessing the Power of Voice: A Deep Neural Network Model for Alzheimer's Disease Detection

  • Chan-Young Park;Minsoo Kim;YongSoo Shim;Nayoung Ryoo;Hyunjoo Choi;Ho Tae Jeong;Gihyun Yun;Hunboc Lee;Hyungryul Kim;SangYun Kim;Young Chul Youn
    • 대한치매학회지
    • /
    • 제23권1호
    • /
    • pp.1-10
    • /
    • 2024
  • Background and Purpose: Voice, reflecting cerebral functions, holds potential for analyzing and understanding brain function, especially in the context of cognitive impairment (CI) and Alzheimer's disease (AD). This study used voice data to distinguish between normal cognition and CI or Alzheimer's disease dementia (ADD). Methods: This study enrolled 3 groups of subjects: 1) 52 subjects with subjective cognitive decline; 2) 110 subjects with mild CI; and 3) 59 subjects with ADD. Voice features were extracted using Mel-frequency cepstral coefficients and Chroma. Results: A deep neural network (DNN) model showed promising performance, with an accuracy of roughly 81% in 10 trials in predicting ADD, which increased to an average value of about 82.0%±1.6% when evaluated against unseen test dataset. Conclusions: Although results did not demonstrate the level of accuracy necessary for a definitive clinical tool, they provided a compelling proof-of-concept for the potential use of voice data in cognitive status assessment. DNN algorithms using voice offer a promising approach to early detection of AD. They could improve the accuracy and accessibility of diagnosis, ultimately leading to better outcomes for patients.

켑스트럼 기반의 후두암 감별을 위한 채널보상 (Channel Compensation for Cepstrum-Based Detection of Laryngeal Diseases)

  • 김영국;김수미;김형순;왕수건;조철우;양병곤
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.111-122
    • /
    • 2004
  • Automatic detection of laryngeal diseases by voice is attractive because of its non-intrusive nature. Cepstrum based approach to detect laryngeal cancer shows reliable performance even when the periodicity of voice signals is severely lost, but it has a drawback that it is not robust to channel mismatch due to different microphone characteristics. In this paper, to deal with mismatched training and test microphone conditions, we investigate channel compensation techniques such as Cepstral Mean Subtraction (CMS) and Pole Filtered CMS (PFCMS). According to our experiments, PFCMS yields better performance than CMS. By using PFCMS, we obtained 12% and 40% error reduction over baseline and CMS, respectively.

  • PDF

음악검색을 위한 가변임계치 기반의 음성 질의 변환 기법 (A Threshold Adaptation based Voice Query Transcription Scheme for Music Retrieval)

  • 한병준;노승민;황인준
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.445-451
    • /
    • 2010
  • This paper presents a threshold adaptation based voice query transcription scheme for music information retrieval. The proposed scheme analyzes monophonic voice signal and generates its transcription for diverse music retrieval applications. For accurate transcription, we propose several advanced features including (i) Energetic Feature eXtractor (EFX) for onset, peak, and transient area detection; (ii) Modified Windowed Average Energy (MWAE) for defining multiple small but coherent windows with local threshold values as offset detector; and finally (iii) Circular Average Magnitude Difference Function (CAMDF) for accurate acquisition of fundamental frequency (F0) of each frame. In order to evaluate the performance of our proposed scheme, we implemented a prototype music transcription system called AMT2 (Automatic Music Transcriber version 2) and carried out various experiments. In the experiment, we used QBSH corpus [1], adapted in MIREX 2006 contest data set. Experimental result shows that our proposed scheme can improve the transcription performance.

버스형 데이터/음성 공용 LAN에서의 CSMA/CD-TDM/SD 적응제어방식 (CSMA/CD-TDM/SD Adaptive Control Scheme in Bus-type Integrated Date/Voice Local Atrea Networks)

  • 황병문;최흥문
    • 한국통신학회논문지
    • /
    • 제12권2호
    • /
    • pp.148-159
    • /
    • 1987
  • 버스形 데이터/音聲 共用 LAN에서 채널使用을 데이터와 音聲傳送區間으로 分離하고 데이터는 CSMA/CD로, 音聲은 TDM으로 傳送하되 音聲 止期間을 檢出하여 이를 감안한 실질 音聲負荷에 따라 데이터와 音聲傳送 區間을 適應制御할 수 있는 CSMA/CD-TDM/SD方式을 提案하였다. 시뮬레이션 결과 旣存의 方式들보다 데이터의 傳送性能 및 最大許容음성링크數의 改善을 볼 수 있었다.

  • PDF