• 제목/요약/키워드: Voice signal feature

검색결과 50건 처리시간 0.034초

Recognition of Individual Cattle by His and /or Her Voice

  • Yoshio, Ikeda;Yohei, Ishii
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 1998년도 하계 학술대회 논문집
    • /
    • pp.270-275
    • /
    • 1998
  • It was assumed that the voice of cattle is generated with the virtual white noise through the digital filter called the linear prediction filter, and filter parameters (prediction coefficients) were estimated by the maximum entropy method (MEM) , using the sound signal of the animal . The feature planes were defined by the pairs of two parameters selected appropriately from these parameters. The cattle voices were divided into three levels, that is the high, medium and low levels according to their total power equivalent to the variances of the sound signal . It was found that the straight lines could be used for recognizing tow cow and one calf for high level voices. For high and medium level voices, however, it was difficult or impossible to recognize individual cattle on the parameters planes.

  • PDF

음악검색을 위한 가변임계치 기반의 음성 질의 변환 기법 (A Threshold Adaptation based Voice Query Transcription Scheme for Music Retrieval)

  • 한병준;노승민;황인준
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.445-451
    • /
    • 2010
  • This paper presents a threshold adaptation based voice query transcription scheme for music information retrieval. The proposed scheme analyzes monophonic voice signal and generates its transcription for diverse music retrieval applications. For accurate transcription, we propose several advanced features including (i) Energetic Feature eXtractor (EFX) for onset, peak, and transient area detection; (ii) Modified Windowed Average Energy (MWAE) for defining multiple small but coherent windows with local threshold values as offset detector; and finally (iii) Circular Average Magnitude Difference Function (CAMDF) for accurate acquisition of fundamental frequency (F0) of each frame. In order to evaluate the performance of our proposed scheme, we implemented a prototype music transcription system called AMT2 (Automatic Music Transcriber version 2) and carried out various experiments. In the experiment, we used QBSH corpus [1], adapted in MIREX 2006 contest data set. Experimental result shows that our proposed scheme can improve the transcription performance.

An Ultrasonic Wave Encoder and Decoder for Indoor Positioning of Mobile Marketing System

  • Kim, Young-Mo;Jang, Se-Young;Park, Byeong-Chan;Bang, Kyung-Sik;Kim, Seok-Yoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권7호
    • /
    • pp.93-100
    • /
    • 2019
  • In this paper, we propose an intelligent marketing service system that can provide custom advertisements and events to both businesses and customers by identifying the location and contents using the ultrasonic signals and feature information in voice signals. We also develop the encoding and decoding algorithm of ultrasonic signals for this system and analyze the performance evaluation results. With the development of the hyper-connected society, the on-line marketing has been activated and is growing in size. Existing store marketing applications have disadvantages that customers have to find out events or promotional materials that the headquarters or stores throughusing the corresponding applications whenever they visit them. To solve these problems, there are attempts to create intelligent marketing tools using GPS technology and voice recognition technology. However, this approach has difficulties in technology development due to accuracy of location and speed of comparison and retrieval of voice recognition technology, and marketing services for customer relation are also much simplified.

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

  • 오상엽
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.1-6
    • /
    • 2021
  • 음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.

음성의 주기성과 QSNR을 이용한 잡음환경에서의 음성검출 알고리즘 (Voice Activity Detection Algorithm Using Speech Periodicity and QSNR in Noisy Environment)

  • 정주현;송화전;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.59-62
    • /
    • 2005
  • Voice activity detection (VAD) is important in many areas of speech processing technology. Speech/nonspeech discrimination in noisy environments is a difficult task because the feature parameters used for the VAD are sensitive to the surrounding environments. Thus the VAD performance is severely degraded at low signal-to-noise ratios (SNRs). In this paper, a new VAD algorithm is proposed based on the degree of voicing and Quantile SNR (QSNR). These two feature parameters are more robust than other features such as energy and spectral entropy in noisy environments. The effectiveness of proposed algorithm is evaluated under the diverse noisy environments in the Aurora2 DB. According to out experiment, the proposed VAD outperforms the ETSI Advanced Frontend VAD.

  • PDF

TMS320F28335 DSP를 이용한 화자독립 음성인식기 구현 (Implementation of a Speaker-independent Speech Recognizer Using the TMS320F28335 DSP)

  • 정익주
    • 산업기술연구
    • /
    • 제29권A호
    • /
    • pp.95-100
    • /
    • 2009
  • In this paper, we implemented a speaker-independent speech recognizer using the TMS320F28335 DSP which is optimized for control applications. For this implementation, we used a small-sized commercial DSP module and developed a peripheral board including a codec, signal conditioning circuits and I/O interfaces. The speech signal digitized by the TLV320AIC23 codec is analyzed based on MFCC feature extraction methed and recognized using the continuous-density HMM. Thanks to the internal SRAM and flash memory on the TMS320F28335 DSP, we did not need any external memory devices. The internal flash memory contains ADPCM data for voice response as well as HMM data. Since the TMS320F28335 DSP is optimized for control applications, the recognizer may play a good role in the voice-activated control areas in aspect that it can integrate speech recognition capability and inherent control functions into the single DSP.

  • PDF

우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기 (Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector)

  • 조규행;강상기;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.397-402
    • /
    • 2007
  • 본 논문에서는 기존의 통계적 모델 기반의 음성 검출기의 성능 향상을 위해 이진 분류에 우수한 support vector machine(SVM)을 도입한다. 기존의 통계적 모델 기반 음성 검출기의 경우 음성의 존재와 부재에 대한 가설로부터 각각의 통계적 모델을 세워 입력 데이타에 의해 결정된 각 주파수 채널별 우도비(likelihood ratio)를 단순히 기하 평균을 취하여 문턱값과 비교, 음성 검출 여부를 판단한다. 제안된 음성 검출기는 기존의 기하 평균을 이용한 결정식을 대신하여 분류 오류 확률이 최소화되도록 각 주파수 채널별 우도비를 SVM의 특징 벡터로 적용한다. 제안된 SVM 기반의 통계적 모델 음성 검출기는 기존의 LRT를 이용한 음성 검출기 및 SVM 기반의 음성 검출기들과 비교하여 다양한 잡음 환경에서 우수한 성능을 나타낸다.

멀티 모달 감정인식 시스템 기반 상황인식 서비스 추론 기술 개발 (Development of Context Awareness and Service Reasoning Technique for Handicapped People)

  • 고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.34-39
    • /
    • 2009
  • 사람의 감정은 주관적인 인식 작용으로서 충동적인 성향을 띄고 있으며 무의식중의 사람의 욕구와 의도를 표현하고 있다. 이는 유비쿼터스 컴퓨팅 환경이나 지능형 로봇의 사용자가 처한 환경의 상황정보 중에서 사용자의 의도를 가장 많이 포함하고 있는 정보라고 할 수 있다. 이러한 사용자의 감정을 파악할 수 있는 지표는 사람의 얼굴 영상에서의 표정과 음성신호에서의 Spectrum 통계치 및 생체신호(근전위, 뇌파, 등)등 이다. 본 논문에서는 감정인식 활용의 편의와 효율성 향상을 주목적으로 하여 사용자의 얼굴 영상과 음성을 이용한 감정인식에 대하여 개별 결과물만을 산출하고 그 인식률을 검토한다. 또한 임의의 상황에서의 인식률 향상을 위하여 영상과 음성의 특징을 기반으로 최적의 특징 정보들을 구별해 내고, 각각의 개별 감정 특징에 대한 융합을 시도하는 특징 융합 기반의 Multi-Modal 감정인식 기법을 구현한다. 최종적으로 감정인식 결과를 이용하여 유비쿼터스 컴퓨팅 환경에서 발생 가능한 상황 설정 시나리오와 베이지만 네트워크를 통해 유비쿼터스 컴퓨팅 서비스의 확률 추론 가능성을 제시하고자 한다.

Noise Elimination Using Improved MFCC and Gaussian Noise Deviation Estimation

  • Sang-Yeob, Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.87-92
    • /
    • 2023
  • 음성 인식 시스템의 지속적인 발전으로 음성에 대한 인식율은 급속도로 발전되었지만 사용 환경에서의 잡음과 여러 음성이 혼합되어 발생하는 잡음으로 정확한 음성을 인식할 수 없는 단점을 가진다. 환경 잡음이 있는 음성을 처리할 때 음성 인식률을 높이기 위해서는 잡음을 제거해야 하며, 기존의 HMM, CHMM, GMM, 그리고 AI 모델이 적용된 DNN에서도 예상치 못한 잡음이 발생하거나 기본적으로 디지털 신호에 양자화 잡음이 추가되면 소스 신호가 변경되거나 손상되어 인식률이 저하된다. 이를 해결하기 위해 각 음성 프레임에 대한 음성 신호의 특징을 효율적으로 추출하기 위해 MFCC를 개선하여 처리하였으며, 음성 신호에 대한 잡음을 제거하기 위해 가우시안 모델을 적용한 잡음 편차 추정을 이용한 잡음 제거 방법을 개선하여 적용하였다. 제안된 모델에 대한 성능 평가는 음성에 대한 정확성 평가를 위해 교차 상관 계수를 사용하여 처리하였으며, 제안하는 방법의 인식률을 평가한 결과 이들에 대한 상관 계수에 대한 평균값 차이는 0.53 dB 개선된 것을 확인하였다.