• 제목/요약/키워드: Speaker Detection

검색결과 108건 처리시간 0.025초

실 환경에서의 인간로봇상호작용 컴포넌트의 성능평가 (Performance Evaluation of Human Robot Interaction Components in Real Environments)

  • 김도형;김혜진;배경숙;윤우한;반규대;박범철;윤호섭
    • 로봇학회논문지
    • /
    • 제3권3호
    • /
    • pp.165-175
    • /
    • 2008
  • For an advanced intelligent service, the need of HRI technology has recently been increasing and the technology has been also improved. However, HRI components have been evaluated under stable and controlled laboratory environments and there are no evaluation results of performance in real environments. Therefore, robot service providers and users have not been getting sufficient information on the level of current HRI technology. In this paper, we provide the evaluation results of the performance of the HRI components on the robot platforms providing actual services in pilot service sites. For the evaluation, we select face detection component, speaker gender classification component and sound localization component as representative HRI components closing to the commercialization. The goal of this paper is to provide valuable information and reference performance on appling the HRI components to real robot environments.

  • PDF

한국인을 위한 외국어 발음 교정 시스템의 개발 및 성능 평가 (Performance Evaluation of English Word Pronunciation Correction System)

  • 김무중;김효숙;김선주;김병기;하진영;권철홍
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.87-102
    • /
    • 2003
  • In this paper, we present an English pronunciation correction system for Korean speakers and show some of experimental results on it. The aim of the system is to detect mispronounced phonemes in spoken words and to give appropriate correction comments to users. There are several English pronunciation correction systems adopting speech recognition technology, however, most of them use conventional speech recognition engines. From this reason, they could not give phoneme based correction comments to users. In our system, we build two kinds of phoneme models: standard native speaker models and Korean's error models. We also design recognition network based on phonemes to detect Koreans' common mispronunciations. We get 90% detection rate in insertion/deletion/replacement of phonemes, but we cannot get high detection rate in diphthong split and accents.

  • PDF

한국인을 위한 영어 발음 교정 시스템에 대한 성능 평가 (Performance Evaluation of English word Pronunciation Correction system)

  • 김무중;김효숙;김병기
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.71-74
    • /
    • 2003
  • In this paper, we present some of experimental results developed in computer-based English Pronunciation Correction System for Korean speakers. The aim of the system is to detect incorrectly pronounced phonemes in spoken words and to give correction comment to users. Speech data were collected from 254 native speakers and 411 Koreans, then used for phoneme modeling and test. We built two types of acoustic phoneme models: native speaker model and Korean speaker model. We also built langugage models to reflect Koreans' commonly occurred mispronunications. The detection rate was over 90% in insertion/deletion/replacement of phonemes, but we got under 75% detection rate in diphthong split and accents.

  • PDF

퍼지 이론을 이용한 한국어 및 영어 화자 인식에 관한 연구 (A Study on Korean and English Speaker Recognitions using the Fuzzy Theory)

  • 김연숙;김희주;김경재
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.49-55
    • /
    • 2002
  • 본 논문에서는 피치 파라미터와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음의 시간적인 특징을 이용하여 시간 영역에서 분해력을 높이고 주파수 영역에서 잡음에 강인함을 갖는 국부 봉우리와 골에 의한 피치 검출법을 제안하여 피치를 검출한다. 또한 화자 인식에서 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

퍼지 이론을 이용한 한국어 및 일어 화자 인식에 관한 연구 (A Study on Korean and Japanese Speaker Recognitions using the Fuzzy Theory)

  • 김연숙;김창완
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.51-57
    • /
    • 2000
  • 본 논문에서는 피치와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음의 시간적인 특징을 이용하여 시간 영역에서 분해력을 높이고 주파수 영역에서 잡음에 강인함을 갖는 국부 봉우리와 골에 의한 피치 검출법을 제안하여 피치를 검출한다. 또한 화자 인식에서 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

Speaker Verification System with Hybrid Model Improved by Adapted Continuous Wavelet Transform

  • Kim, Hyoungsoo;Yang, Sung-il;Younghun Kwon;Kyungjoon Cha
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권3E호
    • /
    • pp.30-36
    • /
    • 1999
  • In this paper, we develop a hybrid speaker recognition system [1] enhanced by pre-recognizer and post-recognizer. The pre-recognizer consists of general speech recognition systems and the post-recognizer is a pitch detection system using adapted continuous wavelet transform (ACWT) to improve the performance of the hybrid speaker recognition system. Two schemes to design ACWT is considered. One is the scheme to search basis library covering the whole band of speech fundamental frequency (speech pitch). The other is the scheme to determine which one is the best basis. Information cost functional is used for the criterion for the latter. ACWT is robust enough to classify the pitch of speech very well, even though the speech signal is badly damaged by environmental noises.

  • PDF

국부 봉우리와 골에 의한 피치 검출과 퍼지를 이용한 화자 인식에 관한 연구 (A Study on Speaker Recognition using the Peak and valley pitch detection and the Fuzzy)

  • 김연숙;김희주;김경재
    • 한국정보통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.213-219
    • /
    • 2004
  • 본 논문에서는 국부 봉우리와 골에 의한 피치 파라미터와 퍼지를 포함한 화자 인식 알고리즘을 제안한다. 음성의 패턴 인식에서 인식 성능을 저하시키는 시간 변동과 주파수 변동에 대한 문제를 해결하여 피치를 검출한다. 비선형적인 발성 시간에 따른 시간 변동의 폭을 모두 포함하기 위하여 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속 함수를 이용하여 표준 패턴을 작성하고 퍼지 패턴 매칭을 이용하여 인식을 수행한다.

SNR 기반 가중 KL 거리를 활용한 화자 변화 검증에 관한 연구 (The Study on Speaker Change Verification Using SNR based weighted KL distance)

  • 조준범;이지은;이경록
    • 융합정보논문지
    • /
    • 제7권6호
    • /
    • pp.159-166
    • /
    • 2017
  • 본 논문에서는 방송 뉴스에서 화자 변화 검증 성능 향상을 위해서 입력소음음성 향상과 SNR(Signal to Noise Ratio)기반 가중 함수 $w_m$를 적용한 KL 거리 $D_s$를 실험하였다. GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리 D를 이용한 화자 변화 검증 시스템(실험 0)을 기본 시스템으로 한다. 실험 1은 실험 0의 입력소음음성 향상을 위해 MMSE Log-STSA(Minimum Mean Square Error Log-Spectral Amplitude Estimator)를 적용하였다. 실험 2는 실험 1의 기존 KL거리 D 대신에 $D_s$를 적용하였다. 실험 데이터베이스는 다양한 소음을 반영하기 위해 스포츠 뉴스와 실외 인터뷰를 중심으로 구축하였다. 실험은 화자 변화 정보의 누락을 막기 위해 MDR(Missed Detection Rate) 0%를 기준으로 하였다. 실험 0은 FAR(False Alarm Rate) 71.5%의 성능을 보였다. 실험 1은 FAR 67.3%로 실험0에 비해 4.2% 향상되었고, 실험 2는 FAR 60.7%로 10.8% 향상되었다.

짧은 음성을 대상으로 하는 화자 확인을 위한 심층 신경망 (Deep neural networks for speaker verification with short speech utterances)

  • 양일호;허희수;윤성현;유하진
    • 한국음향학회지
    • /
    • 제35권6호
    • /
    • pp.501-509
    • /
    • 2016
  • 본 논문에서는 짧은 테스트 발성에 대한 화자 확인 성능을 개선하는 방법을 제안한다. 테스트 발성의 길이가 짧을 경우 i-벡터/확률적 선형판별분석 기반 화자 확인 시스템의 성능이 하락한다. 제안한 방법은 짧은 발성으로부터 추출한 특징 벡터를 심층 신경망으로 변환하여 발성 길이에 따른 변이를 보상한다. 이 때, 학습시의 출력 레이블에 따라 세 종류의 심층 신경망 이용 방법을 제안한다. 각 신경망은 입력 받은 짧은 발성 특징에 대한 출력 결과와 원래의 긴 발성으로부터 추출한 특징과의 차이를 줄이도록 학습한다. NIST (National Institute of Standards Technology, 미국) 2008 SRE(Speaker Recognition Evaluation) 코퍼스의 short 2-10 s 조건 하에서 제안한 방법의 성능을 평가한다. 실험 결과 부류 내 분산 정규화 및 선형 판별 분석을 이용하는 기존 방법에 비해 최소 검출 비용이 감소하는 것을 확인하였다. 또한 짧은 발성 분산 정규화 기반 방법과도 성능을 비교하였다.