• 제목/요약/키워드: 음성 분포

검색결과 410건 처리시간 0.037초

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.

일반화된 정규-라플라스 분포를 이용한 음성검출기 (Voice Activity Detection employing the Generalized Normal-Laplace Distribution)

  • 김상균;권장우;이상민
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.294-299
    • /
    • 2014
  • 본 논문에서는 일반화된 정규-라플라스(generalized normal-Laplace) 분포 기반의 음성 검출기(voice activity detection) 알고리즘을 제안한다. 제안된 알고리즘은, 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 정규-라플라스 분포로 표현한 다음, 일반화된 정규-라플라스 분포의 음성과 잡음의 분산을 고차 모멘트(higher order moments)를 이용하여 추정한다. 제안된 알고리즘은 다양한 조건의 잡음 환경에서 기존의 음성 검출기들과 비교하였으며 향상된 성능을 보였다.

자동차 잡음환경에서의 음성인식에 적용된 두 종류의 일반화된 감마분포 기반의 음성추정 알고리즘 비교 (Comparison of Two Speech Estimation Algorithms Based on Generalized-Gamma Distribution Applied to Speech Recognition in Car Noisy Environment)

  • 김형국;이진호
    • 한국ITS학회 논문지
    • /
    • 제8권4호
    • /
    • pp.28-32
    • /
    • 2009
  • 본 논문은 DFT기반의 단일마이크 음성향상 방식에 적용된 두 종류의 generalized-Gamma 분포기반의 음성추정 알고리즘을 비교한다. 음성향상 방식으로서는 최소잡음성분에 의한 회귀적인 평균스펙트럼 값으로부터 유도되는 잡음 추정을 각각 $\kappa$=1인 경우와 $\kappa$=2인 경우의 Gamma 분포를 이용한 음성추정 기법에 결합하여 음질을 향상시켰다. 각 방식에 의해 향상된 음성신호를 자동차 환경에서의 음성인식에 적용하여 그 성능을 비교하였다.

  • PDF

음성파형의 진폭분포를 이용한 음소의 정상상태 구간 검출 (On Detecting the Steady State Segments of Phonemes by Using the Magnitude Distribution of Speech Waveforms)

  • 정덕조;배명진;안수길
    • 한국음향학회지
    • /
    • 제10권6호
    • /
    • pp.5-11
    • /
    • 1991
  • 연속음 인식을 위하여 연결된 음향 신호를 음소단위로 분할하는 것이 필요하다. 본 논문에서는 연속 음성에서의 정상상태 구간 검출을 위한 파라미터로서 진폭분포를 이용하는 방법을 제안하였다. 제 안된 진폭분포는 음성신호의 변화특성을 정확히 나타내며 이러한 프레임사이의 진폭분포를 이용하는 방 법을 제안하였다. 제안된 지폭분포는 음성 신호의 변화특성을 정확히 나타내며 이러한 프레임사이의 진 폭 분포 차이값을 비교하여 프레임의 안정구간과 천이구간을 구분할 수 있었다.

  • PDF

잡음에 강인한 음성인식을 위한 Generalized Gamma 분포기반과 Spectral Gain Floor를 결합한 음성향상기법 (Speech Estimators Based on Generalized Gamma Distribution and Spectral Gain Floor Applied to an Automatic Speech Recognition)

  • 김형국;신동;이진호
    • 한국ITS학회 논문지
    • /
    • 제8권3호
    • /
    • pp.64-70
    • /
    • 2009
  • 본 논문은 잡음에 강인한 음성인식 성능을 획득하기 위해 generalized Gamma 분포기반의 음성향상 기법을 제안한다. 우수한 음성향상을 위해서 제안된 방식에서는 generalized Gamma분포와 spectral gain floor를 이용한 음성추적 기법에 스펙트럼 최소잡음성분에 의한 희귀적인 평균 스펙트럼 값으로부터 유도되는 잡음추정을 결합하여 음질을 향상시켜 음성인식에 적용하였다. Spectral component, spectral amplitude 그리고 log spectral amplitude에 기반하여 제안된 음성향상 기법을 잡음환경에서의 음성인식에 적용하여 그 성능을 측정하였다.

  • PDF

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상 (Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.313-318
    • /
    • 2015
  • 전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

가우시안 분포에서 Maximum Log Likelihood를 이용한 벡터 양자화 기반 음성 인식 성능 향상 (Vector Quantization based Speech Recognition Performance Improvement using Maximum Log Likelihood in Gaussian Distribution)

  • 정경용;오상엽
    • 디지털융복합연구
    • /
    • 제16권11호
    • /
    • pp.335-340
    • /
    • 2018
  • 정확한 인식률을 보이고 있는 상업적인 음성인식 시스템은 화자종속 고립데이터로부터 학습 모델을 사용한다. 그러나 잡음 환경에서 데이터양에 따라 음성인식의 성능이 저하되는 문제점이 있다. 본 논문에서는 가우시안 분포에서 Maximum Log Likelihood를 이용한 벡터 양자화 기반 음성 인식 성능 향상을 제안한다. 제안하는 방법은 음성에 대한 특징을 가지고 벡터 양자화와 Maximum Log Likelihood 음성 특징 추출 방법을 이용하여 유사 음성에 대한 음성 인식의 정확성을 높이는 최적 학습 모델 구성 방법이다. 이를 위해 HMM을 기반으로 음성 특징을 추출하는 방법을 사용한다. 제안하는 방법을 사용하여 기존 시스템에서 생성되어 사용되는 음성 모델에 대한 부정확한 음성 모델에 대한 정확성을 향상시킬 수 있으므로 음성 인식에 강인한 모델을 구성할 수 있다. 제안하는 방법은 음성 인식 시스템에서 향상된 인식의 정확도를 보인다.

자동차 전면부와 음성 어시스턴트의 스타일 관계 분석 (Investigating the Relationship Between Vehicle Front Images and Voice Assistants)

  • 박민정;민소영;김태수;석현정
    • 감성과학
    • /
    • 제25권4호
    • /
    • pp.129-138
    • /
    • 2022
  • 음성 어시스턴트가 차량에 탑재되기 시작하면서, 차량의 조형적 특징과 음성 어시스턴트간의 연관성이 중요해지고 있다. 본 연구는 자동차에 적용된 음성 어시스턴트와 외관의 조화스러움에 대하여 공통된 감성적 특징을 기반으로 살펴보고자 하였다. 12가지 차량 이미지와 6가지의 음성 어시스턴트에 대해 15종의 형용사를 바탕으로 감성 평가를 실시하였다. 실험은 온라인 개별 인터뷰로 진행되었으며, 총 24명의 대학생이 참여하였다. 참여자들은 각 자극물을 대표하는 감성 형용사 3종을 1, 2, 3위로 평가하고, 선정 이유에 대한 간단한 인터뷰를 진행하였다. 설문 결과에 대해 주성분분석을 수행하여 2개의 주요 요인을 추출한 뒤, 각 요인을 축으로 하여 자극물을 분포시켰다. 분포도를 바탕으로 감성적 특징을 도출하고자 계층적 군집 분석을 수행하였다. 주성분 분석 결과 자동차 이미지와 음성 어시스턴트를 설명하는 감성적 차원으로 "편안한-급진적인"과 "가벼운-무거운"이 추출되었다. 두 차원을 바탕으로 자극물들을 분포시킨 결과, 자동차와 음성 어시스턴트가 동일한 축을 바탕으로 다양하게 분포해 두 요인이 자극물간 감성적 특징을 도출하기에 적합하다고 판단되었다. 자극물들의 분포도를 바탕으로 계층적 군집분석을 수행하여 17개의 자극물을 4가지 군집으로 추렸다. 각 군집은 도전적인, 우아한, 위엄있는, 활기찬 그룹으로 도출되었다. 본 연구에서는 차량의 조형적 특징과 음성 어시스턴트의 감성적 이미지를 동시에 설명할 수 있는 두 축을 도출하였다. 도출된 축을 바탕으로 그려진 분포도에 군집 분석을 수행해 감성적 특징을 분류하였으며, 총 4개의 감성적 특징이 도출되었다. 본 연구는 자동차의 조형적 특징에 맞춘 음성 어시스턴트 제안을 위한 디자인 품평 가이드로 활용되어, 추후 출시되는 차량에서 사용자들의 자동차 음성 어시스턴트 감성 경험이 증진될 것으로 기대한다.

연속분포 HMM에서 평행분기 음성단위를 사용한 단어인식율 향상연구 (On the Use of a Parallel-Branch Subunit Mod디 in Continuous HMM for improved Word Recognition)

  • 박용규;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권2E호
    • /
    • pp.25-32
    • /
    • 1995
  • 단어인식의 성능향상을 위하여 평행분기 음성단위(subunit) 모델의 사용을 제안하였으며 연속 분포 HMM에서 이 모델은 각 음성단위를 확률분포함수 (mixture components)를 이용하여 분기시킴에 의해 얻어진다. 제안된 방법을 사용한 결과에 따르면 기존에 제안된 평행분기 [1] 음성단위 모델이나 단일분기 모델보다 높은 인식률을 얻을 수 있었다. 본 연구에서는 각 음성단위에 대해 활률분포함수나 분기수의 적절한 결합을 통해 높은 인식률을 얻는데 이 1036 한국어 결리단어가 인시실험에 사용되었다.

  • PDF

시간동기형 Viterbi 알고리즘과 HMM에 기반한 음성의 자동 세그멘테이션 (Auto-Segmentation of Unsegmented Speech based on HMM and Time-Synchronous Viterbi Algorithm)

  • 오세진;황철준;김범국;정호열;정현열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.592-594
    • /
    • 2001
  • 본 연구에서는 음성인식에 있어서 음향모델의 고정도화를 위해 통계적 방법인 HMM과 시간동기형 Viterbi 알고리즘을 기반으로 한 세그멘트되지 않은 음성의 자동 세그멘테이션에 관한 연구를 수행하였다. 본 연구에서는 소량의 세그멘트된 음성에 대해 연속분포형 HMM 기본모델을 작성한 후 이를 표준패턴으로 사용하고, 세그멘트되지 않은 입력음성의 특징 피라미터에 대해 시간동기형 Viterbi 알고리즘의 프레임마다 최대가 되는 지점을 최적경계로 설정하고, 앞에서 구현 최적 경계 정보와 언어학적 지식인 발음사전 정보를 이용하여 음성을 세그멘테이션 하는 것이다. 본 연구와의 비교를 위해 HTK를 이용하여 위와 동일한 과정을 수행하였다. 이렇게 구한 음성의 세그멘테이션 정보를 이용하여 연속분포형 HMM 기본모델과 HTK의 CHMM 기본모델을 각각 작성한 후, 국어공학센터(KLE) 단어 데이터에 대해 단어인식 성능을 평가하였다. 실험결과, KLE 452 남성과 여성에 대해, 본 연구실 인식 시스템은 화자독립 단어인식률 89.4%, 85.1%, HTK의 화자독립 단어인식률 85.1%, 81.9%를 각각 얻었다.

  • PDF