• 제목/요약/키워드: Frame-based likelihood

검색결과 27건 처리시간 0.023초

SNR을 이용한 프레임별 유사도 가중방법을 적용한 문맥종속 화자인식에 관한 연구 (A Study on the Context-dependent Speaker Recognition Adopting the Method of Weighting the Frame-based Likelihood Using SNR)

  • 최홍섭
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.113-123
    • /
    • 2007
  • The environmental differences between training and testing mode are generally considered to be the critical factor for the performance degradation in speaker recognition systems. Especially, general speaker recognition systems try to get as clean speech as possible to train the speaker model, but it's not true in real testing phase due to environmental and channel noise. So in this paper, the new method of weighting the frame-based likelihood according to frame SNR is proposed in order to cope with that problem. That is to make use of the deep correlation between speech SNR and speaker discrimination rate. To verify the usefulness of this proposed method, it is applied to the context dependent speaker identification system. And the experimental results with the cellular phone speech DB which is designed by ETRI for Koran speaker recognition show that the proposed method is effective and increase the identification accuracy by 11% at maximum.

  • PDF

GMM 기반 실시간 문맥독립화자식별시스템의 성능향상을 위한 프레임선택 및 가중치를 이용한 Hybrid 방법 (Hybrid Method using Frame Selection and Weighting Model Rank to improve Performance of Real-time Text-Independent Speaker Recognition System based on GMM)

  • 김민정;석수영;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.512-522
    • /
    • 2002
  • 본 논문에서는 GMM(Gaussian Mixture Model)에 기반한 실시간문맥독립화자식별시스템[1][2]의 성능향상을 위하여 프레임선택(Frame Selection)방법과 프레임가중치(Weighting Model Rank)방법을 혼합한 hybrid방법을 제안한다. 본 시스템에서는 GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법과 인식 알고리즘으로 ML(Maximum Likelihood)을 기본적으로 사용하였다. 제안한 hybrid 방법은 두 단계로 이루어진다. 첫째, 화자모델과 테스트 데이터를 이용하여 프레임단위로 유사도를 계산하고, 가장 큰 유사도 값과 두 번째로 큰 유사도 값의 차를 계산한 후, 차가 문턱치보다 큰 프레임만을 선택한다 두 번째로, 선택되어진 프레임에서 계산되어진 유사도 값 대신에 가중치 값을 사용하여 전체 스코어를 계산한다. 특징 파라미터로서는 켑스트럼과 회귀계수를 사용하였으며, 학습과 테스트를 위한 데이터베이스는 채집기간이 다른 여러 데이터베이스들로 구성되어 있으며, 실험을 위한 데이터는 임의의 단어를 선택하여 사용하였다. 화자인식실험은 기본 시스템에 프레임선택방법, 프레임가중치방법, 제안한 Hybrid방법을 각각 적용하여 실험하였다. 실험결과, 프레임선택방법에 비해 평균 4%, 프레임가중치방법에 비해 평균 1%의 인식률 향상을 보여, 본 논문에서 적용한 hybrid방법의 유효성을 확인하였다.

  • PDF

궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기 (Voice Activity Detection Based on Discriminative Weight Training with Feedback)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.443-449
    • /
    • 2008
  • 이동통신에서 배경잡음이 존재하는 실제 환경에서 음성신호처리의 가장 중요한 이슈중의 하나는 강인한 음성검출기를 설계하는 것이다. 상대적으로 간단하면서도 성능이 우수하여 대표적인 음성검출기로 사용되는 통계적모델기반 기법은 각 주파수 채널별 우도비를 이용하여 음성검출 검출식을 만들어내는 방식이다. 최근, 변별적 가중치 학습 (discriminative weight training)을 이용하여 주파수 체널별 가중치가 인가된 우도비를 이용한 음성검출 결정식을 갖는 음성검출기가 제안 되었으며 상대적으로 우수한 성능을 보였다. 본 연구에서는 기존의 변별적 가중치 학습의 입력벡터에 이전프레임의 결정식을 궤환구조형태를 바탕으로 추가하는 새로운 방식을 제안한다. 제안된 기법은 비정상 (non-staionary) 잡음 환경에서 객관적인 방법을 통해 상호비교 분석되었으며 결론적으로 우수한 성능을 보였다.

다중 안테나를 사용한 직교 부호 도약 다중화 시스템에서 로그 우도비 기반 성능 분석 (Performance Analysis Based On Log-Likelihood Ratio in Orthogonal Code Hopping Multiplexing Systems Using Multiple Antennas)

  • 정방철;성길영;신원용
    • 한국정보통신학회논문지
    • /
    • 제15권12호
    • /
    • pp.2534-2542
    • /
    • 2011
  • 본 논문에서는 CDMA (Code Division Multiple Access) 기반 통신 시스템에서의 가용한 직교 부호의 수보다 많은 수의 사용자 수용을 위해 제안된 하향링크 통계적 다중화 기법인 기존 OCHM (Orthogonal Code Hopping Multiplexing) 기술에 다중 안테나를 사용함으로써 성능이 향상될 수 있음을 보인다. 먼저 직교 부호 할당 방식에 따른 두 가지 다른 OCHM 시스템을 소개하고, 이를 LLR (Log-Likelihood Ratio) 값 계산법에 적용 시 나타내어지는 수식 표현을 유도한다. 다음으로, 유도된 LLR 값에 기반을 두어 터보 부호기를 사용할 때, 언급한 OCHM 시스템의 FER (Frame Error Rate) 성능을 검증한다. 또한 비교를 위해 기존 3GPP 표준에서 사용되는 다중 안테나 심벌 매핑 방식의 성능도 분석한다. 결과적으로, 제안된 직교 부호 할당 방식을 적용한 다중 안테나 기반 OCHM 시스템이 기존 시스템 대비 목표 FER을 만족하는데 있어서 에너지 감소 측면에서 상당한 이득이 있음을 확인한다.

Seismic fragility analysis of wood frame building in hilly region

  • Ghosh, Swarup;Chakraborty, Subrata
    • Earthquakes and Structures
    • /
    • 제20권1호
    • /
    • pp.97-107
    • /
    • 2021
  • A comprehensive study on seismic performance of wood frame building in hilly regions is presented. Specifically, seismic fragility assessment of a typical wood frame building at various locations of the northeast region of India are demonstrated. A three-dimensional simplified model of the wood frame building is developed with due consideration to nonlinear behaviour of shear walls under lateral loads. In doing so, a trilinear model having improved capability to capture the force-deformation behaviour of shear walls including the strength degradation at higher deformations is proposed. The improved capability of the proposed model to capture the force-deformation behaviour of shear wall is validated by comparing with the existing experimental results. The structural demand values are obtained from nonlinear time history analysis (NLTHA) of the three-dimensional wood frame model considering the effect of uncertainty due to record to record variation of ground motions and structural parameters as well. The ground motion bins necessary for NLTHA are prepared based on the identified hazard level from probabilistic seismic hazard analysis of the considered locations. The maximum likelihood estimates of the lognormal fragility parameters are obtained from the observed failure cases and the seismic fragilities corresponding to different locations are estimated accordingly. The results of the numerical study show that the wood frame constructions commonly found in the region are likely to suffer minor cracking or damage in the shear walls under the earthquake occurrence corresponding to the estimated seismic hazard level; however, poses negligible risk against complete collapse of such structures.

RFID 망에서 Tag 인식을 위한 회고풍의 최대 우도 결정 규칙 (Retrospective Maximum Likelihood Decision Rule for Tag Cognizance in RFID Networks)

  • 김준모;박진경;하준;서희원;최천원
    • 대한전자공학회논문지TC
    • /
    • 제48권2호
    • /
    • pp.21-28
    • /
    • 2011
  • Tag가 reader 주변을 정상적으로 오가는 별 형태의 RFID 망을 고려한다. 이 RFID 망에서 주위의 tag를 인식하기 위해 동적으로 프레임에 속한 슬롯의 수를 결정하는 동적 프레임화 및 슬롯화된 ALOHA 기반의 방식을 제안한다. 이 tag 인식 방식은 특징적으로 주위의 tag의 기대 수를 추정하기 위해 R-회고풍 최대 우도 규칙이라 불리는 규칙을 채택하여 이전 R 개의 프레임에서 얻은 관찰 값을 tag의 기대 수의 우도를 최대화하는 과정에 사용한다. 모의 실험 결과는 회고의 깊이를 조금 늘려도 인식 성능이 유의할 만큼 향상됨을 보여준다.

프레임 신뢰도 가중에 의한 강인한 음성인식 (Frame Reliability Weighting for Robust Speech Recognition)

  • 조훈영;김락용;오영환
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.323-329
    • /
    • 2002
  • 본 논문에서는 임의의 시점에서 발생하여 음성 신호의 일부분을 심하게 손상시키는 시간선택 잡음 (time-selective noise)을 보상하기 위한 프레임 신뢰도 가중 방법을 제안한다. 음성 프레임들은 서로 다른 정도의 신뢰도를 갖으며, 신뢰도는 프레임의 신호대잡음비 (signal-to-noise ratio)에 비례한다. 잡음이 일정한 경우에는 무음구간에서 획득한 잡음 정보를 이용하여 프레임의 신호대잡음비 추정이 용이하나, 시간선택 잡음은 잡음추정이 어렵다. 따라서, 본 연구에서는 프레임 신뢰도를 추정하기 위해 깨끗한 음성의 통계적 모델을 사용하였다. 제안한 MFR (model-based frame reliability) 방법은 탐조 모델의 평균 벡터열과 입력 MFCC (mel-frequency cepstral coefficient) 특징 벡터 열의 역변환에 의해 얻은 필터뱅크 에너지를 이용하여 프레임 신호대잡음비를 근사한다. 다양한 버스트 (burst) 잡음에 대한 인식 실험 결과, 제안한 방법은 프레임의 신뢰도를 효과적으로 나타낼 수 있었으며, 이 신뢰도를 우도 계산에서 가중치로 적용하여 인식 성능을 향상시킬 수 있었다.

Video-based Height Measurements of Multiple Moving Objects

  • Jiang, Mingxin;Wang, Hongyu;Qiu, Tianshuang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권9호
    • /
    • pp.3196-3210
    • /
    • 2014
  • This paper presents a novel video metrology approach based on robust tracking. From videos acquired by an uncalibrated stationary camera, the foreground likelihood map is obtained by using the Codebook background modeling algorithm, and the multiple moving objects are tracked by a combined tracking algorithm. Then, we compute vanishing line of the ground plane and the vertical vanishing point of the scene, and extract the head feature points and the feet feature points in each frame of video sequences. Finally, we apply a single view mensuration algorithm to each of the frames to obtain height measurements and fuse the multi-frame measurements using RANSAC algorithm. Compared with other popular methods, our proposed algorithm does not require calibrating the camera, and can track the multiple moving objects when occlusion occurs. Therefore, it reduces the complexity of calculation and improves the accuracy of measurement simultaneously. The experimental results demonstrate that our method is effective and robust to occlusion.

조건 사후 최대 확률과 음성 스펙트럼 변이 조건을 이용한 통계적 모델 기반의 음성 검출기 (A Statistical Model-Based Voice Activity Detection Employing the Conditional MAP Criterion with Spectral Deviation)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.324-329
    • /
    • 2011
  • 본 논문에서는 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP)과 음성 스펙트럼 변이 조건을 기반으로 한 새로운 음성 검출기 (voice activity detection, VAD)를 제안한다. 제안된 음성 검출기는 통계적 모델을 기반으로 한 우도비 테스트 (likelihood ratio test, LRT)의 문턱값을 결정하는데 조건 사후 최대 확률과 스펙트럼 변이의 상태 값을 조건부 확률로 부과한다. 제안된 알고리즘을 다양한 잡음 환경에서 기존의 CMAP 기반의 음성 검출기와 비교한 결과 전체적으로 향상된 성능을 보였으며 특히 SNR이 낮은 조건에서 향상 폭이 컸다.

Discriminative Training of Sequence Taggers via Local Feature Matching

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제14권3호
    • /
    • pp.209-215
    • /
    • 2014
  • Sequence tagging is the task of predicting frame-wise labels for a given input sequence and has important applications to diverse domains. Conventional methods such as maximum likelihood (ML) learning matches global features in empirical and model distributions, rather than local features, which directly translates into frame-wise prediction errors. Recent probabilistic sequence models such as conditional random fields (CRFs) have achieved great success in a variety of situations. In this paper, we introduce a novel discriminative CRF learning algorithm to minimize local feature mismatches. Unlike overall data fitting originating from global feature matching in ML learning, our approach reduces the total error over all frames in a sequence. We also provide an efficient gradient-based learning method via gradient forward-backward recursion, which requires the same computational complexity as ML learning. For several real-world sequence tagging problems, we empirically demonstrate that the proposed learning algorithm achieves significantly more accurate prediction performance than standard estimators.