• 제목/요약/키워드: System GMM Model

검색결과 143건 처리시간 0.024초

DSP보드를 이용한 전화음성용 실시간 화자인증 시스템의 구현에 관한 연구 (An Implementation of Real-Time Speaker Verification System on Telephone Voices Using DSP Board)

  • 이현승;최홍섭
    • 대한음성학회지:말소리
    • /
    • 제49호
    • /
    • pp.145-158
    • /
    • 2004
  • This paper is aiming at implementation of real-time speaker verification system using DSP board. Dialog/4, which is based on microprocessor and DSP processor, is selected to easily control telephone signals and to process audio/voice signals. Speaker verification system performs signal processing and feature extraction after receiving voice and its ID. Then through computing the likelihood ratio of claimed speaker model to the background model, it makes real-time decision on acceptance or rejection. For the verification experiments, total 15 speaker models and 6 background models are adopted. The experimental results show that verification accuracy rates are 99.5% for using telephone speech-based speaker models.

  • PDF

임베디드 제어에 의한 무인 영상 감시시스템 구현 (Implementation of An Unmanned Visual Surveillance System with Embedded Control)

  • 김동진;정용배;박영석;김태효
    • 융합신호처리학회논문지
    • /
    • 제12권1호
    • /
    • pp.13-19
    • /
    • 2011
  • 본 논문에서는 SOPC 기반 NIOSII 임베디드 프로세서와 C2H 컴파일러를 적용하여 영상 감시 시스템을 구현하였다. 카메라의 영상 신호 출력, 영상처리, 시리얼 통신 및 네트워크 통신의 제어를 위해 C2H 컴파일러에 의한 IP를 구성하였고, SOPC 및 NIOS II 임베디드 프로세서에 기반한 각각의 IP를 효과적으로 제어할 수 있도록 구현하였다. 그리고, 보다 빠르고 환경에 강인한 이동 물체 검출을 위한 방법으로 배경영상을 갱신하는 알고리듬을 적응 가우시안 혼합 모델(AGMM)을 제안하였다. 그 결과 주간 및 야간에서도 이동 물체를 잘 검출할 수 있었다. 실험을 통해 제안된 AGMM 알고리듬이 적응 임계치법(ATM)과 가우시안 혼합모델(GMM)보다 이동하는 보행자 및 차량의 검출에서 우수함을 확인하였다.

휴대폰음성을 이용한 화자인증시스템에서 배경화자에 따른 성능변화에 관한 연구 (A Study on the Perlormance Variations of the Mobile Phone Speaker Verification System According to the Various Background Speaker Properties)

  • 최홍섭
    • 음성과학
    • /
    • 제12권3호
    • /
    • pp.105-114
    • /
    • 2005
  • It was verified that a speaker verification system improved its performances of EER by regularizing log likelihood ratio, using background speaker models. Recently the wireless mobile phones are becoming more dominant communication terminals than wired phones. So the need for building a speaker verification system on mobile phone is increasing abruptly. Therefore in this paper, we had some experiments to examine the performance of speaker verification based on mobile phone's voices. Especially we are focused on the performance variations in EER(Equal Error Rate) according to several background speaker's characteristics, such as selecting methods(MSC, MIX), number of background speakers, aging factor of speech database. For this, we constructed a speaker verification system that uses GMM(Gaussin Mixture Model) and found that the MIX method is generally superior to another method by about 1.0% EER. In aspect of number of background speakers, EER is decreasing in proportion to the background speakers populations. As the number is increasing as 6, 10 and 16, the EERs are recorded as 13.0%, 12.2%, and 11.6%. An unexpected results are happened in aging effects of the speech database on the performance. EERs are measured as 4%, 12% and 19% for each seasonally recorded databases from session 1 to session 3, respectively, where duration gap between sessions is set by 3 months. Although seasons speech database has 10 speakers and 10 sentences per each, which gives less statistical confidence to results, we confirmed that enrolled speaker models in speaker verification system should be regularly updated using the ongoing claimant's utterances.

  • PDF

음성의 피치 파라메터를 사용한 감정 인식 (Emotion Recognition using Pitch Parameters of Speech)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제25권3호
    • /
    • pp.272-278
    • /
    • 2015
  • 본 논문에서는 음성신호 피치 정보를 이용한 감정 인식 시스템 개발을 목표로 피치 정보로부터 다양한 파라메터 추출방법을 연구하였다. 이를 위하여 다양한 감정이 포함된 한국어 음성 데이터베이스를 이용하여 피치의 통계적인 정보와 수치해석 기법을 사용한 피치 파라메터를 생성하였다. 이러한 파라메터들은 GMM(Gaussian Mixture Model) 기반의 감정 인식 시스템을 구현하여 각 파라메터의 성능을 비교되었다. 또한 순차특징선택 방법을 사용하여 최고의 감정 인식 성능을 나타내는 피치 파라메터들을 선정하였다. 4개의 감정을 구별하는 실험 결과에서 총 56개의 파라메터중에서 15개를 조합하였을 때 63.5%의 인식 성능을 나타내었다. 또한 감정 검출 여부를 나타내는 실험에서는 14개의 파라메터를 조합하였을 때 80.3%의 인식 성능을 나타내었다.

An Intelligent Automatic Early Detection System of Forest Fire Smoke Signatures using Gaussian Mixture Model

  • Yoon, Seok-Hwan;Min, Joonyoung
    • Journal of Information Processing Systems
    • /
    • 제9권4호
    • /
    • pp.621-632
    • /
    • 2013
  • The most important things for a forest fire detection system are the exact extraction of the smoke from image and being able to clearly distinguish the smoke from those with similar qualities, such as clouds and fog. This research presents an intelligent forest fire detection algorithm via image processing by using the Gaussian Mixture model (GMM), which can be applied to detect smoke at the earliest time possible in a forest. GMMs are usually addressed by making the model adaptive so that its parameters can track changing illuminations and by making the model more complex so that it can represent multimodal backgrounds more accurately for smoke plume segmentation in the forest. Also, in this paper, we suggest a way to classify the smoke plumes via a feature extraction using HSL(Hue, Saturation and Lightness or Luminanace) color space analysis.

비음수 텐서 분해와 은닉 마코프 모델을 이용한 터널 환경에서의 음향 사고 검지 방법 (An Acoustic Event Detection Method in Tunnels Using Non-negative Tensor Factorization and Hidden Markov Model)

  • 김남균;전광명;김홍국
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권9호
    • /
    • pp.265-273
    • /
    • 2018
  • 본 논문에서는 터널 환경에서 비음수 텐서분해와 가우시안 혼합을 갖는 은닉 마코프 모델을 사용한 사고 검지 시스템을 제안한다. 대부분의 터널 내 환경은 내재된 환경으로 인한 작은 사고들이 발생한다. 특히 터널 내에서 사고가 발생할 시, 2차, 3차 사고가 발생되어 큰 재해로 발전할 가능성이 높다. 주로 시각기반의 사고 검지 기법들이 많이 제안되어왔으나, 시야각 등의 문제로 오검지가 발생하는 단점이 존재한다. 이러한 시각기반의 검지 기법을 보완하기 위해 본 논문에 제안된 기법은 터널환경에서의 음향사고 검출의 정확도 개선을 위해 비음수 텐서분해와 가우시안 혼합모델(Gaussian mixture model, GMM) 기반의 은닉 마코프 모델(hidden Markov model, HMM)을 이용한다. 제안된 방법은 비음수 텐서 분해 기법에 활용되는 사고음향 모델과 잡음모델을 사용하여 사고음을 분리하고, 분리된 사고음을 기반으로 기 훈련된 GMM-HMM 기반의 음향모델을 기반으로 우도비 검증을 수행하여 사고 검지를 수행한다. 제안된 방법의 검지 정확도를 평가하기 위해 터널 내 환경잡음과 사고음을 합성하여 생성한 데이터를 생성하였고, 높은 정확도를 얻을 수 있었다.

Tolerance Interval Analysis를 이용한 배경화자 없는 간단한 화자인증시스템에 관한 연구 (On the Simple Speaker Verification System Using Tolerance Interval Analysis Without Background Speaker Models)

  • 최홍섭
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.147-158
    • /
    • 2005
  • In this paper, we are focused to develop the simplified speaker verification algorithm without background speaker models, which will be adopted in the portable speaker verification system equipped in portable terminals such as mobile phone and PMP. According to the tolerance interval analysis, the population of someone's speaker model can be represented by a suitable number of selected independent samples of speaker model. So we can make the representative speaker model and threshold under the specified confidence level and coverage. Using proposed algorithm with the number of samples is 40, the experiments show that the false rejection rate is $3.0\%$ and the false acceptance rate $4.3\%$, worth comparing to conventional method's results, $5.4\%\;and\;5.5\%$, respectively. Next step of research will be on the suitable adaptation methods to overcome speech variation problems due to aging effect and operating environments.

  • PDF

근전도신호를 이용한 노약자/장애인용 재활 보조시스템의 인터페이스기법

  • 장영건;신철규;이은실;권장우;홍승홍
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1997년도 춘계학술대회논문집
    • /
    • pp.107-113
    • /
    • 1997
  • In this paper, an interfacing method to control rehabilitation assitance system with bio-signal is proposed. Controlling with EMG signals method has certain advantage on signal-collecting, but has some drawbacks in the function resolution of EMG signals because data-processing process is not efficient. To improve function-resolution and to increase the efficiency of EMG signal interfacing with rehabilitation assistance system, Multi-layer Perception which is highly effective with static signal and hidden-Markov model for dynamic signal resolving are fused together. In proposed method. The direction and average speed of the rehabilitation assitance system are controlled by the trajectory control and estimation of the moving direction result from the fused model. From the experiment, proposed GMM and 2-level MLP hybrid-classifier yielded 8.6% perception-error rate, improving function resolution. New acceleration control method constructed with 3 nested linear filter produced continuous acceleration paths without the information of destination point. Thus, the mass output caused by non- continuous acceleration-deceleration was eliminated. In the simulation, the necessary calculation, in the case of multiplication, was reduced by 11.54%.

  • PDF

Combination of Classifiers Decisions for Multilingual Speaker Identification

  • Nagaraja, B.G.;Jayanna, H.S.
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.928-940
    • /
    • 2017
  • State-of-the-art speaker recognition systems may work better for the English language. However, if the same system is used for recognizing those who speak different languages, the systems may yield a poor performance. In this work, the decisions of a Gaussian mixture model-universal background model (GMM-UBM) and a learning vector quantization (LVQ) are combined to improve the recognition performance of a multilingual speaker identification system. The difference between these classifiers is in their modeling techniques. The former one is based on probabilistic approach and the latter one is based on the fine-tuning of neurons. Since the approaches are different, each modeling technique identifies different sets of speakers for the same database set. Therefore, the decisions of the classifiers may be used to improve the performance. In this study, multitaper mel-frequency cepstral coefficients (MFCCs) are used as the features and the monolingual and cross-lingual speaker identification studies are conducted using NIST-2003 and our own database. The experimental results show that the combined system improves the performance by nearly 10% compared with that of the individual classifier.

발성변화에 강인한 화자 인식에 관한 연구 (Safety Robust Speaker Recognition Against Utterance Variationsed)

  • 이기용
    • 인터넷정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.69-73
    • /
    • 2004
  • 화자인식 시스템에서 화자 모델은 여러 세션동안 수집된 많은 양의 데이터 집합으로 등록한다. 많은 양의 데이터 집합은 많은 양의 메모리와 계산을 필요로 할 뿐 아니라, 게다가 사용자가 음성 등록을 위하여 여러 번에 걸쳐서 발성해야 하는 문제점이 있다. 최근, 이러한 문제를 보완하기 위해서 많은 적응 방법들이 제안되었다. 그러나, 여러 세션동안 모아진 데이터 집합은 불규칙한 발성 변화와 잡음 같은 이상치에 취약하고, 그것은 부정확한 화자 모델을 만든다. 본 논문에서는, GMM에 기초를 둔 화자 모델에 이상치들의 영향을 최소화하기 위한 적응 방법을 제안하였다. 강인한 적응은 M-추정의 점진적인 방법으로부터 얻어진다. 화자 모델은 초기에 적은 양의 데이터로 등록되어지고, 각각의 세션에서 얻어진 데이터로 반복적으로 적응시킨다. 실험 결과는 7개월에 걸쳐서 수집된 데이터 집합으로부터 제안된 방법이 이상치에 강인하다는 것을 보여준다.

  • PDF