• 제목/요약/키워드: Speaker pruning

검색결과 3건 처리시간 0.017초

A Speaker Pruning Method for Real-Time Speaker Identification System

  • 김민정;석수영;정종혁
    • 대한임베디드공학회논문지
    • /
    • 제10권2호
    • /
    • pp.65-71
    • /
    • 2015
  • It has been known that GMM (Gaussian Mixture Model) based speaker identification systems using ML (Maximum Likelihood) and WMR (Weighting Model Rank) demonstrate very high performances. However, such systems are not so effective under practical environments, in terms of real time processing, because of their high calculation costs. In this paper, we propose a new speaker-pruning algorithm that effectively reduces the calculation cost. In this algorithm, we select 20% of speaker models having higher likelihood with a part of input speech and apply MWMR (Modified Weighted Model Rank) to these selected speaker models to find out identified speaker. To verify the effectiveness of the proposed algorithm, we performed speaker identification experiments using TIMIT database. The proposed method shows more than 60% improvement of reduced processing time than the conventional GMM based system with no pruning, while maintaining the recognition accuracy.

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법 (A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.457-462
    • /
    • 2003
  • 본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.

Gaussian Mixture Model과 프레임 단위 유사도 추정을 이용한 유해동영상 필터링 시스템 구현 (A Realization of Injurious moving picture filtering system with Gaussian Mixture Model and Frame-level Likelihood Estimation)

  • 김민정;정종혁
    • 한국지능시스템학회논문지
    • /
    • 제23권2호
    • /
    • pp.184-189
    • /
    • 2013
  • 본 논문에서는 인터넷 및 인터넷 저장 공간에 제한없이 유통되고 있는 유해동영상을 필터링하기 위해 유해동영상에 포함된 특정 소리를 이용한 유해 동영상 필터링 시스템을 제안한다. 이를 위하여 소리의 특성을 잘 표현할 수 있는 Gaussian Mixture Model을 이용하였으며, 필터링 대상 데이터와 소리모델과의 유사도를 계산하기위해 프레임단위 유사도 추정을 이용하였다. 또, 실시간 처리를 위하여 비교대상 데이터의 수를 줄임으로서 실시간 처리가 가능한 프루닝 방법을 적용하였으며, 고정도의 구별 성능을 위하여 기존 화자식별에서 우수한 성능을 보였던 MWMR 방법을 적용하였다. 식별실험결과, 일반 영상과 유해 영상의 기준인 전체프레임 대비 유사도 높은 프레임의 비를 50%로 설정한 경우, 판별 오류율은 6.06%였으며, 프레임 비의 기준이 60%인 경우, 오류율은 3.03%를 나타내어 소리를 이용한 유해동영상 필터링 시스템이 효과적으로 일반영상과 유해영상을 구별할 수 있는 것을 확인하였다.