• 제목/요약/키워드: Speaker Change Detection

검색결과 15건 처리시간 0.019초

통계적 기법을 이용한 화자변화 검출 실험 (A Speaker Change Detection Experiment that Uses a Statistical Method)

  • 이경록;김진영
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.59-72
    • /
    • 2001
  • In this paper, we experimented with speaker change detection that uses a statistical method for NOD (News On Demand) service. A specified speaker's change can find out content of each data in speech if analysed because it means change of data contents in news data. Speaker change detection acts as preprocessor that divide input speech by speaker. This is an important preprocessor phase for speaker tracking. We detected speaker change using GLR(generalized likelihood ratio) distance base division and BIC (Bayesian information criterion) base division among matrix method. An experiment verified speaker change point using BIC base division after divide by speaker unit using GLR distance base method first. In the experimental result, FAR (False Alarm Rate) was 63.29 in high noise environment and FAR was 54.28 in low noise environment in MDR (Missed Detection Rate) 15% neighborhood.

  • PDF

음소 특성 정규화를 통한 화자 변화 검출 (Speaker Change Detection by Normalization of Phonetic Characteristics)

  • 김형순;박혜영;박선영
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.97-107
    • /
    • 2003
  • Speaker change detection is to detect automatically a point of time at which speaker was replaced. Since feature parameters used for speaker change detection depend not only on speaker characteristics but also on phonetic characteristics, spoken contents included in the feature parameters inevitably causes performance degradation of speaker change detection. In this paper, to alleviate this problem, a method to normalize phonetic variations in speech feature parameters is proposed for emphasizing changes due to speaker characteristics. Experimental results show that the proposed method improves the performance of speaker change detection.

  • PDF

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

Speaker Change Detection Based on a Graph-Partitioning Criterion

  • Seo, Jin-Soo
    • 한국음향학회지
    • /
    • 제30권2호
    • /
    • pp.80-85
    • /
    • 2011
  • Speaker change detection involves the identification of time indices of an audio stream, where the identity of the speaker changes. In this paper, we propose novel measures for the speaker change detection based on a graph-partitioning criterion over the pairwise distance matrix of feature-vector stream. Experiments on both synthetic and real-world data were performed and showed that the proposed approach yield promising results compared with the conventional statistical measures.

GMM-UBM 기반 KL 거리를 활용한 화자변화 검증에 대한 연구 (The Study on the Verification of Speaker Change using GMM-UBM based KL distance)

  • 조준범;이지은;이경록
    • 중소기업융합학회논문지
    • /
    • 제6권4호
    • /
    • pp.71-77
    • /
    • 2016
  • 본 논문에서는 기존의 BIC(Bayesian Information Criterion) 기반 화자변화의 성능 향상을 위하여 GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리를 활용한 화자변화 검증을 제안하였다. 정보량의 차이에 민감한 기존의 BIC 기반 화자변화검출 알고리즘을 상대적으로 정보량 차이에 견인한 KL 거리 알고리즘으로 검증하였고, 정보량의 비대칭을 보상하기 위해서 GMM-UBM을 활용하였다. 기존의 BIC 기반 화자변화 검출은 1단계로 비유사도 d가 양수인 구간의 국소 최댓값인 지점을 화자변화 후보지점으로 검출하였고, 2단계로 검출된 화자변화 후보지점 중 ${\Delta}BIC$가 양수인 지점을 화자변화지점으로 결정하였다. 본 논문에서는 BIC 기반 화자변화 검출에 의해 결정된 화자변화지점에 대하여 GMM-UBM 기반 KL 거리 D가 문턱치(threshold)보다 높은 지점을 최종 화자변화 지점으로 검증하였다. 실험결과, MDR(Missed Detection Rate)이 0인 조건에서 문턱치 0.028일 때 FAR(False Alarm Rate) 60.4%로 성능이 향상되었다.

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.

영상회의를 위한 화자 검출 시스템 (Speaker Detection System for Video Conference)

  • 이병선;고성원;권혁봉
    • 조명전기설비학회논문지
    • /
    • 제17권5호
    • /
    • pp.68-79
    • /
    • 2003
  • 본 논문에서는 여러 사람이 참여하는 영상 회의에서 입술 움직임 정보를 이용하여 화자를 검출하는 시스템을 구현하였다. 구현된 시스템은 얼굴색 정보와 형태 정보를 이용하여 각 사람의 얼굴 및 입술 영역을 검출한 후, 입술 영역에서 이전 프레임과의 변화량을 계산하여 화자를 검출한다. 검출된 화자를 클로즈업하기 위하여 두 대의 CCD카메라를 사용하였으며, RS-232C시리얼 포트를 이용하여 PTZ 카메라를 제어한다. 실험 결과 3인 이상의 입력 동영상에서 얼굴의 기울어짐에 무관하게 화자를 검출할 수 있었으며 최초 기준 영상에서 화자를 클로즈업하는데 약 4∼5초 정도의 시간이 소요되었다. 또한 320${\times}$240 크기의 얼굴 영역 화면과 전체적인 배경 화면을 동시에 제공하므로 영상회의 및 인터넷 방송 등과 같은 영상 전송 시스템에서 보다 효율적인 의사 전달이 가능하게 하였다.

SNR 기반 가중 KL 거리를 활용한 화자 변화 검증에 관한 연구 (The Study on Speaker Change Verification Using SNR based weighted KL distance)

  • 조준범;이지은;이경록
    • 융합정보논문지
    • /
    • 제7권6호
    • /
    • pp.159-166
    • /
    • 2017
  • 본 논문에서는 방송 뉴스에서 화자 변화 검증 성능 향상을 위해서 입력소음음성 향상과 SNR(Signal to Noise Ratio)기반 가중 함수 $w_m$를 적용한 KL 거리 $D_s$를 실험하였다. GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리 D를 이용한 화자 변화 검증 시스템(실험 0)을 기본 시스템으로 한다. 실험 1은 실험 0의 입력소음음성 향상을 위해 MMSE Log-STSA(Minimum Mean Square Error Log-Spectral Amplitude Estimator)를 적용하였다. 실험 2는 실험 1의 기존 KL거리 D 대신에 $D_s$를 적용하였다. 실험 데이터베이스는 다양한 소음을 반영하기 위해 스포츠 뉴스와 실외 인터뷰를 중심으로 구축하였다. 실험은 화자 변화 정보의 누락을 막기 위해 MDR(Missed Detection Rate) 0%를 기준으로 하였다. 실험 0은 FAR(False Alarm Rate) 71.5%의 성능을 보였다. 실험 1은 FAR 67.3%로 실험0에 비해 4.2% 향상되었고, 실험 2는 FAR 60.7%로 10.8% 향상되었다.

화자(話者)와 스마트폰의 거리 측정을 위한 다중 색 좌표계와 다중 임계치 기반 실시간 얼굴검출 (Real-Time Face-Detection Based on Multiple Color-Spaces and Multiple Thresholds for Distance Measurement Between Speaker and Smart-Phone)

  • 이재원;권구락;홍성훈
    • 한국멀티미디어학회논문지
    • /
    • 제14권4호
    • /
    • pp.481-493
    • /
    • 2011
  • 모바일기기가 발달함에 따라 핸드폰에 수많은 기능들이 탑재되고 있다. 영상 통화 기능도 그 중 하나이다. 본 논문에서는 화자와 스마트폰 사이의 거리를 측정하기 위한 다중 색좌표계와 다중 임계치를 사용하는 방법을 제시한다. 첫 번째로 피부색의 색상정보에 근거하여 얼굴영역을 검출한다. 두 번째로 검출된 얼굴영역의 크기를 이용하여 스마트폰과 화자 사이의 거리를 측정한다. 특히 본 논문에서 제시하는 얼굴영역 검출 알고리즘 개발에 있어 고려한 점은 스마트폰의 기본기능과 함께 실시간으로 처리가 가능할 정도로 연산량이 적어야 하며, 움직임이 많은 핸드폰의 특성상 프레임과 프레임 사이의 움직임과 조명 및 배경에 따라 검출된 얼굴 영역이 급격히 변화하는 문제를 해결할 수 있는 얼굴영역 검출 알고리즘을 개발하고자 하였다.

GMM-supervector를 사용한 SVM 기반 화자분류에 대한 연구 (A Study on SVM-Based Speaker Classification Using GMM-supervector)

  • 이경록
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1022-1027
    • /
    • 2020
  • 본 논문에서는 GMM-supervector를 특징 파라미터로 하는 SVM 기반 화자 분류에 대해서 실험하였다. 실험을 위한 화자 클러스터를 생성하기 위해서 기존의 SNR 기반 가중치를 반영한 KL거리 기반 화자변화검출을 실행하였다. SVM 기반 화자 분류는 2단계로 이루어져있다. 1단계는 UBM과 화자 모델들간의 SVM 기반 분류를 시행하여 각 클러스터에 화자 정보를 인덱싱한 다음 화자별로 그룹핑한다. 2단계는 화자 클러스터 그룹에 UBM과 화자모델들간의 SVM 기반 분류를 시행한다. SVM의 커널 함수로는 Linear와 RBF를 사용하였다. 실험결과, 1단계에서는 Linear 커널이 화자 클러스터 148개, MDR 0, FAR 47.3, ER 50.7로 좋은 성능으로 보였다. 2단계 실험결과도 Linear 커널이 화자 클러스터 109개, MDR 1.3, FAR 28.4, ER 32.1로 좋은 성능을 보였다.