• Title/Summary/Keyword: 화자 검출

Search Result 112, Processing Time 0.025 seconds

Speaker Detection System for Video Conference (영상회의를 위한 화자 검출 시스템)

  • Lee, Byung-Sun;Ko, Sung-Won;Kwon, Heak-Bong
    • Journal of the Korean Institute of Illuminating and Electrical Installation Engineers
    • /
    • v.17 no.5
    • /
    • pp.68-79
    • /
    • 2003
  • In this paper, we propose a system that detects the current speaker in multi-speaker video conference by using lip motion. First, the system detects the face and lip area of each of the speakers using face color and shape information. Then, to detect the current speaker, it calculates the change between the current frame and the previous frame. To accomplish this, we used two CCD cameras. One is a general CCD camera, the other is a PTZ camera controlled by RS-232C serial port. The result is a system capable of detecting the face of current speaker in a video feed with more than three people, regardless of orientation of the faces. With this system, it only takes 4 to 5 seconds to zoom in on the speaker from the initial image. Also, it is amore efficient image transmission system for such things as video conference and internet broadcasting because it offers a face area screen at a resolution of 320X240, while at the same time providing a whole background screen.

A Study on the Improvement of Speaker Recognition System by Voice Activity Detection (음성구간검출을 통한 화자식별 시스템의 성능개선에 관한 연구)

  • 신동성;정영훈;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.789-792
    • /
    • 2001
  • 성능향상에 관한 실험을 하였다. 화자식별 방식은 등록된 음성과 테스트 음성을 비교하여 결정논리에 의하여서 화자를 식별하는 방식이다. 이러한 시스템에서 전처리(preprocessing)를 어떻게 해 주느냐에 따라서 인식률에 큰 영향을 미치게 된다. 본 논문에서는 전처리 과정 중에서 음성구간 검출에 대한 실험을 수행하여 성능을 비교 하였다. 본 논문에서는 시간영역에서 안정구간(stationary region)과 전이구간(transition region)에서 Normalized AMDF를 적용하였을 때 피치점에서 골(valley)의 기울기가 크다는 점을 이용하여 유성을 검출하였다. 그리고 검출된 유성음 구간 앞뒤로 인접 샘플의 자기상관관계함수(Autocorrelation)의 비를 이용하여 무성음을 검출하였다. 결과적으로 처리시간은 비슷하였으나 전체 인식률은 약 2%정도 개선되었다.

  • PDF

Speaker Indexing using Vowel Based Speaker Identification Model (모음 기반 하자 식별 모델을 이용한 화자 인덱싱)

  • Kum Ji Soo;Park Chan Ho;Lee Hyon Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.151-154
    • /
    • 2002
  • 본 논문에서는 음성 데이터에서 동일한 화자의 음성 구간을 찾아내는 화자 인덱싱(Speaker Indexing) 기술 중 사전 화자 모델링 과정을 통한 인덱싱 방법을 제안하고 실험하였다. 제안한 인덱싱 방법은 문장 독립(Text Independent) 화자 식별(Speaker Identification)에 사용할 수 있는 모음(Vowel)에 대해 특징 파라미터를 추출하고, 이를 바탕으로 화자별 모델을 구성하였다. 인덱싱은 음성 구간에서 모음의 위치를 검출하고, 구성한 화자 모델과의 거리 계산을 통하여 가장 가까운 모델을 식별된 결과로 한다. 그리고 식별된 결과는 화자 구간 변화와 음성 데이터의 특성을 바탕으로 필터링 과정을 거쳐 최종적인 인덱싱 결과를 얻는다. 화자 인덱싱 실험 대상으로 방송 뉴스를 녹음하여 10명의 화자 모델을 구성하였고, 인덱싱 실험을 수행한 결과 $91.8\%$의 화자 인덱싱 성능을 얻었다.

  • PDF

Scream Sound Detection Based on Universal Background Model Under Various Sound Environments (다양한 소리 환경에서 UBM 기반의 비명 소리 검출)

  • Chung, Yong-Joo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.12 no.3
    • /
    • pp.485-492
    • /
    • 2017
  • GMM has been one of the most popular methods for scream sound detection. In the conventional GMM, the whole training data is divided into scream sound and non-scream sound, and the GMM is trained for each of them in the training process. Motivated by the idea that the process of scream sound detection is very similar to that of speaker recognition, the UBM which has been used quite successfully in speaker recognition, is proposed for use in scream sound detection in this study. We could find that UBM shows better performance than the traditional GMM from the experimental results.

Real-Time Face-Detection Based on Multiple Color-Spaces and Multiple Thresholds for Distance Measurement Between Speaker and Smart-Phone (화자(話者)와 스마트폰의 거리 측정을 위한 다중 색 좌표계와 다중 임계치 기반 실시간 얼굴검출)

  • Lee, Jae-Won;Kwon, Goo-Rak;Hong, Sung-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.4
    • /
    • pp.481-493
    • /
    • 2011
  • As the development of mobile devices, mobile phones are equipped with many features. Video-call feature is one of them. In this paper, we present distance measurement between speaker and smart-phone using multiple color spaces and multiple thresholds. first, detect face based on skin color information. and second, measure distance between speaker and smart-phone using the detected face region. Especially, the first considering point in the development of face area detection is real-time processing and the second point is robustness to solve the problems of face detection errors due to rapid change of object movement, lighting and background between adjacent frames.

Face Detection for Intelligent Video Conference System (지능형 영상회의를 위한 얼굴검출)

  • Park, Jae-Hyeon;Park, Gyu-Sik;On, Seung-Yeop;Kim, Cheon-Guk
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.20-27
    • /
    • 2001
  • 얼굴검출은 현재 많은 연구가 활발히 진행되고 있는 분야로 보안, 인식 등 다양한 응용분야를 갖는다. 본 논문은 카메라가 화자의 이동에 따라 이를 추적하여 회전하고 회의상황에 맞는 앵글을 유지하는 지능형 영상회의 시스템 개발의 기본요소인 화자검출의 선행단계로 얼굴검출에 대한 새로운 방법을 제안한다. RGB 색 공간의 입력영상을 YIQ 공간으로 변환한 후 IQ 성분은 피부영역검출에 Y 성분은 얼굴의 특성을 추출하는데 사용된다. 색 분포도를 이용하여 피부영역을 검출하고, 마스크를 누적 적용하여 잡음을 제거한 후 얼굴의 구조적인 특성과 명암의 분포를 이용하여 얼굴영역이 검출된다. 실험결과 다양한 배경의 영상에서 여러 명의 얼굴이 오류 없이 검출됨이 관찰되었다.

  • PDF

A Study on Korean, English and Japanese Speaker Recognitions Using the Peak and Valley Pitch Detection and the Fuzzy Theory (PVPF방법과 퍼지 이론을 이용한 한국어, 영어 및 일본어 화자 인식에 관한 연구)

  • Kim, Yeon-Suk
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.2
    • /
    • pp.522-533
    • /
    • 1999
  • This paper proposes speaker recognition algorithm which includes both the pitch parameter and the fuzzy inference. This study proposes a pitch detection method PVPF(peak and valley pitch detection fuction) by means of comparing spectra which utilizes the transform characteristics between time and frequency. In this paper, makes reference pattern using membership function and performs vocal tract recognition of common character using fuzzy pattern matching in order to include time variation width for non-linear utterance time.

  • PDF

Text-dependent Speaker Verification System in SVAPI 1.0 Environment (SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템)

  • 김유진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.401-405
    • /
    • 1998
  • SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템에 대해 기술한다. 구현된 시스템은 궁극적으로 공중 전화망 응용이 가능한 실용 시스템을 목표로 개발되었으며 이를 위해 SVAPI 위원회에 의해 제안된 SVAPI 1.0을 개발 환경으로 사용하였다. SVAPI는 객체 지향 구조, 클라이언트-서버 및 telephony 환경의 지원등이 특징이며 어플리케이션과 엔진을 독립적으로 개발할 수 있는 이점을 제공한다. 구현된 데모 시스템은 펜티엄 프로세서와 Windows95/NT 4.0 운영체제 그리고 Win16/Win32 API를 통해 제어 가능하며 음성 입력이 가능한 디바이스를 장착한 IBM 호환 PC이다. 화자의 성문 등록은 화자가 동일한 어구를 3회 발성하여 이뤄지며 등록과 확인의 응답속도는 모두 1초 이내이다. 소프트웨어의 구성은 크게 어플리케이션과 어구 종속 화자 확인 엔진으로 구분할 수 있으며 엔진은 끝점 검출 알고리즘, 음성 특징 추출 알고리즘 그리고 연속 HMM 기반의 화자 성문 모델 등록 및 유사도 계산 등을 포함한 확인 알고리즘으로 구성되어 있다. 화자의 성문은이름과 같은 약 3음절 이상의 단어로 등록되고 테스트되었다. 엔진의 객관적인 평가를 위해 전화선을 통해 남자 6명, 여자 3명의 화자로부터 자신의 이름을 각각 40회 발성하여 구축된 음성 데이터 베이스를 사용하였으며 실험 결과 남자는 2.85%, 여자는 2.44%의 EER을 각각 얻었다.

  • PDF

The Wavelet Transform Based Subband Adaptive Acoustic Echo Canceller Using a Double Talk Detector (서브밴드 동시통화 검출기를 이용한 웨이브릿변환기반 적응 음향반향제거기)

  • 안주원;권기룡;문광석;김강언;김문수
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.161-164
    • /
    • 2000
  • 본 논문에서 제안한 동시통화 검출기는 기존의 전대역에서 이루어지던 상호상관계수를 이용한 동시통화 검출기의 검출성능을 향상시키기 위하여 웨이브릿변환된 각각의 서브밴드 내에서 동시통화 및 반향경로를 구별하여 효율적으로 검출할 수 있도록 구성하였다. 서브밴드 동시통화 검출기 사용으로 동시통화 시에 발생하는 적응필터의 계수 발산을 막음으로써 시스템의 안정성을 높이고, 근단화자 신호가 원단화자에게 더 유쾌하게 들릴 수 있게 함으로써 원활한 통화환경을 제공할 수 있도록 구현하였다.

  • PDF

Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model (주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구)

  • Lee, Kyu-Ho;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.4
    • /
    • pp.401-407
    • /
    • 2009
  • In this paper, we propose a novel method for the cross-correlation based double-talk detection (DTD), which employing the Gaussian Mixture Model (GMM) in the frequency domain. The proposed algorithm transforms the cross correlation coefficient used in the time domain into 16 channels in the frequency domain using the discrete fourier transform (DFT). The channels are then selected into seven feature vectors for GMM and we identify three different regions such as far-end, double-talk and near-end speech using the likelihood comparison based on those feature vectors. The presented DTD algorithm detects efficiently the double-talk regions without Voice Activity Detector which has been used in conventional cross correlation based double-talk detection. The performance of the proposed algorithm is evaluated under various conditions and yields better results compared with the conventional schemes. especially, show the robustness against detection errors resulting from the background noises or echo path change which one of the key issues in practical DTD.