• Title/Summary/Keyword: 화자 식별

Search Result 105, Processing Time 0.022 seconds

Pattern Recognition by Section Detection Using Speech Word (음성 단어를 이용한 구간검출에 의한 패턴인식)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.05a
    • /
    • pp.681-682
    • /
    • 2016
  • 본 논문에서는 화자 식별에서 음성신호의 애매한 점을 보완할 수 있는 신경회로망의 오차역전파학습 알고리즘과 모음구간 검출에 기초하여 입력되는 음성의 화자 패턴을 구분하는 일본어 단어 패턴인식 알고리즘을 제안한다. 제안하는 알고리즘에서는 일본어 데이터베이스로부터의 단어를 사용하여 음성의 특징벡터를 추출하여 분석하고 이러한 음성의 특징벡터의 차이를 이용하여 일본어 화자에 대한 패턴인식 실험을 수행하였다.

  • PDF

Estimation of Speeker Recognition Parameter using Lyapunov Dimension (Lyapunov 차원을 이용한 화자식별 파라미터 추정)

  • Yoo, Byong-Wook;Kim, Chang-Seok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.4
    • /
    • pp.42-48
    • /
    • 1997
  • This paper has apparaised ability of speaker recognition and speech recognition using correlation dimension and Lyapunov dimension. In this method, speech was regarded the cahos that the random signal is appeared in determinisitic raising system. we deduced exact correlation dimension and Lyapunov dimension with searching important orbit from AR model power spectrum when reconstruct strange attractor using Taken's embedding theory. We considered a usefulness of speech recognition and speaker recognition using correlation dimension and Lyapunov dimension that characterized reconstruction attractor. As a result of consideration, which were of use more the speaker recognition than speech recognition, and in case of speaker recognition using Lyapunov dimension were much recognition rate more than speaker recognitions using correlation dimension.

  • PDF

Noise Robust Text-Independent Speaker Identification for Ubiquitous Robot Companion (지능형 서비스 로봇을 위한 잡음에 강인한 문맥독립 화자식별 시스템)

  • Kim, Sung-Tak;Ji, Mi-Kyoung;Kim, Hoi-Rin;Kim, Hye-Jin;Yoon, Ho-Sub
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.190-194
    • /
    • 2008
  • This paper presents a speaker identification technique which is one of the basic techniques of the ubiquitous robot companion. Though the conventional mel-frequency cepstral coefficients guarantee high performance of speaker identification in clean condition, the performance is degraded dramatically in noise condition. To overcome this problem, we employed the relative autocorrelation sequence mel-frequency cepstral coefficient which is one of the noise robust features. However, there are two problems in relative autocorrelation sequence mel-frequency cepstral coefficient: 1) the limited information problem. 2) the residual noise problem. In this paper, to deal with these drawbacks, we propose a multi-streaming method for the limited information problem and a hybrid method for the residual noise problem. To evaluate proposed methods, noisy speech is used in which air conditioner noise, classic music, and vacuum noise are artificially added. Through experiments, proposed methods provide better performance of speaker identification than the conventional methods.

  • PDF

A Study on Reduction of the Processing time of Speaker Recognition using the PSOLA Method (PSOLA 방식을 이용한 화자인식 시스템의 처리시간 단축에 관한 연구)

  • 박현영;서지호;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2447-2450
    • /
    • 2003
  • 화자인식은 음성의 특성을 이용해서 화자의 신원을 확인하는 기술이다. 이러한 기술은 등록된 화자집단 중 화자를 식별하는 화자식별(speaker Identification)과 지금 발성한 화자만을 비교하여 확인하는 화자확인(speaker verification)이 있다. 이러한 화자인식은 음성에 내재되어 있는 화자정보를 추출하여 개인을 확인하는 기술로 전화망을 통한 서비스가 확산되어 가고 있는 현대사회에 가장 효과적인 기술 중 하나이다. 또한 PDA를 이용한 증건거래 시스템 등 현대사회에서는 실시간으로 화자인식이 이루어져야 한다. 본 논문에서는 이와 같이 실시간 화자인식을 위한 처리시간 단축에 관하여 연구하였다. 처리시간 단축을 위하여 우선 피치주기 단위로 음성 파형을 분해한 다음 분해된 피치 단위에 윈도우 함수를 곱해서 단구간 신호의 열로 만들고 분해된 단위를 조절하는 PSOLA 합성방식을 이용하여 인식 시스템의 전처리단을 재구성하였다. 이와 같은 방식으로 제안한 인식시스템의 처리시간, 인식률을 기존의 화자인식 시스템과 비교하였다.

  • PDF

Realization a Text Independent Speaker Identification System with Frame Level Likelihood Normalization (프레임레벨유사도정규화를 적용한 문맥독립화자식별시스템의 구현)

  • 김민정;석수영;김광수;정현열
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.3 no.1
    • /
    • pp.8-14
    • /
    • 2002
  • In this paper, we realized a real-time text-independent speaker recognition system using gaussian mixture model, and applied frame level likelihood normalization method which shows its effects in verification system. The system has three parts as front-end, training, recognition. In front-end part, cepstral mean normalization and silence removal method were applied to consider speaker's speaking variations. In training, gaussian mixture model was used for speaker's acoustic feature modeling, and maximum likelihood estimation was used for GMM parameter optimization. In recognition, likelihood score was calculated with speaker models and test data at frame level. As test sentences, we used text-independent sentences. ETRI 445 and KLE 452 database were used for training and test, and cepstrum coefficient and regressive coefficient were used as feature parameters. The experiment results show that the frame-level likelihood method's recognition result is higher than conventional method's, independently the number of registered speakers.

  • PDF

Speaker Identification on Various Environments Using an Ensemble of Kernel Principal Component Analysis (커널 주성분 분석의 앙상블을 이용한 다양한 환경에서의 화자 식별)

  • Yang, Il-Ho;Kim, Min-Seok;So, Byung-Min;Kim, Myung-Jae;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.31 no.3
    • /
    • pp.188-196
    • /
    • 2012
  • In this paper, we propose a new approach to speaker identification technique which uses an ensemble of multiple classifiers (speaker identifiers). KPCA (kernel principal component analysis) enhances features for each classifier. To reduce the processing time and memory requirements, we select limited number of samples randomly which are used as estimation set for each KPCA basis. The experimental result shows that the proposed approach gives a higher identification accuracy than GKPCA (greedy kernel principal component analysis).

Speech Identification of Male and Female Speakers in Noisy Speech for Improving Performance of Speech Recognition System (음성인식 시스템의 성능 향상을 위한 잡음음성의 남성 및 여성화자의 음성식별)

  • Choi, Jae-seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.619-620
    • /
    • 2017
  • 본 논문에서는 음성인식 알고리즘에 매우 중요한 정보를 제공하는 화자의 성별인식을 위하여 신경회로망을 사용하여 잡음 환경 하에서 남성음성 및 여성음성의 화자를 식별하는 성별인식 알고리즘을 제안한다. 본 논문에서 제안하는 신경회로망은 MFCC의 계수를 사용하여 음성의 각 구간에서 남성음성 및 여성음성의 화자를 인식할 수 있는 알고리즘이다. 실험결과로부터 백색잡음이 중첩된 잡음환경 하에서 음성신호의 MFCC의 특징벡터를 사용함으로써 남성음성 및 여성음성의 화자에 대해서 양호한 성별인식 결과가 구해졌다.

  • PDF

Character Identification on Multiparty Dialogues using Multimodal Features (멀티모달 자질을 활용한 다중 화자 대화 속 인물 식별)

  • Han, Kijong;Choi, Seong-Ho;Shin, Giyeon;Zhang, Byoung-Tak;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.215-219
    • /
    • 2018
  • 다중 화자 대화 속 인물 식별이란 여러 등장인물이 나오는 대본에서 '그녀', '아버지' 등 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물을 나타내는지 파악하는 문제이다. 대본 자연어 데이터만을 입력으로 하는 대화 속 인물 식별 문제는 드라마 대본에 대해서 데이터가 구축 되었고 이를 기반으로 여러 연구가 진행되었다. 그러나, 사람도 다중 화자 대화의 문장만 보고는 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물인지 파악하기 어려운 경우가 있다. 이에 본 논문에서는 발화가 되는 시점의 영상 장면 정보를 추가적으로 활용하여 인물 식별의 성능을 높이는 방법을 제시한다. 또한 기존 대화 속 인물 식별 연구들은 미리 정의된 인물을 대상으로 분류하는 형태로 접근해왔다. 이는 학습에 사용되지 않았던 인물이 나오는 임의의 다른 드라마 대본이나 대화 등에 바로 적용될 수 없다. 이에 본 논문에서는 영상 정보는 활용하되, 한번 학습하면 임의의 대본에 적용될 수 있도록 사전 인물 정보를 사용하지 않는 상호참조해결 기반의 인물 식별 방법도 제시한다.

  • PDF

On a Method Which Improves Text Independent Speaker Verification Performance through Limiting Speech Production Loudness (성량제한을 적용한 어구독립 화자증명 성능향상 방안)

  • 이태승;최호진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.457-459
    • /
    • 2001
  • 지속음(continuants) 단위로 화자간 차이를 식별하는 어구독립 화자증명(text-independent speaker verification) 방식에서 입력음성의 성량을 제한하여 보다 높은 인식률을 달성할 수 있는 화자인식 방법을 제안한다.

  • PDF

Improvement in Supervector Linear Kernel SVM for Speaker Identification Using Feature Enhancement and Training Length Adjustment (특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선)

  • So, Byung-Min;Kim, Kyung-Wha;Kim, Min-Seok;Yang, Il-Ho;Kim, Myung-Jae;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.6
    • /
    • pp.330-336
    • /
    • 2011
  • In this paper, we propose a new method to improve the performance of supervector linear kernel SVM (Support Vector Machine) for speaker identification. This method is based on splitting one training datum into several pieces of utterances. We use four different databases for evaluating performance and use PCA (Principal Component Analysis), GKPCA (Greedy Kernel PCA) and KMDA (Kernel Multimodal Discriminant Analysis) for feature enhancement. As a result, the proposed method shows improved performance for speaker identification using supervector linear kernel SVM.