• Title/Summary/Keyword: 화자 인식

Search Result 592, Processing Time 0.03 seconds

Performance Comparison by Characteristic Parameter of Speaker Identification System using Neural Networks (신경회로망을 이용한 화자식별 시스템의 특징 파라미터에 따른 성능비교)

  • 정재룡;유재훈;배현;전병희;김성신
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.345-348
    • /
    • 2002
  • 음성인식 기술은 크게 음성인식과 화자인식 기술의 두 가지로 분류된다. 현재는 음성인식 기술이 널리 연구되고 있지만 점차 화자인식 기술의 중요성이 대두되고 있다. 본 논문에서는 화자인식 기술의 한 가지 분류로 임의 화자를 식별하기 위한 화자식별 기술을 연구 대상으로 하고 있으며, 신경회로망을 이용한 화자식별 시스템의 특징 추출 방법을 제시하고 그에 따른 성능을 비교하고 있다. 식별 단계에서 26명의 78개의 음성 샘플을 신경회로망의 역전파 알고리듬을 이용하여 학습하고, 테스트용으로 한 화자의 음성샘플이 사용되어 식별된다. 신경회로망의 입력 변수는 특징 파라미터로 선형예측계수, Mel-주파수 켑스트럼계수와 웨이블릿을 이용한 켑스트럼 계수를 사용하였다. 그 결과로써 화자식별 시스템의 신경회로망 모델2의 입력으로 혼합된 특징 파라미터를 사용한 경우가 다른 파라미터들을 사용한 경우와 비교하여 8.46~21.53%의 차를 가지고 가장 좋은 성능을 나타내었다.

Text Independent Speaker Recognition System Using Prosody (운율 정보를 이용한 문장 독립형 화자인식)

  • 경연정
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.396-400
    • /
    • 1998
  • 문장 독립형 화자인식 시스템에 운율정보 사용을 제안한다. 스펙트럴 특징패턴만을 주로 사용하고 있는 기존의 화자인식 시스템은 채널왜곡이나 기타 잡음환경에서 성능이 크게 저하된다. 그러나 화자의 speaking style을 반영하는 운율정보는 주위환경에 강인한 특성을 갖는다. 적합한 코드북 크기와 피치 컨투어 특징 벡터의 길이를 실험 치로 구하여 자동차 소음과 백색 가우시안 소음이 섞인 음성에 대하여 화자인식 실험을 하였다. 실험 결과 소음 환경에서 운율 정보를 이용한 화자 dsltlr 시스템이 스펙트럴 모델보다 인식율이 높음을 보였다.

  • PDF

A Study of Continuous Speaker Recognition for Intelligent Responsive Space (지능형 반응공간을 위한 연속적 화자인식에 관한 연구)

  • Kwon, Soon-Il
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.293-297
    • /
    • 2007
  • Human Computer Interaction 기술을 구체화 시키기 위한 Intelligent Responsive Space의 개발에 있어서 음성정보는 여러 가지로 유용하게 활용될 수 있다. 음성신호로부터 얻을 수 있는 다양한 정보 중의 하나가 화자인식을 이용한 화자의 신원식별이다. 이 논문에서는 화자인식 인식이 어려운 환경에서도 음성 신호로부터 추출한 특성벡터들을 선택적으로 사용함으로써 화자인식 성능을 높일 수 있는 새로운 방법을 제안하려 한다. 화자를 인식하는데 있어서 인식오류를 발생시킬 가능성이 높은 특성벡터들을 인식을 위한 판단의 대상에서 배제시킴으로써 성능을 향상시킬 수 있다. 실험결과에 의하면 0.25초에서2초 길이의 짧은 음성만으로도 기존의 방법에 비해 20에서 51%의 상대적 성능 향상을 보였다. 새롭게 제안된 방법을 적용하면 기존의 방법들에 비해 세밀하면서도 정확하게 연속적으로 화자들을 인식할 수 있게 된다.

  • PDF

Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters (최적경로와 가중직교인자를 이용한 화자인식)

  • 남기환;배철수
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.7 no.7
    • /
    • pp.1539-1544
    • /
    • 2003
  • Recently, many researchers have studied the speaker recognition through the statistical processing method using Karhonen-Loeve Transform. However, the content of speaker's identity and the vocalization speed cause speaker recognition rate to be lowered. This parer studies the speaker recognition method using weighted parameters which are weighted with eigen-values of speech so as to emphasize the speaker's identity and optimal path which is made by DWP so as to normalize dynamic time feature of speech. To confirm this method, we compare the speaker recognition rate from this proposed method with that from the conventional statistical processing method. As a result, it is shown that this method is more excellent in speaker recognition rate than conventional method.

Speaker Adaptation Using Linear Transformation Network in Speech Recognition (선형 변환망을 이용한 화자적응 음성인식)

  • 이기희
    • Journal of the Korea Society of Computer and Information
    • /
    • v.5 no.2
    • /
    • pp.90-97
    • /
    • 2000
  • This paper describes an speaker-adaptive speech recognition system which make a reliable recognition of speech signal for new speakers. In the Proposed method, an speech spectrum of new speaker is adapted to the reference speech spectrum by using Parameters of a 1st linear transformation network at the front of phoneme classification neural network. And the recognition system is based on semicontinuous HMM(hidden markov model) which use the multilayer perceptron as a fuzzy vector quantizer. The experiments on the isolated word recognition are performed to show the recognition rate of the recognition system. In the case of speaker adaptation recognition, the recognition rate show significant improvement for the unadapted recognition system.

  • PDF

Performance Analysis of Speech Recognition by Increasing the Number of Reference Speaker (피춰 추출 관점에서 기준 화자 수 증가에 따른 음성 인식 성능 분석)

  • 이철희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.111-114
    • /
    • 1998
  • 음성을 인식하기 위해서는 주어진 음성을 미리 정한 기준 음성과 비교하여 가장 유사한 것을 갖는 과정을 거치게 된다. 같은 단어라도 화자에 따라서 발음 속도, 음의 강약이 틀리므로 화자 독립 음성 인식을 위해서는 여러 화자가 발음한 음성을 기준 음성으로 사용하여 인식 성능을 향상시킬 수 있다. 그러나 화자 수를 증가시켜도 인식 성능의 향상에는 한계를 보이고 있다. 이러한 문제점은 현재 음성에서 추출되는 피춰가 인식에 필요한 정보를 충분히 포함하지 않는 것과 인식 알고리즘의 효율성 등에서 원인을 찾을 수 있다. 본 논문에서는 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 멜켑스트럼을 추출하고 DTW에 의해 인식을 수행하여 피춰 추출의 관점에서 화자 수 증가에 따른 인식률의 변화와 그 한계에 대해서 분석한다.

  • PDF

On Codebook Fesign to Improve Speaker Adaptation (화자 적응 성능 향상을 위한 코드북 설계)

  • 양태영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.228-231
    • /
    • 1995
  • 반연속 HMM 음성인식 시스템의 화자 적응 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존의 화자 적응 알고리즘으로는 새로운 화자의 적응 데이터 특징의 분포와 HMM 모수의 사전밀도를 함께 고려하는 베이시안 화자적응 알고리즘이 있다. 그러나 새로운 화자의 특징분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드 들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.

  • PDF

On a Performance Improvement of Speaker Recogniton using the Transition Region of Speech Signal (음성신호의 전이구간을 이용한 화자 인식의 성능향상에 관한 연구)

  • 오세영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.392-395
    • /
    • 1998
  • 기존의 DP 알고리즘을 이용하여 화자를 인식할 경우 시스템에 등록되어 있는 화자의 수가 증가할수록 처리해야할 데이터의 양이 많아진다. 그러므로 인식률이 저하되고 처리시간이 증가한다는 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위해 화자가 발성한 음성신호에서 안정구간내의 일정 파형을 삭제한 후 전이구간을 위주로 DP 알고리즘을 적용하여 화자를 인식한다. 제안한 방법으로 시험한 결과 시스템의 전체 인식률은 기존의 DP 알고리즘을 이용한 결과에 비해 1%의 향상을 보였고 처리시간은 21.6% 감소함을 볼 수 있다.

  • PDF

Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters (최적경로와 가중직교인자를 이용한 화자인식)

  • Park, Seung-Kyu;Bai, Chul-Soo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.2
    • /
    • pp.68-72
    • /
    • 1992
  • Recently, many researchers have studied the speaker recognition through the statistical processing method using Karhunen-Loeve Transform. However, the content of speaker's identity and the vocalization speed cause speaker recognition rate to be lowered. This parer studies the speaker recognition method using weighted orthogonal parameters which are weighted with eigen-values of speech so as to emphasize the speaker's identity, and optimal path which is made by DWP so as to normalize dynamic time feature of speech. To confirm this method, we compare the speaker recognition rate from this proposed method with that from the conventional statistical processing method. As a result, it is shown that this method is more excellent in speaker recognition rate than conventional method.

  • PDF

Observation Probability Weighting Method for Text-Dependent Speaker Verification (문장종속형 화자확인에서의 관측확률 가중기법)

  • Kim Se-Hyun;Jang Gil-Jin;Oh Yung-Hwan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.28-31
    • /
    • 1999
  • 기존의 문장종속형 화자인식 방법들은 대부분 음성인식에서 사용되는 방법을 그대로 적용하기 때문에, 화자의 개인성 정보보다 음운정보에 더 민감한 단점이 있다. 화자인식 시스템의 성능향상을 위해서는 음운정보보다는 화자의 개인성 정보가 잘 반영되도록 하는 것이 중요하다. 본 논문에서는 HMM(hidden Maxkov model)을 기반으로 한 문장종속형 화자확인 시스템의 성능향상을 위한 관측확률 가중 반법을 제안한다. 먼저 주어진 학습자료에서 화자의 개인성이 잘 반영된 프레임들을 예측한다. 임의의 입력음성에 대한 인식점수는 화자의 특징이 잘 반영된 프레임의 관측확률에 가중치를 주어 구한다. 제안한 방법을 적용한 결과 기존의 우도비(likelihood ratio) 정규화 점수를 사용하는 방법에 비해 동일오류율(EER, equal error rate)을 $2\~3\%$정도 줄여 인식율 향상을 얻을 수 있었다.

  • PDF