• 제목/요약/키워드: reference speaker

검색결과 87건 처리시간 0.03초

모음 검출을 통한 텍스트 독립 화자인식에 관한 연구 (A Study on the Text-Independent Speaker Recognition from the Vowel Extraction)

  • 김에녹;복혁규;김형래
    • 전자공학회논문지B
    • /
    • 제31B권10호
    • /
    • pp.82-91
    • /
    • 1994
  • In this thesis, we perform the experiment of speaker recognition by identifying vowels in the pronounciation of each speaker. In detail, we extract the vowels from the pronounciation of each speaker first. From it, we check the frequency energgy of 29 channels. After changing these into fuzzy values, we employ the fuzzy inference to recognize the speaker by text-dependent and text-independent methods. For this experiment, an algorithm of extracting vowels is developed, and newly introduced parameter is the frequency energy of the 29 channels computed from the extracted vowels. It shows the features of each speakers better than existing parameters. The advanced point of this paramter is to use the reference pattern only without the help of any codebook. As a rewult, test-dependent method showed about 95.5% rate of recognition, and text-independent method showed about 94.2% rate of recognition.

  • PDF

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

  • 김동현;홍광석
    • 인터넷정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.9-14
    • /
    • 2003
  • 기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.

  • PDF

후면기공을 갖는 마이크로스피커와 덕트형 스피커시스템사이의 연관성 해석 (Analysis of the Relation Between Micro-Speaker with the Back Holes and the Ducted Speaker-System)

  • 이에스더;오세진
    • 한국음향학회지
    • /
    • 제26권3호
    • /
    • pp.115-122
    • /
    • 2007
  • 본 연구에서는 마이크로스피커의 구조와 특성을 유닛과 덕트형 인클로저로 구성되어 있는 일종의 덕트형 스피커시스템처럼 취급할 수 있음을 처음으로 보여주었다. 후면기공의 면적이 증가할수록 스티프니스는 감소하고 컴플라이언스는 증가하였다. 그 결과로써, 후면기공의 면적이 증가할수록 공명진동수가 컴플라이언스의 제곱근에 비례하여 증가하였다. 후면기공의 면적이 감소함에 의하여 중저음 영역에서의 기준음압레벨이 지수함수적으로 감소하였다.

텔레매틱스 환경에서 화자인증을 이용한 VoIP기반 음성 보안통신 (VoIP-Based Voice Secure Telecommunication Using Speaker Authentication in Telematics Environments)

  • 김형국;신동
    • 한국ITS학회 논문지
    • /
    • 제10권1호
    • /
    • pp.84-90
    • /
    • 2011
  • 본 논문은 텔레매틱스 환경에서 문장독립형 화자인증을 이용한 VoIP 음성 보안통신기술을 제안한다. 보안통신을 위해 송신측에서는 화자의 음성정보로부터 생성된 공개키를 통해 음성 패킷을 암호화하여 수신측에 전송함으로써 중간자 공격에 대항한다. 수신측에서는 수신된 암호화된 음성패킷을 복호화한 후에 추출된 음성 특징과 송신측으로부터 수신받은 음성키를 비교하여 화자인증을 수행한다. 제안된 방식에서는 Gaussian Mixture Model(GMM)-supervector를 Bayesian information criterion (BIC) 방식과 Mahalanobis distance (MD) 방식을 이용한 Support Vector Machine (SVM) 커널에 적용하여 문장독립형 화자인증 정확도를 향상시켰다.

모음 인식과 벡터 양자화를 이용한 화자 인식 (Speaker Identification Based on Vowel Classification and Vector Quantization)

  • 임창헌;이황수;은종관
    • 한국음향학회지
    • /
    • 제8권4호
    • /
    • pp.65-73
    • /
    • 1989
  • 본 연구에서는, VQ(vector quantization)와 모음 인식에 기초한 화자 인식 알고리즘을 제안하고, 기존의 VQ를 사용한 화자 인식 알고리즘과 성능을 비교하였다. 제안된 화자 인식 알고리즘은 모음 분리, 모음 인식 그리고 평균 distortion양을 계산하는 3개의 과정으로 구성되며, 이때 주어진 음성 신호로부터 모음 부분을 분리하기 위해 RMS 에너지, BTR(Back-to-Total cavity volume Ratio) 그리고 SFBR(Signed-Front-to-Back maximum area Ratio)이 라는 3개 의 Parameter를 사용하였다. 입력 음성 신호의 SNR이 20 dB이고 정확한 모음 분리가 수행되었을 때, 제안된 화자 인식 알고리즘의 성능이 기존의VQ를 사용한 화자 인식 알고리즘의 성능보다 대체로 좋았으며, 입력 신호가 전화선을 통과한 신호이고 잡음이 있는 경우에도 유사한 결과를 얻을 수 있었다

  • PDF

화상회의 영상에서 움직이는 화자의 분할 및 추적 알고리즘 (Segmentation and Tracking Algorithm for Moving Speaker in the Video Conference Image)

  • 최우영;김한메
    • 전기전자학회논문지
    • /
    • 제6권1호
    • /
    • pp.54-64
    • /
    • 2002
  • 본 논문에서는 화상회의 영상 데이터에서 화자를 분할하고, 그 움직임을 추적하는 알고리즘을 제안하였다. 실시간 처리가 가능하도록 화자 분할과 움직임 추적 순으로 처리되는 알고리즘으로 단순화하였다. 분할 한계에서는 차분 방법에 의해 구한 움직임 정보와 영상의 밝기 정보를 사용하여 화자를 분할하였다. 분할된 화자로부터 기준 마스크 영상을 생성하였다. 움직임 추적 단계에서는 움직임 추적에 불필요한 블록들은 제외함으로써 빠르게 움직임을 추적할 수 있는 블록정합 알고리즘을 사용하여 추적하였다. 시뮬레이션에서 여러 시험 영상에 제안한 알고리즘을 적용하여 움직이는 화자를 분할하고, 그 움직임를 추적하는 올바른 결과를 얻을 수 있었다.

  • PDF

Development of a Door System by Speaker Verification Using Weighted Cepstrum and Single Average Pattern

  • Kyung, Youn-Jeong
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권2E호
    • /
    • pp.60-68
    • /
    • 1996
  • In this paper, we implement the door lock system based on pattern matching technique for speaker recognition using DTW. In this study, major features of our system are summarized as follows:(1) Make the average reference pattern using DTW. This method keeps the high recognition rate compared with the other systems whose performances degrade rapidly as time goes on. (2) Use F-ratio values of the cepstral coefficients. We find that the weighted cepstral reveals an effect on intensifying the difference between th customer and the imposter. The system hardware is composed of two parts : the door lock part and the speaker recognition processing part. We use an 8051 microprocessor in the door lock park for serial communication with host processor to open or close the lock. Using our system, we obtain speaker recognition rate of about 99.5%.

  • PDF

음성을 이용한 화자 검증기 설계 및 구현 (Design and Implementation of Speaker Verification System Using Voice)

  • 지진구;윤성일
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권3호
    • /
    • pp.91-98
    • /
    • 2000
  • 본 논문은 음성을 이용하여 개인의 신원을 확인할 수 있는 화자 검증시스템을 설계, 구현하였다. 특징 파라메터로는 선형 예측 계수나 고속 후리에 변환보다 안정적이고 계산량이 적은 장점이 있는 필터뱅크(filterbank)를 사용했으며 추출된 파라메터들을 LBG 알고리즘을 이용하여 각 개인의 코드북을 작성하였다. 작성된 코드북에 의해 특징 파라메터를 벡터양자화하여 얻어진 코드열로 화자 검증의 참조 패턴 및 입력 패턴을 생성, 이들을 동적시간 정합법을 이용하여 유사도를 측정하여 얻어진 유사도와 임계값을 비교하여 음성 의뢰자(client speaker)인지, 사칭자(impostor)인지 결정하는 화자 검증기를 설계, 구현하였다.

  • PDF

화자인식을 위한 음성 요소들의 성능분석 및 새로운 판단 논리 (Performance Analysis of Speech Parameters and a New Decision Logic for Speaker Recognition)

  • 이혁재;이병기
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.146-156
    • /
    • 1989
  • 본 논문에서는 화자인식 시스템의 인식율 향상을 도모하기 위하여 요소의 선택 및 판단 논리의 문제를 고찰하였다. 또한 화자인식 실험을 수행하는 과정에서 기준패턴의 작성이 인식율에 어떠한 영향을 미치는 가를 아울러 검토해 보았다. LPC, PARCOR 계수, LPC-cepstrum 계수등을 인식 요소로 사용하여 화자확인 오차율을 측정한 결과, 기준 패턴의 작성방법에 관계 없이 LPC-cepstrum계수의 성능이 LPC나 PARCOR 계수의 성능에 비해 우수한 것으로 나타났다. 또 화자인식율을 향상시키기 위하여 일반화된 거리 개념을 도입한 새로운 판단 논리를 제안하였다. 제안된 판단 논리는 기준화자 및 외부화자의 통계적 성질을 동시에 고려하여 각 요소들에 서로 다른 가중치를 둔다는 점이 기존의 방법들에 비해 다르다. 화자적인 실험결과 제안된 판단 논리를 적용한 경우가 기존의 방법들에 비해서 인식율이 향상된 것을 관찰할 수 있었다.

  • PDF

인공지능 스피커(AI speaker) 사례 분석을 통한 고찰 (A study on User Experience of Artificial Intelligence speaker)

  • 조규은;김승인
    • 한국융합학회논문지
    • /
    • 제9권8호
    • /
    • pp.127-133
    • /
    • 2018
  • 본 연구는 4차 산업혁명의 핵심 기술로서 활발히 개발되고 있는 인공지능 스피커의 기술 동향을 분석하고 국내외 출시된 인공지능 스피커의 사례분석을 통해 나아가야 할 방향 제안에 목적이 있다. 연구방법으로는 먼저 문헌연구를 통해 인공지능 스피커의 기술적 배경을 고찰하였으며, 이후 국내외 인공지능 스피커 사례를 조사하였다. 그 결과, 음성의 본질적 한계를 극복하고자 시각인터페이스로의 확장하려는 시도를 보인다. 이러한 시도 중 하나로 스크린 내장형 인공지능 스피커에 주목할 필요가 있다. 인공지능 스피커는 단순히 편의 기능 제공을 넘어 인간과 컴퓨터의 상호작용하는 플랫폼이 되어야 한다. 본 연구에 제시된 시사점을 바탕으로 앞으로 국내 인공지능 스피커의 서비스 발전 방향을 예측하는 것에 참고 자료로 사용될 수 있을 것을 기대한다.