• 제목/요약/키워드: Speaker recognition

검색결과 555건 처리시간 0.024초

음성인식 기술을 이용한 대화식 언어 학습기 개발 (Development of Language Study Machine Using Voice Recognition Technology)

  • 유재택;윤태섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.201-203
    • /
    • 2005
  • The best method to study language is to talking with a native speaker. A voice recognition technology can be used to develope a language study machine. SD(Speaker dependant) and SI(speaker independant) voice recognition method is used for the language study machine. MP3 Player. FM Radio. Alarm clock functions are added to enhance the value of the product. The machine is designed with a DSP(Digital Signal Processing) chip for voice recognition. MP3 encoder/decoder chip. FM tumer and SD flash memory card. This paper deals with the application of SD ad SD voice recognition. flash memory file system. PC download function using USB ports, English conversation text function by the use of SD flash memory. LCD display control. MP3 encoding and decoding, etc. The study contents are saved in SD flash memory. This machine can be helpful from child to adult by changing the SD flash memory.

  • PDF

고차 반사계수 특성을 이용한 화자인식의 성능 향상에 관한 연구 (On a Study of the Improvement of Speaker Recognition with Characteristics of High Order Reflection Coefficients)

  • 이윤주;오세영;함명규;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.667-670
    • /
    • 1999
  • As the number of reference patterns increase in the text dependant speaker recognition, the recognition performance of the system degrades. So, if reference patterns were decreased the high recognition rate can be obtained. It’s because the speaker recognition can obtain the high discrimination. In this paper, to decrease the number of reference patterns, we choose candidate reference patterns to perform pattern matching with test pattern by high order component of the reflection coefficients of the uttered speech signal Consequently the total recognition rate of the proposed method is about 2% higher than that of the conventional method.

  • PDF

화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법 (A New Power Spectrum Warping Approach to Speaker Warping)

  • 유일수;김동주;노용완;홍광석
    • 대한전자공학회논문지SP
    • /
    • 제41권4호
    • /
    • pp.103-111
    • /
    • 2004
  • 화자 정규화 방법은 화자 독립 음성인식 시스템에서 음성 인식의 정확성을 높이기 위한 성공적인 방법으로 알려져 왔다. 널리 사용되는 화자 정규화 방법은 maximum likelihood 반의 주파수 warping 방법이다. 본 논문은 주파수 warping 보다 더 좋은 화자 정규화의 성능 개선을 위해 새로운 파워 스펙트럼 warping 방법을 제안한다. 파워 스펙트럼 warping은 멜 주파수 켑스트럼 분석(MFCC) 방법을 이용하며, MFCC 처리 단계에서 필터 뱅크의 파워 스펙트럼을 조절함으로써 화자 정규화를 수행하는 간단한 메커니즘으로 갖는다. 또한 본 논문은 파워 스펙트럼 warping과 주파수 warping 방법을 서로 결합한 hybrid VTN 방법을 제안한다. 본 논문의 실험은 baseline 시스템에 각 화자 정규화 방법을 적용하여 SKKU PBW DB에서 인식 성능을 비교 분석하였다. 실험 결과를 보면 baseline 시스템의 단어 인식 성능을 기준으로 주파수 warping은 2.06%, 파워 스펙트럼 warping은 3.05%, 그리고 hybrid VTN은 4.07%의 단어 에러 율의 감소를 보였다.

문맥종속 화자인식을 위한 준비반복 벡터 양자기 설계 알고리즘 (A Semi-Noniterative VQ Design Algorithm for Text Dependent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.67-72
    • /
    • 2003
  • 이 논문은 문맥 종속 화자인식에 사용될 벡터 앙자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 기준 화자를 제외한 모든 비기준 화자에 대해 비반복적 학습 방법을 사용하여, 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 이 제안된 준비반복 벡터 양자기 설계법은, 종래의 설계법이 모든 화자의 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 준비반복 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 단지 기준 화자에 대하여만 반복 학습을 수행하고 비기준 화자에 대하여는 반복 학습을 하지 않는다. 둘째, 설계된 비기준 화자의 양자 영역은 기준화자의 양자 영역을 원용하며, 양자점은 자신의 통계 분포에 대해 최적점으로 설정된다. 수치 실험은 화자 20명에 대하여 멜켑스트럼 12차 특징벡터를 사용하였고 코드북 크기를 2부터 32까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 코드북 크기가 적절하고 학습 데이터 길이가 충분한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 준비반복 벡터 양자기 설계법은, 설계에 필요한 학습 횟수가 획기적으로 줄면서 인식률은 보존되어, 새로운 대안이 될 것으로 사료된다.

Noise-Robust Speaker Recognition Using Subband Likelihoods and Reliable-Feature Selection

  • Kim, Sung-Tak;Ji, Mi-Kyong;Kim, Hoi-Rin
    • ETRI Journal
    • /
    • 제30권1호
    • /
    • pp.89-100
    • /
    • 2008
  • We consider the feature recombination technique in a multiband approach to speaker identification and verification. To overcome the ineffectiveness of conventional feature recombination in broadband noisy environments, we propose a new subband feature recombination which uses subband likelihoods and a subband reliable-feature selection technique with an adaptive noise model. In the decision step of speaker recognition, a few very low unreliable feature likelihood scores can cause a speaker recognition system to make an incorrect decision. To overcome this problem, reliable-feature selection adjusts the likelihood scores of an unreliable feature by comparison with those of an adaptive noise model, which is estimated by the maximum a posteriori adaptation technique using noise features directly obtained from noisy test speech. To evaluate the effectiveness of the proposed methods in noisy environments, we use the TIMIT database and the NTIMIT database, which is the corresponding telephone version of TIMIT database. The proposed subband feature recombination with subband reliable-feature selection achieves better performance than the conventional feature recombination system with reliable-feature selection.

  • PDF

화자인식을 위한 퍼지상관차원 제안 (A Proposition of the Fuzzy Correlation Dimension for Speaker Recognition)

  • 유병욱;김창석;박현숙
    • 전자공학회논문지S
    • /
    • 제36S권1호
    • /
    • pp.115-122
    • /
    • 1999
  • 본 논문은 음성신호가 카오스 신호임을 확인하고 화자인식 파라미터로 사용하기 위해 상관차원을 분석하였다. 화자식별과 인식 향상을 위하여 개인의 성도특성을 매우 잘 나타내는 음성의 스트레인지 어트렉터를 구성하고 퍼지유사도를 상관차원에 적용하여 퍼지상관차원을 제안하였다. 퍼지상관차원은 어트렉터 구성점들의 상관관계글 퍼지상관적분으로 추정하고 공간차원에 따라 퍼지상관지수가 일정하게 수렴되는 차원값을 구하여 표준패턴 어트렉터와 시험패턴 어트렉터의 변동을 흡수하였다. 퍼지상관차원에 대해 화자와 표준패턴별로 식별오차의 평균값에 따른 거리를 추정함으로써 화자인식파라미터의 타당성을 검토하였다.

  • PDF

GMM을 이용한 화자 및 문장 독립적 감정 인식 시스템 구현 (Speaker and Context Independent Emotion Recognition System using Gaussian Mixture Model)

  • 강면구;김원구
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2463-2466
    • /
    • 2003
  • This paper studied the pattern recognition algorithm and feature parameters for emotion recognition. In this paper, KNN algorithm was used as the pattern matching technique for comparison, and also VQ and GMM were used lot speaker and context independent recognition. The speech parameters used as the feature are pitch, energy, MFCC and their first and second derivatives. Experimental results showed that emotion recognizer using MFCC and their derivatives as a feature showed better performance than that using the Pitch and energy Parameters. For pattern recognition algorithm, GMM based emotion recognizer was superior to KNN and VQ based recognizer

  • PDF

다층신경망 기반 화자증명 시스템에서 학습 데이터 감축을 통한 화자등록속도 향상방법 (A Method on the Improvement of Speaker Enrolling Speed for a Multilayer Perceptron Based Speaker Verification System through Reducing Learning Data)

  • 이백영;황병원;이태승
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.585-591
    • /
    • 2002
  • 다층 신경망 (MLP: multilayer perceptron)은 기존의 패턴인식 방법에 비해 몇 가지 이점을 제공하지만 학습에 비교적 많은 시간을 요구한다. 이 점은 화자증명 시스템의 인식방법으로서 다층 신경망을 사용할 경우 등록시간이 길어지는 문제를 발생시킨다. 본 논문에서는 기존의 시스템에서 채택한 화자군집 방법을 응용하여 다층 신경망 학습에 필요한 배경화자 수를 줄임으로써 화자등록 시간을 단축하는 방법을 제안하고, 지속음을 인식단위로 하는 다층 신경망 화자증명 시스템에 이 방법을 적용한 실험결과를 통해 그 효과를 확인한다.

최적화된 관측 신뢰도와 변형된 HMM 디코더를 이용한 잡음에 강인한 화자식별 시스템 (A Robust Speaker Identification Using Optimized Confidence and Modified HMM Decoder)

  • ;김진영;나승유
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.121-135
    • /
    • 2007
  • Speech signal is distorted by channel characteristics or additive noise and then the performances of speaker or speech recognition are severely degraded. To cope with the noise problem, we propose a modified HMM decoder algorithm using SNR-based observation confidence, which was successfully applied for GMM in speaker identification task. The modification is done by weighting observation probabilities with reliability values obtained from SNR. Also, we apply PSO (particle swarm optimization) method to the confidence function for maximizing the speaker identification performance. To evaluate our proposed method, we used the ETRI database for speaker recognition. The experimental results showed that the performance was definitely enhanced with the modified HMM decoder algorithm.

  • PDF

주변 잡음 환경에 강한 화자인식 알고리즘 연구 (A study on the robust speaker recognition algorithm in noise surroundings)

  • 정종순
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.47-54
    • /
    • 2005
  • 대부분의 화자인식 시스템은 음성 분석을 통해 화자의 특징을 음향 파라미터 형태로 추출하여 화자의 표준패턴을 만든 후, 입력된 미지의 음성패턴과의 차이를 계산하여 허용 여부를 최종적으로 판단한다. 화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 따라서 본 논문에서도 이를 위해서 다음과 같이 제안하였다. 벡터 양자화모델에 비잡음 환경에 강한 스펙트럼 특징과 잡음 환경에 강한 운율정보를 화자인식 시스템에 이용할 것을 제안하였다. 훈련과정에서 코드북 형성시 실제 데이터를 스펙트럼 특징과 운을 특징을 조합하여 원하는 모델 수만큼 만들었다. 인식과정에서는 입력된 테스트패턴을 각 모델간에 거리 측도로 비교하여 가부를 결정하였다. 실험결과 스펙트럼 특징과 운을 특징을 각각 이용할 경우 보다 좋은 인식율을 얻었으며, 특히 잡음 환경에서 안정된 인식율을 확보하므로 상용화의 가능성을 한층 높였다.

  • PDF