• Title/Summary/Keyword: 화자독립

Search Result 231, Processing Time 0.022 seconds

Contents Navigation System using Speech Recognition (음성인식 기반 컨텐츠 네비게이션 시스템)

  • Kim, Kee-Beak;Choi, Jong-Ho
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language (연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발)

  • Kim, Do-Yeong;Park, Yong-Kyu;Kwon, Oh-Wook;Un, Chong-Kwan
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

Frame Selection, Hybrid, Modified Weighting Model Rank Method for Robust Text-independent Speaker Identification (강건한 문맥독립 화자식별을 위한 프레임 선택방법, 복합방법, 수정된 가중모델순위 방법)

  • 김민정;오세진;정호열;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.8
    • /
    • pp.735-743
    • /
    • 2002
  • In this paper, we propose three new text-independent speaker identification methods. At first, to exclude the frames not having enough features of speaker's vocal from calculation of the maximum likelihood, we propose the FS(Frame Selection) method. This approach selects the important frames by evaluating the difference between the biggest likelihood and the second in each frame, and uses only the frames in calculating the score of likelihood. Our secondly proposed, called the Hybrid, is a combined version of the FS and WMR(Weighting Model Rank). This method determines the claimed speaker using exponential function weights, instead of likelihood itself, only on the selected frames obtained from the FS method. The last proposed, called MWMR (Modified WMR), considers both original likelihood itself and its relative position, when the claimed speaker is determined. It is different from the WMR that take into account only the relative position of likelihood. Through the experiments of the speaker identification, we show that the all the proposed have higher identification rates than the ML. In addition, the Hybrid and MWMR have higher identification rate about 2% and about 3% than WMR, respectively.

Comparison of MEL-LPC and LPC-MEL Analysis Method for the Korean Speech Recognition Systems. (한국어 음성 인식 시스템을 위한 MEL-LPC 분석 방법과 LPC-MEL 분석 방법의 비교)

  • 김주곤;김범국;정호열;정현열
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.833-836
    • /
    • 2001
  • 본 논문에서는 한국어 음성인식 시스템의 성능 향상을 위해 청각 주파수 분해능을 가진 MEL-LPC Cepstrum을 음소단위의 HMM(Hidden Markov Model)을 기반으로 하는 인식 시스템에 적용하여 그 결과를 비교 검토하였다. 선형예측(LP) 분석 후에 후처리로서 주파수를 왜곡시킨 LPC-MEL 분석이 계산량이 적고 효과적이라 일반적으로 많이 사용되고 있으나 주파수 분해능은 많이 개선되지 않는다. 따라서 본 논문에서는 주파수 분해능을 개선하기 위해, 원 음성신호로부터 직접적으로 멜주파수로 왜곡시킨 후 선형 예측 분석을 수행하는 MEL-LPC 분석방법을 이용한 음소기반의 화자 독립 음성인식 시스템을 구성하여 기존의 LPC-MEL 분석방법과 비교실험을 통하여 MEL-LPC 분석방법의 유효성을 검토하였다. 실험에 사용한 음성 데이터베이스는 음소 및 단어 인식실험에서는 ETRI 445단어 DB, 연속 숫자음인식 실험에서는 KLE 4연속 숫자음 DB를 사용하였다. 화자 독립 음소인식 실험의 경우, 묵음을 제외한 47개의 유사 음소에 대하여 4상태 3출력의 Left-to-Right 모델을이용하였다. 단어 및 연속 숫자음 인식 실험의 경우, 유한상태 네트워크에 의한 OPDP법을 이용하였다. 화자 독립 음소, 단어 및 4연속 숫자음 인식 실험결과, 기존의 LPC-MEL Cepstrum을 사용한 경우보다 MEL-LPC Cepstum을 사용한 경우가 더 높은 인식률을 나타내어 한국어 음성인식 시스템에서 MEL-LPC 분석방법의 유효성을 확인할 수 있었다.

  • PDF

Speech Data Base Construction at LG Electronics (LG 전자의 음성 DB 구축 현황)

  • 김락용
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.280-282
    • /
    • 1995
  • 음성인식시스템 개발을 위해서는 음성 데이터베이스 구축이 필요하며 이를 위해 LG 전자에서 구축한 두 가지 데이터베이스에 관해서 기술한다. LG 전자에서 보유한 음성 데이터 베이스는 차량 및 전화 선로상에 존재하는 잡음이 포함된 상태에서 수집한 숫자음과 제어 단어로 이루어져 있으며 마이크와 핸드셋을 통과한 음서잉 사용되었으며, 화자 독립 음성 인식을 위한 400-500 명분의 화자로 구성되어 있다.

  • PDF

A study on the Speaker Recognition using the Pitch (피치계수를 이용한 화자인식에 관한 연구)

  • 김에녹
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.4
    • /
    • pp.471-480
    • /
    • 2001
  • In this thesis, we perform the experiment of speaker recognition by identifying vowels in the pronunciation of each speaker using Adaptive Resource Theory 2(ART2) model. The 5 adult males and 5 adult females pronounce from 0 to 9 digits. We extract the vowels from the pronunciation of each speaker first, we are extracted characteristic coefficient through a pitch detection algorithm, a LPC analysis, and a LPC cepstral analysis to generate an input pattern of ART2. The experimental results showed that pitch coefficients are somewhat more enhanced than LPC or LPC cepstral coefficient.

  • PDF

Performance Analysis of Speech Recognition by Increasing the Number of Reference Speaker (피춰 추출 관점에서 기준 화자 수 증가에 따른 음성 인식 성능 분석)

  • 이철희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.111-114
    • /
    • 1998
  • 음성을 인식하기 위해서는 주어진 음성을 미리 정한 기준 음성과 비교하여 가장 유사한 것을 갖는 과정을 거치게 된다. 같은 단어라도 화자에 따라서 발음 속도, 음의 강약이 틀리므로 화자 독립 음성 인식을 위해서는 여러 화자가 발음한 음성을 기준 음성으로 사용하여 인식 성능을 향상시킬 수 있다. 그러나 화자 수를 증가시켜도 인식 성능의 향상에는 한계를 보이고 있다. 이러한 문제점은 현재 음성에서 추출되는 피춰가 인식에 필요한 정보를 충분히 포함하지 않는 것과 인식 알고리즘의 효율성 등에서 원인을 찾을 수 있다. 본 논문에서는 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 멜켑스트럼을 추출하고 DTW에 의해 인식을 수행하여 피춰 추출의 관점에서 화자 수 증가에 따른 인식률의 변화와 그 한계에 대해서 분석한다.

  • PDF

A Study on Noise-Robust Speaker Recognition Methods Based on Ensemble of Decision Scores (앙상블 기법을 이용한 잡음 환경에서의 화자인식 방법에 관한 연구)

  • Yang, Joon-Young;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.457-459
    • /
    • 2018
  • 화자인식 기술은 주어진 임의의 두 발화로부터 발화자의 일치 여부를 판단하여 등록된 화자의 목록으로부터 임의로 입력된 발화의 발화자를 식별하는 기술이다. 그러나, 배경잡음이나 반향이 존재하는 경우에는 음성신호가 왜곡되어 화자인식 성능이 저하될 수 있기 때문에 별도의 음성신호 전처리 알고리즘을 함께 사용할 수 있다. 본 논문에서는 배경잡음이 존재하는 환경에서 다수의 마이크로폰을 통해 수집한 음성신호에 대해 화자인식을 수행하는 방법으로써 parametric multi-channel Wiener filter (PMWF)를 이용한 화자일치 점수 앙상블 기법을 제안한다. 입력신호의 신호대잡음비를 기준으로 점수 결합 시 사용되는 결합계수를 정하고, Wiener filter 로 잡음을 제거하여 얻은 점수와 minimum variance distortionless response (MVDR) 빔포머를 통해 잡음을 제거하여 얻은 정수를 가중결합하는 방식으로 동일오류율을 측정한 결과, 각 전처리 알고리즘을 독립적으로 사용하여 점수를 계산한 경우보다 우수한 성능을 보임을 확인할 수 있었다.

A Study on VQ/HMM using Nonlinear Clustering and Smoothing Method (비선형 집단화와 완화기법을 이용한 VQ/HMM에 관한 연구)

  • 정희석;강철호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.3
    • /
    • pp.35-42
    • /
    • 1999
  • In this paper, a modified clustering algorithm is proposed to improve the discrimination of discrete HMM(Hidden Markov Model), so that it has increased recognition rate of 2.16% in comparison with the original HMM using the K-means or LBG algorithm. And, for preventing the decrease of recognition rate because of insufficient training data at the training scheme of HMM, a modified probabilistic smoothing method is proposed, which has increased recognition rate of 3.07% for the speaker-independent case. In the experiment applied the two proposed algorithms, the average rate of recognition has increased 4.66% for the speaker-independent case in comparison with that of original VQ/HMM.

  • PDF

A Study On Continuous Digits Recognition Using the Neural Network (신경망을 이용한 연속 숫자음 인식에 관한 연구)

  • 이성권;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.4
    • /
    • pp.3-13
    • /
    • 1998
  • 본 논문은 음성 다이어링 시스템을 구현하기 위한 한국어 단독 숫자음 및 연속 숫 자음 인식에 관한 것이다. 단독 숫자음의 인식은 미지의 입력 음성을 재귀 신경망을 이용하 여 모델링된 각 모델에 인가하고, 신경 회로망의 출력 노드의 상태열을 검사하여 적절한 상 태 전이를 하며 최고의 확률값을 출력하는 모델을 인식된 결과로 출력한다. 연속 숫자음의 인식은 미지의 연속 숫자음을 재귀 신경 회로망을 이용한 연속 숫자음 모델에 입력하고, 신 경 회로망의 출력에 대하여 적절한 상태 전이에 대한 검사와 레벨 빌딩(Level Building)을 수행하여 최소의 오차를 가지는 모델열을 인식된 결과로 출력한다. 재귀 신경 회로망을 이 용하여 음절 모델을 만드는 과정에서 재귀 노드는 예상치가 주어지지 않으므로 신경 회로망 의 학습에서 제외되어 현저한 학습 속도의 저하를 가져온다. 따라서 본 논문에서는 재귀 신 경 회로망의 학습 속도를 향상시키기 위한 2가지 방법을 제안 한다. 첫 번째는 재귀 신경 회로망의 재귀 노드의 예상치를 실험적으로 주어줌으로써 학습 속도의 향상을 도모하였다. 두 번째는 음절 모델의 출력노드의 개수와 음절 모델의 세그먼트 경계를 알고리듬을 이용하 여 자동적으로 조절하였다. 실험결과, 단독어의 경우 음절 '에'에 포함하는 한국어 11개의 숫 자음에 대하여 화자 종속의 경우 97.3%, 화자 독립의 경우 80.5%의 인식률을 얻었으며, 연 속 숫자음의 경우는 21종류의 연속 숫자음에 대하여 화자 종속에서 88.2%, 화자 독립의 경 우 81.3%의 인식률을 얻을 수 있었다.

  • PDF