• Title/Summary/Keyword: 화자독립

Search Result 231, Processing Time 0.021 seconds

Distance Measures Based Upon Adaptive Filtering For Robust Speech Recognition In Noise (잡음 환경하에서 음성 인식을 위한 적응필터링 거리 척도에 관한 연구)

  • 정원국;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1E
    • /
    • pp.15-22
    • /
    • 1992
  • 잡음이 있는 환경하에서는 음성 인식의 성능이 현저하게 떨어지게 된다. 본 논문에서는 이렇나 잡음의 영향에 강한 거리척도를 제안하고자 한다. 우리는 잡음이 더해진 음성신호의 특징벡터를 깨끗한 음성신호의 특징벡터가 FIR 시스템을 거쳐 변형된 것이라고 가정한다. 여기서 FIR 시스템은 잡음의 영 향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템 계수잡음의 영향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템계수들은 RLS 적응 알고리즘을 이용하여 구한다. 제안된 거리척도는 적응 여파 기의 예측 오차에 관한 식으로 표시되어진다. 여러 가지 적응 여파기의 구조중 단일 채널 일차 FIR 구 조가 가장 좋은 음성 인식 성능을 보이며, 이 경우 효과적인 거리척도 알고리즘을 구할 수 있다. 여러 가지 신호대 잡음비에 관하여 화자독립 격리단어 인식 실험을 DTW 알고리즘을 이용하여 수행하여 본 결과 제안된 거리척도가 거의 모든 신호대 잡음비에 대하여 우수한 성능을 보였다.

  • PDF

A Study on Korean Digit Recognition Using Syllable Based Neural Network (음절 기반 신경망을 이용한 한국어 숫자음 인식에 관한 연구)

  • Kum Ji Soo;Lee Hyon Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.78-81
    • /
    • 1999
  • 본 논문에서는 인간의 정보처리 기술을 모방한 신경망과 한국어 음절 구성의 특성을 이용하여 음절을 기반으로 하는 신경망 음성인식 방법을 제안한다. 제안한 방법에서는 임계비율을 정의하여 한국어 음절을 구성하는 초성$\cdot$중성$\cdot$종성을 구분하였고, 구분된 음절의 일부 구간 특징을 학습 및 인식의 특징 패턴으로 사용하여 음성인식 시스템의 전체적인 처리 단계를 줄였다. 한국어 숫자음 인식에 대한 성능 평가에서 20대 남성과 여성을 대상으로 화자 종속에서 $96.5\%$의 인식률을 화자 독립에서 $93\%$의 인식률을 얻었다.

  • PDF

The Development of a Speech Recognition System with Large Channel over the PSTN and it's Field Trial (대용량 음성인식 전화정보시스템 개발 및 시험운용)

  • 장경애
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.43-47
    • /
    • 1998
  • 대용량, 대어휘, 화자독립 음성인식시스템의 개발과 1998년 3월 16일부터 일반인들을 대상으로 시험운용하고 있는 음성인식 증권서비스에 대한 것이다. 이 시스템은 상용서비스를 위하여 한 대당 120명이 동시에 사용할 수 있는 대용량 시스템으로 HMM 기술에 기반을 둔 고립단어 인식 시스템이다. 이 시스템은 음소를 기본 인식단위로 사용하여 인식단어의 추가 및 변경이 자유로우며, 추가 또는 변경된 회사명칭을 운용자의 개입 없이 자동적으로 시스템에 반영될 수 있다. 본 서비스의 개발과정에서 인식대상단어를 결정하는데 발생된 문제점과 인식단어의 변경방법 및 적용후의 효과 등을 살펴보았다.

  • PDF

Noise Processing for Speech Recognition in the Telephone Line (음성 인식을 위한 전화망에서의 잡음처리)

  • 전원석;신원호;양태영;김원구;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.4-8
    • /
    • 1998
  • 본 논문에서는 다양한 전화선 채널을 통하여 수집된 음성 데이터에 포함된 잡음 및 채널 왜곡을 제거하여 음성인식 시스템의 성능을 향상시키는 방법에 관하여 연구하였다. 전 화선을 통과한 음성에 포함된 채널 잡음 및 왜곡을 제거하는 방법으로는 음성신호를 보상하 는 방법으로 CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)과 SM(Stochastic Matching)의 성능을 비교 평가하였다. 잡음제거 방식의 성능을 평가를 위하 여 음소 단위의 반연속 HMM을 이용한 화자독립 단독음 인식을 수행하였다. 인식 실험 결 과, 멜 켑스트럼을 사용한 경우에 CMS가 가장 우수한 성능을 내었고 다음으로 SM과 SBR 순으로 나타났다. 또한 특징벡터를 주변 잡음에 강인하게 하는 가중함수(RPS, BPL)를 사용 한 켑스트럼 계수와 잡음제거 방식을 함께 사용한 경우에 인식 성능이 더욱 향상되었다.

  • PDF

An Implementation of Crossward Game using Speech Recognition and Synthesis System (음성인식 및 합성을 이용한 십자말 게임의 구현)

  • Kim Dong-Ju;Youn Jeh-Seon;Lee Young-Ju;Kim Dong-Hwan;Hong Kwang-Seok
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.29-32
    • /
    • 2001
  • 본 논문에서는 연구실에서 만든 음성인식기와 합성기를 이용하여 십자말 게임을 구현하였다. 십자말 게임에는 고사성어 600개 정도의 단어가 사용되었으며, 다른 영역별 사전을 추가 할 수 있도록 만들어졌다. 구현된 게임은 시작, 진행 등의 모든 과정이 음성으로 동작하며, 부과적인 정보는 음성 합성(TTS)에 의해 이루어진다. 십자말 게임에 사용되는 단어의 배열은 매번 랜덤하게 선택되도록 구성되며, 음성 인식기는 VCCV (Vowel + Consonant + Consonant + Vowel) 기반의 화자독립으로 구현되었다. 선택된 문제에 대한 설명은 텍스트로 보여주면서, 동시에 TTS 시스템에 의해 음성으로 출력된다.

  • PDF

Performance Improvement of Connected Digit Recognition by Considering Phoneme Variations in Korean Digit. (한국어 숫자음에서의 음운변화를 고려한 연결숫자 인식의 성능향상)

  • Song Myung Gyu;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.105-108
    • /
    • 2001
  • 한국어 숫자는 각 숫자가 단음절로 이루어져 있으며, 연속적으로 발음될 때 인접 숫자들의 상호조음현상에 의해 각 숫자의 고유 발음이 변화하고, 또한 그 숫자들의 경계도 모호해지는 문제점이 있다. 한편 연속적인 숫자의 발성을 기대하는 인식시스템에 반하여 일부 사용자는 숫자들을 고려시켜서 발성하기도 한다. 이는 연결숫자의 음운현상만을 고려한 인식 시스템에서는 성능저하의 한 원인이 된다 본 논문에서는 연결숫자의 인식성능 향상을 위해서 한국어 숫자들의 음운 변화를 고려하여 변이음군을 정하였으며, 사용자의 여러 가지 발성형태에 따른 다양한 음운 현상의 변화를 흡수 할 수 있도록 인식 네트웍을 구성하는 방식을 검토하였다. 전화망 4연숫자음을 이용한 화자독립 인식실험을 통해서 한국어 숫자에서 자주 오인식 되는 '이', '오', '일' 인식 성능이 각각 $4..2\%$, $4.2\%$, $2.9\%$씩 향상되었으며, 인식속도도 $33\%$의 개선이 있었다

  • PDF

A Study on the Improvement of Speech Recognition System using Noise Filtering. (잡음 필터를 이용한 음성 인식 시스템의 성능향상에 관한 연구)

  • Lee Yang-Gyo;Kim Hack-Jin;Kim Soon-Hyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.77-80
    • /
    • 2001
  • 본 논문에서는 HMM알고리즘을 이용한 중규모급, 화자독립, 연결음성시스템에서의 인식성능 향상을 위해, 단어 인식기가 가지고 있는 고려사항들 중에 잡음(Noise)에 강한 모델을 위해 동작환경에 따른 적절한 필터를 구성하고 이차적으로 특징 파라미터를 개선하여 Noise를 보상하는 방법을 적용하였다. 인식기의 성능에 큰 영향을 미치는 요인중 하나인 전처리 기능의 평가로 성능향상의 요인을 찾아 음질개선을 위한 보다나은 잡음보상 방법을 제시하고자 하였다.

  • PDF

A Study on the Non-keyword Models in the Keyword Spotting System using the Phone-Based Hidden Markov Models (음소 HMM을 이용한 Keyword Spotting 시스템에서의 Non-Keyword 모델에 관한 연구)

  • 이활림
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.83-87
    • /
    • 1995
  • Keyword Spotting 이란 음성인식의 한 분야로서 입력된 음성에서 미리 정해진 특정단어 또는 복수 개의 단어들 중 어느 것이 포함되어 있는지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다. 음소모델을 이용하여 Keyword Spotting 시스템을 구성할 경우 새로운 keyword의 추가 또는 변경이 필요할 때 단순히 그 발음사전에 따라 음소모델들을 연결시킴으로써 keyword 모델을 구성할 수 있으므로 단어모델에 의한 방법에 비해 장점이 있다. 본 논문에서는 triphone을 기본단위로 하는 HMM 에 의해 keyword 모델을 구성하고, non-keyword 모델 및 silence 모델을 함께 사용하는 keyword spotting 시스템을 구성하였다. 이러한 시스템에서 non-keyword 모델은 keyword와 keyword가 아닌 음성을 구분 지어주는 역할을 하므로 인식성능의 향상을 위해서는 적절한 non-keyword 모델의 선택이 필요하다. 본 논문에서는 10개의 state를 갖는 단일모델, 조음방법에 의해 음소들을 clustering 한 모델, 그리고 통계적 방법에 의해 음소들을 clustering 한 모델들을 각각 non-keyword 모델로 사용하여 그 성능을 비교하였다. 6개의 keyword를 대상으로 한 화자독립 keyword spotting 실험결과, 통계적 방법에 의해 음소들을 6 또는 7개의 그룹으로 clustering 한 방법이 가장 우수한 인식성능을 나타냈다.

  • PDF

An Experimental Speech Translation System for Hotel Reservation (호텔예약을 위한 자동통역 시스템)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF

Speech Recognition in Time-varying Noisy Environments using the Histogram Technique (히스토그램 처리방법을 이용한 시변 잡음환경에서의 음성인식)

  • 권영욱;김형순
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.3
    • /
    • pp.47-51
    • /
    • 1998
  • 잡음 환경에서의 음성인식을 위해서는 일반적으로 전처리 과정에서 잡음의 스펙트 럼을 잘 추정할 필요가 있다. 본 논문에서는 시변잡음 환경에서 히스토그램 처리방법에 의 해 잡음의 스펙트럼을 추정하고 이를 제거하는 방법으로 스펙트럼 차감법을 사용하였다. 히 스토그램 처리방법은 음성/비음성 구간의 구분을 할 필요가 없으며 서서히 변화하는 잡음의 스펙트럼도 추정할 수 있다는 점에서 기존 방식에 비해 장점을 지닌다. 다양한 SNR 조건하 에서 시간에 따라 에너지, 그리고 주파수가 변화하는 유색 가우시안 잡음을 부가시킨 음성 에 대해, 화자독립 고립단어 인식실험을 수행하였다. 실험결과, 히스토그램 처리방법에 기반 을 둔 스펙트럼 차감법을 적용할 경우가 기존의 잡음 스펙트럼 추정방법에 비해 인식성능이 우수하였다.

  • PDF