• 제목/요약/키워드: Automatic Speech Recognition

검색결과 213건 처리시간 0.024초

음성인식 시스템에서의 원격 음성입력기의 성능평가 (A Performance of a Remote Speech Input Unit in Speech Recognition System)

  • 이광석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.723-726
    • /
    • 2009
  • 본 연구에서는, 음성인식 시스템에서의 마이크 어레이 기반으로 한 beamforming 방법을 기반으로 음성신호에 대한 에러감소 알고리듬의 성능평가를 위한 시뮬레이션 하였으며 그 성능을 분석하였다. 또한, 마이크 어레이로 부터 취득한 음성신호로 부터 각 채널에 대한 최대 신호대잡음비 구하고 음성신호별로 신호대잡음비를 비교 검토하였다. 음성 인식률은 경우1에서는 54.2%에서 61.4%로, 경우2에서는 더 낮은 신호대잡음비로 41.2%에서 50.5%로 각각 개선됨을 알 수 있었다. 따라서 평균 에러감소율은 경우1에서 15.7%를 보였다.

  • PDF

A New Endpoint Detection Method Based on Chaotic System Features for Digital Isolated Word Recognition System

  • 장한;정길도
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2009년도 정보 및 제어 심포지움 논문집
    • /
    • pp.37-39
    • /
    • 2009
  • In the research of speech recognition, locating the beginning and end of a speech utterance in a background of noise is of great importance. Since the background noise presenting to record will introduce disturbance while we just want to get the stationary parameters to represent the corresponding speech section, in particular, a major source of error in automatic recognition system of isolated words is the inaccurate detection of beginning and ending boundaries of test and reference templates, thus we must find potent method to remove the unnecessary regions of a speech signal. The conventional methods for speech endpoint detection are based on two simple time-domain measurements - short-time energy, and short-time zero-crossing rate, which couldn't guarantee the precise results if in the low signal-to-noise ratio environments. This paper proposes a novel approach that finds the Lyapunov exponent of time-domain waveform. This proposed method has no use for obtaining the frequency-domain parameters for endpoint detection process, e.g. Mel-Scale Features, which have been introduced in other paper. Comparing with the conventional methods based on short-time energy and short-time zero-crossing rate, the novel approach based on time-domain Lyapunov Exponents(LEs) is low complexity and suitable for Digital Isolated Word Recognition System.

  • PDF

음성인식을 이용한 자동 호 분류 철도 예약 시스템 (A Train Ticket Reservation Aid System Using Automated Call Routing Technology Based on Speech Recognition)

  • 심유진;김재인;구명완
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.161-169
    • /
    • 2004
  • This paper describes the automated call routing for train ticket reservation aid system based on speech recognition. We focus on the task of automatically routing telephone calls based on user's fluently spoken response instead of touch tone menus in an interactive voice response system. Vector-based call routing algorithm is investigated and mapping table for key term is suggested. Korail database collected by KT is used for call routing experiment. We evaluate call-classification experiments for transcribed text from Korail database. In case of small training data, an average call routing error reduction rate of 14% is observed when mapping table is used.

  • PDF

잡음 환경하에서의 PSO-NCM을 이용한 거절기능 성능 향상 (Enhancement of Rejection Performance using the PSO-NCM in Noisy Environment)

  • 김병돈;송민규;최승호;김진영
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.85-96
    • /
    • 2008
  • Automatic speech recognition has severe performance degradation under noisy environments. To cope with the noise problem, many methods have been proposed. Most of them focused on noise-robust features or model adaptation. However, researchers have overlooked utterance verification (UV) under noisy environments. In this paper we discuss UV problems based on the normalized confidence measure. First, we show that UV performance is also degraded in noisy environments with the experiments of an isolated word recognition. Then we observe how the degradation of UV performances is suffered. Based on the UV experiments we propose a modeling method of the statistics of phone confidences using sigmoid functions. For obtaining the parameters of the sigmoidal models, the particle swarm optimization (PSO) is adopted. The proposed method improves 20% rejection performance. Our experimental results show that the PSO-NCM can apply noise speech recognition successfully.

  • PDF

국제 음소의 자동 생성을 활용한 연속음성인식에 관한 연구 (A Study on the Continuous Speech Recognition for the Automatic Creation of International Phonetics)

  • 김석동;홍성수;신좌철;우인성;강흥순
    • 한국게임학회 논문지
    • /
    • 제7권2호
    • /
    • pp.83-90
    • /
    • 2007
  • 자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.

  • PDF

음성신호를 이용한 감정인식 (An Emotion Recognition Technique using Speech Signals)

  • 정병욱;천성표;김연태;김성신
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.494-500
    • /
    • 2008
  • 휴먼인터페이스 기술의 발달에서 인간과 기계의 상호작용은 중요한 부분이다. 감정인식에 대한 연구는 이러한 상호작용에 도움을 준다. 본 연구는 개인화된 음성신호에 대하여 감정인식 알고리즘을 제안하였다. 감정인식을 위하여 PLP 분석을 이용하여 음성신호의 특징으로 사용하였다. 처음에 PLP 분석은 음성인식에서 음성신호의 화자 종속적인 성분을 제거하기 위하여 사용되었으나 이후 화자인식을 위한 연구에서 PLP 분석이 화자의 특징 추출을 위해 효과적임을 설명하고 있다. 그래서 본 논문은 PLP 분석으로 만들어진 개인화된 감정 패턴을 이용하여 쉽게 실시간으로 음성신호로부터 감정을 평가하는 알고리즘을 제안하였다. 그 결과 최대 90%이상의 인식률과 평균 75%의 인식률을 보였다. 이 시스템은 간단하지만 효율적이다.

국제 음소 기술에 의한 언어에 독립적인 발음사전 생성에 관한 연구 (A Study on the Language Independent Dictionary Creation Using International Phoneticizing Engine Technology)

  • 신좌철;우인성;강흥순;황인수;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권1E호
    • /
    • pp.1-7
    • /
    • 2007
  • One result of the trend towards globalization is an increased number of projects that focus on natural language processing. Automatic speech recognition (ASR) technologies, for example, hold great promise in facilitating global communications and collaborations. Unfortunately, to date, most research projects focus on single widely spoken languages. Therefore, the cost to adapt a particular ASR tool for use with other languages is often prohibitive. This work takes a more general approach. We propose an International Phoneticizing Engine (IPE) that interprets input files supplied in our Phonetic Language Identity (PLI) format to build a dictionary. IPE is language independent and rule based. It operates by decomposing the dictionary creation process into a set of well-defined steps. These steps reduce rule conflicts, allow for rule creation by people without linguistics training, and optimize run-time efficiency. Dictionaries created by the IPE can be used with the Sphinx speech recognition system. IPE defines an easy-to-use systematic approach that can lead to internationalization of automatic speech recognition systems.

음성인식을 위한 주파수 부대역별 효과적인 특징추출 (Effective Feature Extraction in the Individual frequency Sub-bands for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.598-603
    • /
    • 2003
  • 본 논문에서는 주파수 부대역마다 최적의 특징추출을 위해서, 음성인식률을 기준으로 최적의 방법을 선택한다. 다중대역 음성인식 접근을 사용하여 각기 다른 주파수 영역에서 특징벡터를 독립적으로 추출함으로써 부대역별로 다른 특징추출 방법을 적용할 수 있었다. 저주파 대역의 음성은 비교적 스펙트럼의 구조가 명확하므로 전극모델을 사용하는 것이 효과적이었고, 고주파 대역에서는 비모수적인 변환방법인 이산 코사인 변환을 사용한 켑스트럼이 효과적이었다. 부대역별로 효과적인 특징추출 방법을 사용함으로써, 각 주파수 부대역에 포함된 음성인식을 위한 언어정보를 보다 효과적으로 추출할 수 있었다. 음성인식 실험결과, 제안한 방법은 전대역 특징추출보다 우수한 성능을 나타내었다.

감성인식과 핵심어인식 기술을 이용한 고객센터 자동 모니터링 시스템에 대한 연구 (A Study on the Automatic Monitoring System for the Contact Center Using Emotion Recognition and Keyword Spotting Method)

  • 윤원중;김태홍;박규식
    • 인터넷정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.107-114
    • /
    • 2012
  • 본 논문에서는 고객의 불만관리 및 상담원의 상담품질 관리를 위한 고객센터 자동 모니터링 시스템에 대한 연구를 진행하였다. 제안된 시스템에서는 평상/화남의 2가지 감성에 대한 음성 감성인식 기술과 핵심어인식 기술을 사용하여 상담내역에 대한 보다 정확한 모니터링이 가능하고, 욕설, 성희롱 등의 언어폭력을 일삼는 고객에 대한 전문상담 및 관리가 가능하다. 서로 다른 환경에서 구축된 이종 음성 DB를 이용하여 불특정 고객들의 질의 음성에 안정적으로 동작할 수 있는 알고리즘을 개발하였으며, 실제 고객센터 상담내역 데이터를 이용하여 성능을 검증하였다.

잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법 (Speech enhancement method based on feature compensation gain for effective speech recognition in noisy environments)

  • 배아라;김우일
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.51-55
    • /
    • 2019
  • 본 논문에서는 잡음 환경에 강인한 음성 인식 성능을 위해 특징 보상 이득을 이용한 음성 향상 기법을 제안한다. 본 논문에서는 변분모델 생성 기법을 채용한 병렬 결합된 가우스 혼합 모델(Parallel Combined Gaussian Mixture Model, PCGMM) 기반의 특징 보상 기법으로부터 계산할 수 있는 특징 보상 이득을 이용하는 음성 향상 기술을 제안한다. 불일치 환경 음성 인식 시스템 적용 환경에서 본 논문에서 제안하는 기법이 실험 결과에서 기존의 전처리 기법 및 이전 연구에서 제안된 특징 보상 기반의 음성 향상 기법에 비해 다양한 잡음 및 SNR(Signal to Noise Ratio) 조건에서 월등한 인식 성능을 나타내는 것을 확인한다. 또한 잡음 모델 선택 기법을 적용함으로써 음성 인식 성능을 유사한 수준으로 유지하면서 계산량을 대폭적으로 감축할 수 있다.