• Title/Summary/Keyword: 음성인식알고리즘

Search Result 447, Processing Time 0.034 seconds

Implementation of an Efficient Voice Transmission System in Bluetooth Network Rnvironments (블루투스 네트워크 환경에서의 효율적인 음성전송 시스템 구현)

  • Kim, Myung-Jong;Park, Ji-Hun;Kim, Hong-Kook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2008.02a
    • /
    • pp.125-128
    • /
    • 2008
  • IPTV의 상용화에 맞추어 사용자와 TV간의 정보 교환에 의한 대화형 서비스들이 제공되고 있으며, 특히 음성인식 기술은 이러한 서비스를 실현하기 위한 중요한 기술 중의 하나로 대두되고 있다. TV에서의 음성인식 수행을 위해서는 가정환경과 같은 제한된 공간에서 효율적으로 사용자의 음성을 TV에 전송할 수 있는 근거리 무선통신 수단이 필요하게 된다. 특히, 리모트 컨트롤러와 같은 저전력 시스템 환경에서 구현이 가능해야 한다. 따라서 이러한 제한된 조건에서 최적의 성능을 갖는 음성 전송 시스템 개발이 요구되고 있다. 본 논문에서는 블루투스 환경 하에서 음성인식을 위해 필요한 음성전송 시스템을 실시간 구현한다. 효율적인 음성전송을 위해 G.711을 기본 코덱으로 사용하며, 음성전송 시 발생하는 패킷손실에 따른 음성 품질 저하를 줄이기 위해 G.711 패킷손실 은닉 알고리즘을 음성전송 시스템에 적용한다. 특히 G.711 패킷 손실 은닉 알고리즘 수행을 위해 블루투스 프로토콜 스택application layer에 RTP 프로토콜을 적용하여 패킷 손실 여부를 확인하고, 패킷 손실 발생 시 패킷손실 은닉 알고리즘을 통해 음성의 품질 저하를 줄인다. 구현된 시스템의 성능을 평가한 결과, G.711 패킷 손실 알고리즘을 적용하여 2~10%의 패킷손실 환경에서 14.7%의 음질개선을 얻을 수 있었다.

  • PDF

Voice Recognition using a Phoneme based Similarity Algorithm in Home Networks (음소 기반의 유사율 알고리즘을 이용한 Home Network 환경에서의 음성 인식)

  • Lee, Chang-Sub;Yu, Jae-Bong;Park, Joon-Seok;Yang, Soo-Ho;Kim, Yu-Seop;Park, Chan-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.767-770
    • /
    • 2005
  • 네트워크상에서 전달되는 음성데이터는 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 홈 네트워크를 제어하는데 있어서 음성 인식률을 향상시키기 위해서 음성 데이터를 입력받아, 이를 음소단위 기반의 유사율 알고리즘을 적용시켜 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 음소단위 기반의 유사율 알고리즘과 다중발화를 이용했을 때 Threshold 값이 85% 일 경우 사전에 구축된 단어와 매칭된 인식률은 100%였으며, 사전에 없는 단어의 오인식률은 2%로 감소되었다.

  • PDF

Morpheme Graph Generation with HMM based Continuous Speech Recognition (HMM에 기반한 연속음성인식에서의 형태소 그래프 생성)

  • Choi, Joon-Ki;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.500-504
    • /
    • 1997
  • 본 논문에서는 형태소 그래프를 정의하고 이를 한국어 연속 음성 인식의 결과로서 사용함과 동시에 한국어의 자연어 처리를 위한 지식 표현 방법으로 사용한다. 또한 형태소 그래프를 연속 음성 인식과정에서 효율적으로 생성하는 알고리즘으로서 Tree-Trellis 탐색 알고리즘을 소개한다. 한국어 연속 음성 인식기는 HMM 인식기를 사용하며 탐색 알고리즘 또한 HMM 음소 인식기의 사용을 전제로 한다. 실험 DB로는 한국과학기술원 통신연구실에서 제작한 3000 단어급의 무역상담관련 DB를 사용하였다.

  • PDF

A Study on Speaker Adaptation in Continuous Digits Speech Recognition (연속숫자 음성인식에서 화자 적응에 관한 연구)

  • 최광표
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.319.2-322
    • /
    • 1998
  • 본 논문에서는 반음절 단위 HMM을 이용한 연속 숫자 음성인식 시스템의 2단계로 이루어지는 화자 적응 알고리즘을 수행하였다. 음성인식 시스템에서 사용되는 훈련데이터의 양이 많더라도 발성속도, 발성크기 등의 화자 발성 습관에 따라 화자독립 음성인식 시스템에서는 많은 문제점들이 발생하게 된다. 불특정 화자를 대상으로 한 음성 인식에 있어서 개인차에 의한 변동을 대처하는 방법으로 유효한 음향적 특성을 추출하기 위해 스펙트럼의 동적인(Dynamic) 특성을 주로 이용하고 있다. 따라서 본 논문에서는 화자 적을 기법의 하나인 frequency warped spectral matching 방법을 연속숫자 음성 인식시스템에 적용하였으며, 이때 인식에 의한 적절한 화자별 스케일링 계수 선정 방법을 수행하여 오인식률이 감소함을 확인하였다.

  • PDF

A Basic Study on Automation of the Subjective Evaluation using Speech Recognition (음성인식을 이용한 주관평가의 자동화에 관한 기초연구)

  • 한화영;고한우;윤용현;조택동
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2000.11a
    • /
    • pp.113-117
    • /
    • 2000
  • 수작업으로 이루어지고 있는 환경의 영향이나 작업의 영향에 따른 정신피로나 신체피로의 주관적인 평가를 자동화하기 위한 방법에 대하여 논하였다. 사람의 가장 자연스러운 의사소통인 평가어를 척도로 하여 평가가 이루어지는 음성인식기술을 응용한 주관평가법에 대하여 연구하였다. 주관평가의 자동화를 위하여 우선, 평가어에 대한 음성 인식을 한 후 인식된 평가 결과 데이터를 이용하여 설문지를 자동 생성시킴과 동시에 파일 형태로 저장시켰다. 음성 인식 알고리즘으로는 DTW(Dynamic Time Warping)인식 알고리즘을 사용하였고. 설문지 질의 내용은 집중도 평가를 이용하였다. 인식실험은 설문에 대한 응답에 필요한 평가어를 대상으로 하였다.

  • PDF

Speaker Adaptation in VQ and HMM Based Speech Recognition (VQ와 HMM을 이용한 음성인식에서 화자적응에 관한 연구)

  • 이대룡
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1991.06a
    • /
    • pp.54-57
    • /
    • 1991
  • 본 논무에서는 HMM과 VQ를 이용한 고립단어에 대한 화자종속 및 화자독립 음성인식시스템을 만들고 여기에 화자적응을 하는 방법에 대한 연구를 했다. 화자적응방법에는 크게 VQ코드북을 적응시키는 방법과 HMM패러미터블 적응시키는 방법이 있다. 코드북적응을 하는 방법으로서 기존코드북에 대해 새로운화자의 적응음성을 양자화한 뒤 각 코드벡터에 해당하는 적응음성의 평균을 구해서 새로운 화자의 코드북을 구해주는 방법과 기준코드북에 대해 새로운화자의 적응음성을 양자화할 때 HMM의 각 상태에서 각각의 코드벡터를 발생할 확률을 거리오차의 계산에서 고려해 비록 거리오차는 크지만 그 코드벡터를 발생할 확률이 매우 높으면 적응음성이 그 코드벡터에 index되게해서 각 코드벡터에 해당하는 모든 적응음성데이타의 평균을 새로운 코드북으로 하는 두가지 알고리즘을 제안한다. 이렇게 함으로써 기존의 기준코드북을 초기 코드북으로해서 LBG알고리즘을 사용해서 적응음성데이타에 대한 새로운 코드북을 만드는 방법에 비해 5-10배의 계산시간을 감소하게 된다. 이 새로운 코드북으로 적응음성데이타를 다시 index해서 이 index된 음성렬로 HMM패러미터를 적응했다. 제안된 알고리즘이 코드북적응을 하는 경우에 기존의 적응방법에 비해 5-10배의 계산 시간을 단축하면서 인식률에서는 더 나은결과를 얻었다. 또 같은 적응방법에 대해서 화자종속모델 보다는 화자독립모델에 대해서 화자적응하는 것이 더 나은 인식결과를 보여주었다.

  • PDF

A Study on Numeral Speech Recognition Using Integration of Speech and Visual Parameters under Noisy Environments (잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구)

  • Lee, Sang-Won;Park, In-Jung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.38 no.3
    • /
    • pp.61-67
    • /
    • 2001
  • In this paper, a method that apply LP algorithm to image for speech recognition is suggested, using both speech and image information for recogniton of korean numeral speech. The input speech signal is pre-emphasized with parameter value 0.95, analyzed for B th LP coefficients using Hamming window, autocorrelation and Levinson-Durbin algorithm. Also, a gray image signal is analyzed for 2-dimensional LP coefficients using autocorrelation and Levinson-Durbin algorithm like speech. These parameters are used for input parameters of neural network using back-propagation algorithm. The recognition experiment was carried out at each noise level, three numeral speechs, '3','5', and '9' were enhanced. Thus, in case of recognizing speech with 2-dimensional LP parameters, it results in a high recognition rate, a low parameter size, and a simple algorithm with no additional feature extraction algorithm.

  • PDF

Distance Measures Based Upon Adaptive Filtering For Robust Speech Recognition In Noise (잡음 환경하에서 음성 인식을 위한 적응필터링 거리 척도에 관한 연구)

  • 정원국;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1E
    • /
    • pp.15-22
    • /
    • 1992
  • 잡음이 있는 환경하에서는 음성 인식의 성능이 현저하게 떨어지게 된다. 본 논문에서는 이렇나 잡음의 영향에 강한 거리척도를 제안하고자 한다. 우리는 잡음이 더해진 음성신호의 특징벡터를 깨끗한 음성신호의 특징벡터가 FIR 시스템을 거쳐 변형된 것이라고 가정한다. 여기서 FIR 시스템은 잡음의 영 향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템 계수잡음의 영향을 모델링한 것이라고 할 수 있다. 미지의 FIR 시스템계수들은 RLS 적응 알고리즘을 이용하여 구한다. 제안된 거리척도는 적응 여파 기의 예측 오차에 관한 식으로 표시되어진다. 여러 가지 적응 여파기의 구조중 단일 채널 일차 FIR 구 조가 가장 좋은 음성 인식 성능을 보이며, 이 경우 효과적인 거리척도 알고리즘을 구할 수 있다. 여러 가지 신호대 잡음비에 관하여 화자독립 격리단어 인식 실험을 DTW 알고리즘을 이용하여 수행하여 본 결과 제안된 거리척도가 거의 모든 신호대 잡음비에 대하여 우수한 성능을 보였다.

  • PDF

음성인식을 위한 화자적응 기술 동향

  • 김동국
    • Review of Korea Contents Association
    • /
    • v.2 no.1
    • /
    • pp.95-106
    • /
    • 2004
  • 음성인식(speech recognition) 기술이란 사람이 말하는 음성을 기계나 컴퓨터가 이를 분석하고, 인식하여 단어나 문장형태로 변환하여 기계와 인간이 상호작용을 할 수 있도록 관련 알고리즘을 개발 및 구현하는 기술이다. 최근 음성인식 기술이 대두되는 가장 큰 이유는 인간과 기계간의 통신을 원활하게 하는 편리한 휴먼인터페이스 기능이라 할 수 있다. (중략)

A Parallel Speech Recognition System based on Hidden Markov Model (은닉 마코프 모델 기반 병렬음성인식 시스템)

  • Jeong, Sang-Hwa;Park, Min-Uk
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.12
    • /
    • pp.951-959
    • /
    • 2000
  • 본 논문의 병렬음성인식 모델은 연속 은닉 마코프 모델(HMM; hidden Markov model)에 기반한 병렬 음소인식모듈과 계층구조의 지식베이스에 기반한 병렬 문장인식모듈로 구성된다. 병렬 음소인식 모듈은 수천개의 HMM을 병렬 프로세서에 분산시킨 수, 할당된 HMM에 대한 출력확률 계산과 Viterbi 알고리즘을 담당한다. 지식베이스 기반 병렬 문장인식모듈은 음소모듈에서 공급되는 음소열과 지안하는 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 트랜스퓨터와 Parsytec CC 상에 구현되었다. 실험결과, 병렬 음소인식모듈을 통한 실행시간 향상과 병렬 문장인식모듈을 통한 인식률 향상을 얻을 수 있었으며 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF