• 제목/요약/키워드: Speech Processing

검색결과 959건 처리시간 0.032초

A Study on Pitch Period Detection Algorithm Based on Rotation Transform of AMDF and Threshold

  • 서현수;김남호
    • 융합신호처리학회논문지
    • /
    • 제7권4호
    • /
    • pp.178-183
    • /
    • 2006
  • As a lot of researches on the speech signal processing are performed due to the recent rapid development of the information-communication technology. the pitch period is used as an important element to various speech signal application fields such as the speech recognition. speaker identification. speech analysis. or speech synthesis. A variety of algorithms for the time and the frequency domains related with such pitch period detection have been suggested. One of the pitch detection algorithms for the time domain. AMDF (average magnitude difference function) uses distance between two valley points as the calculated pitch period. However, it has a problem that the algorithm becomes complex in selecting the valley points for the pitch period detection. Therefore, in this paper we proposed the modified AMDF(M-AMDF) algorithm which recognizes the entire minimum valley points as the pitch period of the speech signal by using the rotation transform of AMDF. In addition, a threshold is set to the beginning portion of speech so that it can be used as the selection criteria for the pitch period. Moreover the proposed algorithm is compared with the conventional ones by means of the simulation, and presents better properties than others.

  • PDF

Wavelet 특징 파라미터를 이용한 한국어 고립 단어 음성 검출 및 인식에 관한 연구 (A Study on Korean Isolated Word Speech Detection and Recognition using Wavelet Feature Parameter)

  • 이준환;이상범
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2238-2245
    • /
    • 2000
  • In this papr, eatue parameters, extracted using Wavelet transform for Korean isolated worked speech, are sued for speech detection and recognition feature. As a result of the speech detection, it is shown that it produces more exact detection result than eh method of using energy and zero-crossing rate on speech boundary. Also, as a result of the method with which the feature parameter of MFCC, which is applied to he recognition, it is shown that the result is equal to the result of the feature parameter of MFCC using FFT in speech recognition. So, it has been verified the usefulness of feature parameters using Wavelet transform for speech analysis and recognition.

  • PDF

청각 및 시가 정보를 이용한 강인한 음성 인식 시스템의 구현 (Constructing a Noise-Robust Speech Recognition System using Acoustic and Visual Information)

  • 이종석;박철훈
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.719-725
    • /
    • 2007
  • In this paper, we present an audio-visual speech recognition system for noise-robust human-computer interaction. Unlike usual speech recognition systems, our system utilizes the visual signal containing speakers' lip movements along with the acoustic signal to obtain robust speech recognition performance against environmental noise. The procedures of acoustic speech processing, visual speech processing, and audio-visual integration are described in detail. Experimental results demonstrate the constructed system significantly enhances the recognition performance in noisy circumstances compared to acoustic-only recognition by using the complementary nature of the two signals.

디지털 통신 시스템에서의 음성 인식 성능 향상을 위한 전처리 기술 (Pre-Processing for Performance Enhancement of Speech Recognition in Digital Communication Systems)

  • 서진호;박호종
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.416-422
    • /
    • 2005
  • 디지털 통신 시스템에서의 음성 인식은 음성 부호화기에 의한 음성 신호의 왜곡으로 인하여 성능이 크게 저하된다. 본 논문에서는 음성 부호화기에 의한 스펙트럼 왜곡을 분석하고 왜곡된 주파수 정보를 보상하는 전처리 과정을 통하여 음성 인식 성능을 향상시키는 방법을 제안한다. 현재 널리 사용되는 표준 음성 부호화기인 IS-127 EVRC, ITU G.729 CS-ACELP. IS-96 QCELP를 사용하여 부호화에 의한 왜곡을 분석하고, 모든 음성 부호화기에 공통으로 적용하여 왜곡을 보상할 수 있는 전처리 방법을 개발하였다. 본 논문에서 제안하는 왜곡 보상 방법을 세 종류의 음성부호화기에 각각 적용하였으며, 왜곡된 음성 신호에 대한 음성 인식률에 비하여 최대 $15.6\%$의 인식률 향상을 얻을 수 있었다.

인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현 (Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page)

  • 이희만;김지영
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.461-469
    • /
    • 2000
  • 본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면서 이에 상응하는 플러그-인이 작되며 해당 플러그인은 URL로 지정된 HTML 문서를 네트워크에서 가져와 컴맨더 모브젝트에 보내교, 컴맨더 오브젝트는 HTML 문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML 문서 내부의 특정 태그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어를 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.

  • PDF

음성구간 검출기의 실시간 적응화를 위한 음성 특징벡터의 차원 축소 방법 (Dimension Reduction Method of Speech Feature Vector for Real-Time Adaptation of Voice Activity Detection)

  • 박진영;이광석;허강인
    • 융합신호처리학회논문지
    • /
    • 제7권3호
    • /
    • pp.116-121
    • /
    • 2006
  • 본 논문에서는 다양한 잡음환경에서의 실시간 적응화 기법을 적용하기 위한 선결 과제로 다차원 음성 특정 벡터를 저차원으로 축소하는 방법을 제안한다. 제안된 방법은 특징 벡터를 확률 우도 값으로 매핑시켜 비선형적으로 축소하는 방법으로 음성 / 비음성의 분류는 우도비 검증 (Likelihood Ratio Test; LRT) 을 이용하여 분류하였다. 실험 결과 고차원 특징 벡터를 이용하여 분류한 결과와 대등하게 분류됨을 확인할 수 있었다. 그리고, 제안된 방법에 의해 검출된 음성 데이터를 이용한 음성인식 실험에서도 10차 MFCC(Mel-Frequency Cepstral Coefficient)를 사용하여 분류한 경우와 대등한 인식률을 보여주었다.

  • PDF

On the Role of Prefabricated Speech in L2 Acquisition Process: An Information Processing Approach

  • 부경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.196-208
    • /
    • 1991
  • This study focused on the role of prefabricated speech (routines and patterns) in the L2 acquisition process. The data for this study consisted of spontaneous speech samples and various observational records of three Korean children learning English as L2 in a nursery school. The specific questions addressed here were: (1) What routines, patterns, and creative constructions did the children use? (2) What was the general trend in the three children's use of routines, patterns, and creative constructions over time? The data were collected over a period of one school year by observing the children in their school. The findings were discussed from the perspective of human information processing. This study found that prefabricated speech played a significant role in the three children's L2 acquisition. The automatic processing of prefabricated speech appeared to enable the children to reduce the burden on their information processing systems, which allowed the saved resources available for other language development activities. Also, the children's language development was evident in their increase in the use of patterns. The children were moving from heavy dependence on wholly unanalyzed routines to increased use of partly unanalyzed patterns. This increased control was the result of an increase in procedural knowledge.

  • PDF

A Study on the Performance of TDNN-Based Speech Recognizer with Network Parameters

  • Nam, Hojung;Kwon, Y.;Paek, Inchan;Lee, K.S.;Yang, Sung-Il
    • The Journal of the Acoustical Society of Korea
    • /
    • 제16권2E호
    • /
    • pp.32-37
    • /
    • 1997
  • This paper proposes a isolated speech recognition method of Korean digits using a TDNN(Time Delay Neural Network) which is able to recognizc time-varying speech properties. We also make an investigation of effect on network parameter of TDNN ; hidden layers and time-delays. TDNNs in our experiments consist of 2 and 3 hidden layers and have several time-delays. From experiment result, TDNN structure which has 2 hidden-layers, gives a good result for speech recognition of Korean digits. Mis-recognition by time-delays can be improved by changing TDNN structures and mis-recognition separated from time-delays can be improved by changing input patterns.

  • PDF

분산음성인식을 위한 내장형 고속/경량 음소인식기 개발 (Development of Embedded Fast/Light Phoneme Recognizer for Distributed Speech Recognition)

  • 김승희;황규웅;전형배;정훈;박준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.395-396
    • /
    • 2007
  • ETRI 음성/언어정보연구센터에서는 분산음성인식을 위해 메모리를 작게 사용하며 속도가 빠른 음소인식기를 개발 중이다. 음향 모델, 언어 모델, 탐색 네트워크 등 고정되어 있는 정보는 인식기를 수행하기 이전에 미리 binary 형태로 구축하여 ROM 형태로 저장함으로써 실제 사용해야 할 RAM 용량을 대폭 줄일 수 있었다. Tied state에 기반한 triphone 모델에서는 unique HMM 만을 사용함으로써 인식시간 및 메모리 사용량을 대폭 줄일 수 있었다. Monophone 인식기의 경우 RAM 사용량이 179KB였으며, triphone 인식기의 경우 435KB의 RAM 사용량과 RTF(Real Time Factor) 0.02를 확인하였다.

  • PDF

시간지연 신경회로망을 이용한 잡음제거 시스템 (Noise reduction system using time-delay neural network)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제42권3호
    • /
    • pp.121-128
    • /
    • 2005
  • 음성신호를 대상으로 하는 연구 분야에서 신경회로망은 주로 음성인식 등의 카테고리 분류의 목적으로 사용되며 신호처리의 응용에도 유망하다. 따라서 본 논문에서는 신경회로망에 시간구조를 취한 시간지연 신경회로망을 이용하여 잡음이 중첩된 음성신호의 공간으로부터 잡음이 없는 음성신호의 공간으로 사상을 실행함으로써 잡음을 제거하는 것을 목적으로 한다. 본 논문은 푸리에 변환의 진폭성분을 복원하는 잡음제거의 알고리즘을 사용하여 백색잡음 및 유색잡음에 대해서 본 수법의 유효성을 확인한다.