• Title/Summary/Keyword: 음성구간 검출

Search Result 158, Processing Time 0.023 seconds

The Implementation of Windows 95 Control System with Speech Recognition (음성인식을 이용한 Windows 95 제어 시스템의 구현)

  • 남동선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.43-46
    • /
    • 1998
  • 본 논문은 컴퓨터 사용에 미숙한 초보자나 키보드나 마우스를 사용할 수 없는 신체적인 조건을 가진 장애인 또는 PC사용에 미숙한 사용자들을 위해 기존의 인터페이스에 추가적으로 음성을 사용하여 더 효율적인 작업 환경을 만들기 위한 음성을 이용한 Window95 환경에서의 음성 인식 시스템 구현에 관한 것이다. 인터페이스 구현을 위해 사용되는 인식 알고리즘으로는 연결어 인식에 사용되는 OSDP[1] 알고리즘을 단독어 인식에 적용하여 사용하였다. 특징 벡터는 화자 독립적인 특성을 지닌 Perceptual Linear Predictive(PLP)[2] 13차 계수를 사용하였다. 인식 대상 어휘는 윈도우 사용자에게 자주 사용되는 60개의 명령어로 설정하였다. 인식된 후 그 결과는 구현된 시스템의 명령 실행 모듈로 전달되어 윈도우 상에서 실제 수행된다. 구현된 시스템에서는 노트북 내장 마이크를 사용하여 음성을 검출하였고 이를 위한 음성 구간 검출 알고리즘을 사용하였다. 기준 패턴은 20대 남성화자 9인이 2회 발성한 데이터를 이용하였고, 화자 독립으로 온라인 인식률은 91.71%이고, 오프라인 인식률은 96.4%의 인식률을 얻었다.

  • PDF

A Study on Recognition of Korean Continuous Speech using Discrete Duration CHMM. (이산 시간 제어 CHMM을 이용한 한국어 연속 음성 인식에 관한 연구)

  • 김상범
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.368-372
    • /
    • 1994
  • 확률적 모델을 이용한 HMM 으로 한국어 연속 음성 인식시스템을 구성하였다. 학습 모델로서는 양자화 DCK가 없는 연속출력 확률밀도를 사용한 연속출력 확률분포 HMM과 과도 구간 및 정상 구간의 시간구조를 충분히 BYGUS할 수 없는 것을 계속시간 확률 파라메터를 추가하여 보완한 이산 지속시간 제어 연속출력 확률분포 HMM을 이용하였다. 인식 알고리즘은 시계열 패턴의 시간축상에서의 비선형 신축을 고려한 에 매칭으로서, 음절의 경계를 자동으로 검출하는 O에을 이용하였다. 실험에서 사용된 연속음성데이타는 4연 숫자음과 연속음성 10문장으로 하였다. 인식 실험 결과 4연 숫자음에서 CHMM은 80.7%, DDCHMM은 92.9%의 인식률을 얻었고, 신문 사설에서 발췌한 연속 음성문장의 경우 CHMM 54.2%, DDCHMM에서는 68.9%을 얻어, 시간장 제어를 고려한 DDCHMM이 CHMM보다 SHB은 인식률을 얻었다.

  • PDF

On Detecting the Transition Regions of Phonemes by Using the Asymmetrical Rate of Speech Waveforms (음성파형의 비대칭율을 이용한 음소의 전이구간 검출)

  • Bae, Myung-Jin;Lee, Eul-jae;Ann, Sou-Guil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.9 no.4
    • /
    • pp.55-65
    • /
    • 1990
  • To recognize continued speech, it is necessary to segment the connected acoustic signal into phonetic units, In this paper, as a parameter to detect transition regions in continued speech, we propose a new asymmetrical rate. The suggested rate represents a change rate of magnitude of speech signals. As comparing this rate with other rate in adjacent frame, the state of the frame can be distinguished between steady state and transient state.

  • PDF

On Detcdting the Steady State Segments of Speech Waveform by using the Normalized AMDF (규준화된 AMDF 이용한 음성파형의안정상태 구간검출)

  • Bae, Myung-Jin;Kim, Ul-Je;Ahn, Sou-Guil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.3
    • /
    • pp.44-50
    • /
    • 1991
  • To recognize continued speech, it is necessary to segment the connected acoustic signal into phonetic units. In this paper, as a parameter to detect the transition regions in continued speech, we propose a new noramlized AMDF. The suggested parameter represents a change rate of magnitude of speech signals. As comparing this value with the adjactent frames value the state of the frames can be distinguished as a level between the steady state and transient state.

  • PDF

On the Interval Detection of Implosive Stop Sounds by Frame Energy Difference (프레임간 에너지 차를 이용한 음성신호의 종성 폐쇄음 구간 검출에 관한 연구)

  • Bae, Myung-Jin;Choi, Jung-Ah;Ann, Sou-Guil
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.26 no.4
    • /
    • pp.145-150
    • /
    • 1989
  • Preprocessing in speech recognition system is useful, for it reduces some of the complicated procedures required for the final recognition. In this paper, we suggest a new preprocessing algorithm for detecting the intervals of implosive stop sounds. Implosive stop sounds follow vowels in Korean language, and its characteristic is included in the region of vowels. When an implosive stop is pronounced, the velum is quickly colsed, thus its energy decays abruptly and the closure lasts for about 50 to 150 msec. The enegy difference between adjacent frames is chosen as a parameter which represents well the above features.

  • PDF

Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation (문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리)

  • 이용주;손종목;강경옥;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

A Study on the Segmentation of Speech Signal into Phonemic Units (음성 신호의 음소 단위 구분화에 관한 연구)

  • Lee, Yeui-Cheon;Lee, Gang-Sung;Kim, Soon-Hyon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.4
    • /
    • pp.5-11
    • /
    • 1991
  • This paper suggests a segmentation method of speech signal into phonemic units. The suggested segmentation system is speaker-independent and performed without anyprior information of speech signal. In segmentation process, we first divide input speech signal into purevoiced region and not pure voiced speech regions. After then we apply the second algorithm which segments each region into the detailed phonemic units by using the voiced detection parameters, i.e., the time variation of 0th LPC cepstrum coefficient parameter and the ZCR parameter. Types of speech, used to prove the availability of segmentation algorithm suggested in this paper, are the vocabulary composed of isolated words and continuous words. According to the experiments, the successful segmentation rate for 507 phonemic units involved in the total vocabulary is 91.7%.

  • PDF

A study on Gabor Filter Bank-based Feature Extraction Algorithm for Analysis of Acoustic data of Emergency Rescue (응급구조 음향데이터 분석을 위한 Gabor 필터뱅크 기반의 특징추출 알고리즘에 대한 연구)

  • Hwang, Inyoung;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1345-1347
    • /
    • 2015
  • 본 논문에서는 응급상황이 신고되는 상황에서 수보자에게 전달되는 신고자의 주변음향신호로부터 신고자의 주변상황을 추정하기 위하여 음향의 주파수적 특성 및 변화특성의 모델링 성능이 뛰어난 Gabor 필터뱅크 기반의 특징벡터 추출 기술 및 분류 성능이 뛰어난 심화신경망을 도입한다. 제안하는 Gabor 필터뱅크 기반의 특징벡터 추출 기법은 비음성 구간 검출기를 통하여 음성/비음성을 구분한 후에 비음성 구간에서 23차의 Mel-filter bank 계수를 추출한 후에 이로부터 Gabor 필터를 이용하여 주변상황 추정을 위한 특징벡터를 추출하고, 이로부터 학습된 심화신경망을 통하여 신고자의 장소적 정보를 추정한다. 제안된 기법은 여러 가지 시나리오 환경에서 평가되었으며, 우수한 분류성능을 보였다.

A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command (호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구)

  • Song, Ki-Chang;Kang, Chul-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.9
    • /
    • pp.1322-1328
    • /
    • 2010
  • Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded DSP(Digital Signal Processor) environments because it is relatively low in the computational capability to process input speech in real-time. In this paper, we propose a new keyword spotting system using the call-command method, which is consisted of small number of recognition networks. We select the call-command such as 'narae', 'home manager' and compose the small network as a token which is consisted of silence with the noise and call commands to carry the real-time recognition continuously for input speeches.

A Study on the Noise-Level Measurement using the Energy and relation of closed pitch (에너지와 인근피치간에 유사도를 이용한 잡음레벨 검출에 관한 연구)

  • Kang InGyu;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.77-80
    • /
    • 2004
  • 인간은 "습관적 피치 레벨" 즉 자연스럽게 말할 때 평균적으로 사용하는 피치를 갖는다. 하지만 음성에 잡음이 첨가 되면 이 피치가 불규칙하게 바뀌게 된다. 이점을 이용하여 음성의 잡음레벨을 측정할 수 있다. 본 논문에서는 입력음성의 에너지를 구하고 일정 에너지레벨 이상에서의 구간에 대해 NAMDF(Normalized Average Magnitude Difference Function)방법으로 피치를 구하고, 각 프레임을 피치단위로 분절한 뒤 인근 피치간의 유사도를 측정하여 입력음성데이터의 잡음레벨을 검출하는 방법을 제안하였다.

  • PDF