• 제목/요약/키워드: Continuous Speech

검색결과 314건 처리시간 0.028초

한국 표준어 연속음성에서의 억양구와 강세구 자동 검출 (Automatic Detection of Intonational and Accentual Phrases in Korean Standard Continuous Speech)

  • 이기영;송민석
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.209-224
    • /
    • 2000
  • This paper proposes an automatic detection method of intonational and accentual phrases in Korean standard continuous speech. We use the pause over 150 msec for detecting intonational phrases, and extract accentual phrases from the intonational phrases by analyzing syllables and pitch contours. The speech data for the experiment are composed of seven male voices and two female voices which read the texts of the fable 'the ant and the grasshopper' and a newspaper article 'manmulsang' in normal speed and in Korean standard variation. The results of the experiment shows that the detection rate of intonational phrases is 95% on the average and that of accentual phrases is 73%. This detection rate implies that we can segment the continuous speech into smaller units(i.e. prosodic phrases) by using the prosodic information and so the objects of speech recognition can narrow down to words or phrases in continuous speech.

  • PDF

발화속도 적응적인 한국어 연속음 인식기 (Adaptive Korean Continuous Speech Recognizer to Speech Rate)

  • 김재범;박찬규;한미성;이정현
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1531-1540
    • /
    • 1997
  • 본 논문에서는 발화속도 측정과 이를 통한 보상방법을 통하여 성능 향상된 한국어 연속음 인식 시스템을 제안한다. 연속음 인식은 다양한 조음화 현상과 발화속도의 변화로 인하여 고립단어 인식에 비하여 어렵다. 따라서, 연속음 인식을 위해서는 조음화 현상과 발화속도의 변화를 모델링할 수 있는 방법이 필요하다. 본 논문에서는 발화속도를 포만트의 변화율로서 측정하였고, 이 정보를 이용하여 빠른 발화에서는 상대적으로 많은 특징벡터를 발생시켜 보상을 시도하였다. 또한 조음화 현상을 모델링하기 위하여 한국어의 다이폰 집합을 514개로 정의하였고, 훈련을 위한 음성 DB론느 ETRI의 445 단어 DB를 사용하였다. 이러한 방법을 결합한 한국어 연속음 인식기를 DHMM (Discrete Hidden Markov Model)으로 구현하여 인식률이 향상됨을 보였다.

  • PDF

Robust Speech Detection Based on Useful Bands for Continuous Digit Speech over Telephone Networks

  • Ji, Mi-Kyongi;Suh, Young-Joo;Kim, Hoi-Rin;Kim, Sang-Hun
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권3E호
    • /
    • pp.113-123
    • /
    • 2003
  • One of the most important problems in speech recognition is to detect the presence of speech in adverse environments. In other words, the accurate detection of speech boundary is critical to the performance of speech recognition. Furthermore the speech detection problem becomes severer when recognition systems are used over the telephone network, especially wireless network and noisy environment. Therefore this paper describes various speech detection algorithms for continuous digit recognition system used over wire/wireless telephone networks and we propose a algorithm in order to improve the robustness of speech detection using useful band selection under noisy telephone networks. In this paper, we compare some speech detection algorithms with the proposed one, and present experimental results done with various SNRs. The results show that the new algorithm outperforms the other speech detection methods.

적응 프루닝 알고리즘과 PDT-SSS 알고리즘을 이용한 한국어 연속음성인식에 관한 연구 (A Study on the Korean Continuous Speech Recognition using Adaptive Pruning Algorithm and PDT-SSS Algorithm)

  • 황철준;오세진;김범국;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제4권6호
    • /
    • pp.524-533
    • /
    • 2001
  • 연속음성인식 시스템의 실용화를 위해서 가장 중요한 것은 높은 인식 성능을 가지면서 동시에 실시간으로 인식되어야 한다. 이를 위하여 본 연구에서는 먼저 연속음성인식의 인식률 향상을 위하여 효과적인 음향모델을 구성하기 위하여 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘을 도입하여 HM-Net을 구성하고, 언어모델로서 반복학습을 이용하여 인식률 향상을 제고한다. 그리고, 기존의 연구에서 유효함이 입증된 프레임 단위 적응 프루닝 알고리즘을 연속음성에 적용하여 인식 속도를 개선하고자 한다. 제안된 방법의 유효성을 확인하기 위하여, 남성 4인이 항공편 예약 관련 음성에 대하여 인식 실험을 수행하였다. 그 결과 연속음성인식률 90.9%, 단어인식률 90.7%의 높은 인식성능을 얻었으며, 적응 프루닝 알고리즘을 적용한 경우 인식성능의 저하없이 약 1.2초(전체의 15%)의 인식시간을 줄일 수 있어 제안된 방법의 유효성을 확인할 수 있었다.

  • PDF

연속음성인식을 위한 음성구간과 피치검출에 관한 연구 (A Study on Speech Period and Pitch Detection for Continuous Speech Recognition)

  • 김태석;장종칠
    • 한국멀티미디어학회논문지
    • /
    • 제8권1호
    • /
    • pp.56-61
    • /
    • 2005
  • 본 논문은 연속음성인식을 위한 음성구간과 피치를 검출하는 알고리즘을 제안한다. 이것은 연속음성을 입력받아 프레임 단위로 자/모음을 구분하며, 구분된 유성음에서 피치를 검출하는 방법이다 실제 잡음 환경에서 음성을 입력받아 적당한 문턱치 에너지를 사용함으로써 잡음환경에서 강인한 음성구간 추출이 가능하였고 추출한 음성구간에서 프레임단위로 영교차율과 단구간에너지를 이용한 알고리즘으로 유성음의 피치를 검출함과 동시에 자/모음을 구분하는 개선된 방식이다.

  • PDF

지능형 홈네트워크 시스템을 위한 가변어휘 연속음성인식시스템에 관한 연구 (A Study on Vocabulary-Independent Continuous Speech Recognition System for Intelligent Home Network System)

  • 이호웅;정희석
    • 한국ITS학회 논문지
    • /
    • 제7권2호
    • /
    • pp.37-42
    • /
    • 2008
  • 본 논문에서는 지능형 홈네트워크의 음성제어를 위한 가변어휘 연속음성인식시스템을 개발하였다. 또한 자연스런 음성명령에 대한 인식을 위해 핵심어 기반의 자연스런 연속어휘에 대한 대화형 시나리오를 작성하였고, 핵심어기반의 인식 엔진 및 데이터베이스를 구축하여 인식엔진의 성능을 최적화하였다.

  • PDF

음운 현상과 연속 발화에서의 단어 인지 - 종성중화 작용을 중심으로 (Phonological Process and Word Recognition in Continuous Speech: Evidence from Coda-neutralization)

  • 김선미;남기춘
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.17-25
    • /
    • 2010
  • This study explores whether Koreans exploit their native coda-neutralization process when recognizing words in Korean continuous speech. According to the phonological rules in Korean, coda-neutralization process must come before the liaison process, as long as the latter(i.e. liaison process) occurs between 'words', which results in liaison-consonants being coda-neutralized ones such as /b/, /d/, or /g/, rather than non-neutralized ones like /p/, /t/, /k/, /ʧ/, /ʤ/, or /s/. Consequently, if Korean listeners use their native coda-neutralization rules when processing speech input, word recognition will be hampered when non-neutralized consonants precede vowel-initial targets. Word-spotting and word-monitoring tasks were conducted in Experiment 1 and 2, respectively. In both experiments, listeners recognized words faster and more accurately when vowel-initial target words were preceded by coda-neutralized consonants than when preceded by coda non-neutralized ones. The results show that Korean listeners exploit the coda-neutralization process when processing their native spoken language.

  • PDF

연속 음성으로부터 추출한 CVC 음성세그먼트 기반의 음성합성 (Speech Synthesis Based on CVC Speech Segments Extracted from Continuous Speech)

  • 김재홍;조관선;이철희
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 논문에서는 설계하지 않은 연속 음성 코퍼스로부터 추출된 CVC 음성 세그먼트를 사용하는 연결 기반 음성 합성기를 제안한다. 연속 음성은 각 음운간의 상호조음효과가 비교적 잘 반영되고, 자연스러운 억양 변화를 포함하고 있으므로 이를 적절하게 활용할 수 있는 합성 단위를 선택하면 자연스런 음성합성이 가능하다. 여러 가지 합성단위 가운데 CVC 합성 단위는 자음의 안정 부분에서 접속이 일어나므로 연결부에서의 음질 저하가 적고, 전후 자음과 모음간의 조음 현상을 잘 반영하는 장점이 있다. 본 논문에서는 CVC 합성 단위를 사용하는 경우 나타나는 문장 세그먼트들의 조합을 4가지로 분류하여 각각의 통계적 특성과 합성음성의 품질을 분석하고, CVC에 근거한 새로운 복합 합성 단위를 사용하는 방식을 제안한다. 제안된 방식을 사용하여 설계하지 않은 연속 음성 코퍼스로부터 CVC 음성 세그먼트를 추출하여 다양한 예제 문장을 합성하였다. 만일 필요한 CVC 음성 세그먼트가 음성 코퍼스에 존재하지 않는 경우 반음절 음성 세그먼트로 대치하여 합성하였다. 실험 결과 약 100 Mbytes의 연속 음성 코퍼스로 비교적 자연스러운 음성합성이 가능함을 알 수 있었다.

  • PDF

음성신호의 Jitter 성분의 장시간 변화에 관한 통계적 분석 (Statistical analysis on long-term change of jitter component on continuous speech signal)

  • 조철우
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.73-80
    • /
    • 2020
  • 본 연구에서는 연속음성에서의 장시간 jitter 성분 측정 방법에 대해 고찰하였다. 기존의 jitter측정방법으로는 지속 발성한 모음을 대상으로 변동성을 측정하는 방법을 주로 사용하여왔다. 문장음성 등 연속음성의 경우는 문장에 따른 운율정보의 영향으로 기존의 측정법으로는 왜곡이 발생하게 된다. 이에 연속 발성에 대해 운율정보의 피치 변동을 상쇄시키는 방법을 제안하고자 한다. 피치 변동을 제거하는 방법으로는 분석구간내에서의 피치 변동을 다항식 보간법에 의해 변동 경향을 대표하는 곡선을 구하고 그 곡선을 기준으로 변이를 제거하였다. 이후 변이가 제거된 피치의 궤적으로부터 jitter를 측정하는 방법을 적용하여 피치 주파수의 변동성을 측정하고 기존의 지속모음에 의한 측정 방법과 비교하였다. 제안한 방법의 효용성 측정을 위해 Kay Pentax MEEI DB의 음성 표본을 사용하였다. 통계분석 결과 제안된 방법에 의해 연속음성으로부터 측정한 jitter 값은 동일 화자의 지속모음으로부터 측정한 파라미터 값과 유사한 변동성을 보여 주었다.

연속음에서의 각 음소의 대표구간 추출에 관한 연구 (A study on extraction of the frames representing each phoneme in continuous speech)

  • 박찬응;이쾌희
    • 전자공학회논문지B
    • /
    • 제33B권4호
    • /
    • pp.174-182
    • /
    • 1996
  • In continuous speech recognition system, it is possible to implement the system which can handle unlimited number of words by using limited number of phonetic units such as phonemes. Dividing continuous speech into the string of tems of phonemes prior to recognition process can lower the complexity of the system. But because of the coarticulations between neiboring phonemes, it is very difficult ot extract exactly their boundaries. In this paper, we propose the algorithm ot extract short terms which can represent each phonemes instead of extracting their boundaries. The short terms of lower spectral change and higher spectral chang eare detcted. Then phoneme changes are detected using distance measure with this lower spectral change terms, and hgher spectral change terms are regarded as transition terms or short phoneme terms. Finally lower spectral change terms and the mid-term of higher spectral change terms are regarded s the represent each phonemes. The cepstral coefficients and weighted cepstral distance are used for speech feature and measuring the distance because of less computational complexity, and the speech data used in this experimetn was recoreded at silent and ordinary in-dorr environment. Through the experimental results, the proposed algorithm showed higher performance with less computational complexity comparing with the conventional segmetnation algorithms and it can be applied usefully in phoneme-based continuous speech recognition.

  • PDF