• 제목/요약/키워드: word boundary detection

검색결과 14건 처리시간 0.022초

단어 경계 검출 오류 보정을 위한 수정된 비터비 알고리즘 (A Modified Viterbi Algorithm for Word Boundary Detection Error Compensation)

  • 정훈;정익주
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권1E호
    • /
    • pp.21-26
    • /
    • 2007
  • In this paper, we propose a modified Viterbi algorithm to compensate for endpoint detection error during the decoding phase of an isolated word recognition task. Since the conventional Viterbi algorithm explores only the search space whose boundaries are fixed to the endpoints of the segmented utterance by the endpoint detector, the recognition performance is highly dependent on the accuracy level of endpoint detection. Inaccurately segmented word boundaries lead directly to recognition error. In order to relax the degradation of recognition accuracy due to endpoint detection error, we describe an unconstrained search of word boundaries and present an algorithm to explore the search space with efficiency. The proposed algorithm was evaluated by performing a variety of simulated endpoint detection error cases on an isolated word recognition task. The proposed algorithm reduced the Word Error Rate (WER) considerably, from 84.4% to 10.6%, while consuming only a little more computation power.

순환 퍼지연상기억장치를 이용한 음성경계 추출 (Word Boundary Detection of Voice Signal Using Recurrent Fuzzy Associative Memory)

  • 마창수;김계영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1171-1179
    • /
    • 2004
  • 본 논문에서는 음성인식의 전처리 단계로서 음성 영역과 비음성 영역 사이의 경계를 검출하는 음성경계 추출에 대하여 기술한다. 본 논문에서는 음성경계 추출을 위해 두 가지의 특징벡터를 사용한다. 첫 번째는 백색잡음(white noise)에 강건한 시간 영역의 정보인 정규화된 RMS이고, 두 번째는 주파수 영역의 정보인 정규화된 멜주파수 대역 최대 에너지(met-frequency band maximum energy)이다. 본 논문에서 사용하는 음성경계 추출 알고리즘은 학습을 통해 규칙을 생성하고 음성의 시간 정보를 적용하기 위해 순환노드를 추가한 순환 퍼지연상기억장치이다. 퍼지부의 가중치 학습은 헤비안 학습 방법을 사용하고, 순환부의 가중치 학습을 위해서는 오류 역전파(error back-propagation) 알고리즘을 사용한다. 실험에서는 KAIST에서 제공한 연령과 성별로 구분된 음성 자료를 사용하였다.

The Role of Post-lexical Intonational Patterns in Korean Word Segmentation

  • Kim, Sa-Hyang
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.37-62
    • /
    • 2007
  • The current study examines the role of post-lexical tonal patterns of a prosodic phrase in word segmentation. In a word spotting experiment, native Korean listeners were asked to spot a disyllabic or trisyllabic word from twelve syllable speech stream that was composed of three Accentual Phrases (AP). Words occurred with various post-lexical intonation patterns. The results showed that listeners spotted more words in phrase-initial than in phrase-medial position, suggesting that the AP-final H tone from the preceding AP helped listeners to segment the phrase-initial word in the target AP. Results also showed that listeners' error rates were significantly lower when words occurred with initial rising tonal pattern, which is the most frequent intonational pattern imposed upon multisyllabic words in Korean, than with non-rising patterns. This result was observed both in AP-initial and in AP-medial positions, regardless of the frequency and legality of overall AP tonal patterns. Tonal cues other than initial rising tone did not positively influence the error rate. These results not only indicate that rising tone in AP-initial and AP_final position is a reliable cue for word boundary detection for Korean listeners, but further suggest that phrasal intonation contours serve as a possible word boundary cue in languages without lexical prominence.

  • PDF

The Role of Prosodic Boundary Cues in Word Segmentation in Korean

  • Kim, Sa-Hyang
    • 음성과학
    • /
    • 제13권1호
    • /
    • pp.29-41
    • /
    • 2006
  • This study investigates the degree to which various prosodic cues at the boundaries of prosodic phrases in Korean contribute to word segmentation. Since most phonological words in Korean are produced as one Accentual Phrase (AP), it was hypothesized that the detection of acoustic cues at AP boundaries would facilitate word segmentation. The prosodic characteristics of Korean APs include initial strengthening at the beginning of the phrase and pitch rise and final lengthening at the end. A perception experiment utilizing an artificial language learning paradigm revealed that cues conforming to the aforementioned prosodic characteristics of Korean facilitated listeners' word segmentation. Results also indicated that duration and amplitude cues were more helpful in segmentation than pitch. Nevertheless, results did show that a pitch cue that did not conform to the Korean AP interfered with segmentation.

  • PDF

웨이브렛 변환을 이용한 음성신호의 끝점검출 (Endpoint Detection of Speech Signal Using Wavelet Transform)

  • 석종원;배건성
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.57-64
    • /
    • 1999
  • 본 논문에서는 잡음이 포함된 음성의 시작점과 끝점을 효율적으로 검출할 수 있는 알고리듬에 대하여 연구하였다. 이를 위해, 웨이브렛 영역에서의 에너지 분포를 고려함으로써 잡음환경하에서도 음성을 검출할 수 있는 새로운 검출 파라미터를 제안하였다. 제안된 끝점검출 파라미터는 웨이브렛 영역에서 세 번째 coarsed 스케일의 표준편차와 가중치를 곱한 첫 번째 detailed 스케일의 표준편차의 합으로 정의하였다. 제안된 끝점검출기의 성능평가를 위해서 다양한 SNR에서 기존방식과 비교하여 시작점과 끝점의 정확도 실험을 수행하였고 HMM 음성인식시스템을 이용하여 인식실험도 수행하였다.

  • PDF

대용량 운율 음성데이타를 이용한 자동합성방식 (Automatic Synthesis Method Using Prosody-Rich Database)

  • 김상훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.87-92
    • /
    • 1998
  • In general, the synthesis unit database was constructed by recording isolated word. In that case, each boundary of word has typical prosodic pattern like a falling intonation or preboundary lengthening. To get natural synthetic speech using these kinds of database, we must artificially distort original speech. However, that artificial process rather resulted in unnatural, unintelligible synthetic speech due to the excessive prosodic modification on speech signal. To overcome these problems, we gathered thousands of sentences for synthesis database. To make a phone level synthesis unit, we trained speech recognizer with the recorded speech, and then segmented phone boundaries automatically. In addition, we used laryngo graph for the epoch detection. From the automatically generated synthesis database, we chose the best phone and directly concatenated it without any prosody processing. To select the best phone among multiple phone candidates, we used prosodic information such as break strength of word boundaries, phonetic contexts, cepstrum, pitch, energy, and phone duration. From the pilot test, we obtained some positive results.

  • PDF

스펙트럼의 변동계수를 이용한 잡음에 강인한 음성 구간 검출 (Noise-Robust Speech Detection Using The Coefficient of Variation of Spectrum)

  • 김영민;한민수
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.107-116
    • /
    • 2003
  • This paper deals with a new parameter for voice detection which is used for many areas of speech engineering such as speech synthesis, speech recognition and speech coding. CV (Coefficient of Variation) of speech spectrum as well as other feature parameters is used for the detection of speech. CV is calculated only in the specific range of speech spectrum. Average magnitude and spectral magnitude are also employed to improve the performance of detector. From the experimental results the proposed voice detector outperformed the conventional energy-based detector in the sense of error measurements.

  • PDF

Wavelet 특징 파라미터를 이용한 한국어 고립 단어 음성 검출 및 인식에 관한 연구 (A Study on Korean Isolated Word Speech Detection and Recognition using Wavelet Feature Parameter)

  • 이준환;이상범
    • 한국정보처리학회논문지
    • /
    • 제7권7호
    • /
    • pp.2238-2245
    • /
    • 2000
  • In this papr, eatue parameters, extracted using Wavelet transform for Korean isolated worked speech, are sued for speech detection and recognition feature. As a result of the speech detection, it is shown that it produces more exact detection result than eh method of using energy and zero-crossing rate on speech boundary. Also, as a result of the method with which the feature parameter of MFCC, which is applied to he recognition, it is shown that the result is equal to the result of the feature parameter of MFCC using FFT in speech recognition. So, it has been verified the usefulness of feature parameters using Wavelet transform for speech analysis and recognition.

  • PDF

순환 퍼지연상기억장치를 이용한 음성경계 추출 (Word Boundary Detection of Voice Signal Using Recurrent Fuzzy Associative Memory)

  • 마창수;김계영;최형일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.235-237
    • /
    • 2003
  • 본 논문에서는 음성인식을 위한 전처리 단계로 음성인식의 대상을 찾아내는 음성경계 추출에 대하여 기술한다. 음성경계 추출을 위한 특징 벡터로는 시간 정보인 RMS와 주파수 정보인 MFBE를 사용한다. 사용하는 알고리즘은 학습을 통해 규칙을 생성하는 퍼지연상기억장치에 음성의 시간 정보를 적용하기 위해 순환노드를 추가한 새로운 형태의 순환 퍼지연상기억장치를 제안한다.

  • PDF

웹 문서를 위한 개선된 문장경계인식 방법 (Improved Sentence Boundary Detection Method for Web Documents)

  • 이충희;장명길;서영훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.455-463
    • /
    • 2010
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반하여 개선한 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 종결어미를 대상으로 학습하여 문장경계 인식을 수행하였다. 또한 문장경계인식 성능을 최대화하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 문서별 성능 측정을 위해서 구두점이 주로 문장경계로 사용된 문어체 위주의 평가셋1(신문기사와 블로그 문서)과 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서 위주의 평가셋2(웹 사이트의 게시판 글)를 대상으로 성능을 측정하였다. 평가 척도로는 F-measure를 사용하였으며, 기존 연구와 동일하게 구두점만을 문장경계 대상으로 학습한 기본 모델을 만들어서 실험한 결과, 평가셋1에 대해서 96.5%의 성능을 보였지만, 평가셋2에 대해서는 56.7%로 매우 저조한 성능을 보였다. 제안하는 개선 방법은 기본 모델을 웹 문서의 특징을 반영시키도록 자질 및 엔진을 개선시켰고, 최종 모델을 평가셋2로 평가한 결과, 96.3%의 성능을 보여서 39.6%의 성능 향상이 있음을 확인하였다.