• 제목/요약/키워드: Speech discrimination

검색결과 157건 처리시간 0.029초

유사단어 정보와 유전자 알고리듬을 이용한 HMM의 상태하중값을 사용한 단어의 검증 (Word Verification using Similar Word Information and State-Weights of HMM using Genetic Algorithmin)

  • 김광태;백창흠;홍재근
    • 대한전자공학회논문지SP
    • /
    • 제38권1호
    • /
    • pp.97-103
    • /
    • 2001
  • 현재 HMM은 음성인식에서 가장 널리 쓰이는 방법이다. 대부분의 경우 HMM의 매개변수는 훈련데이터에 대해 최대유사도를 가지도록 훈련된다. 그러나 이러한 방법은 다른 단어들에 대한 변별력을 고려하지 않는 단점이 있다. 이 논문에서는 이러한 단점을 보완하기 위해, 유사단어에 대한 정보와 두 단어 사이에 변별력을 가지는 함수를 사용하여, 인식된 단어와 유사단어만을 대상으로 재인식하는 과정을 통해 단어를 검증하는 방법을 제안하였다. 유사단어는 각 단어의 HMM에 다른 단어의 훈련음성으로 확률값을 계산하여 가장 유사한 단어를 얻었으며, 단어간에 변별력을 가지는 인식기는 각 상태에 하중값을 가지는 인식기를 사용하여 구현하였다. 단어간에 변별력을 가지는 하중값은 유전자 알고리듬을 사용하여 얻었다. 실험에서 유사단어와 변별력을 가지는 검증기의 사용으로 오인식률이 약 22% 감소하였다.

  • PDF

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

병리적 음성에 대한 언어습득 이후 인공와우이식 성인의 청지각적 변별특성과 중재 프로그램의 효과 (The Effect on Intervention Program and Auditory-Perceptual Discrimination Feature of Postlingual Cochlear Implant Adults about Pathological Voice)

  • 배인호;김근효;이연우;박희준;김진동;이일우;권순복
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.9-17
    • /
    • 2015
  • In the present study, we investigated ability of recognition of auditory perception with regards to the quality of voice in postlingual CI adults and proposed a training program to improve within subject reliability. A prospective case-control study was conducted in adults with 7 postlingual deaf who received a CI surgery and 10 normal hearing controls. The pre and post test and training program included parameters of consensus auditory-perceptual evaluation of voice(CAPE-V) with pathological voice sample by using Alvin. In results of pre-post test for monitoring improvements of internal reliability for listeners via the training program, there was statistically significant difference in both test and group. There was statistically significant difference in internal reliability between pre-post test in the normal hearing group, the result was no significant in the CI group. The present study found that CI adults showed less ability in awareness of voice quality compared to normal hearing group. Also the training program improved pitch and loudness in CI adults.

Non-word repetition may reveal different errors in naive listeners and second language learners

  • Holliday, Jeffrey J.;Hong, Minkyoung
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.1-9
    • /
    • 2020
  • The perceptual assimilation of a nonnative phonological contrast can change with linguistic experience, resulting in naïve listeners and novice second language (L2) learners potentially assimilating the members of a nonnative contrast to different native (L1) categories. While it has been shown that this sort of change can affect the discrimination of the nonnative contrast, it has not been tested whether such a change could have consequences for the production of the contrast. In this study, L1 speakers of Mandarin Chinese who were (1) naïve to Korean, (2) novice L2 learners, or (3) advanced L2 learners participated in a Korean non-word repetition task using word-initial sibilants. The initial CVs of their repetitions were then played to L1 Korean listeners who categorized the initial consonant. The naïve talkers were more likely to repeat an initial /sha/ as an affricate, whereas the L2 learners repeated it as a fricative, in line with how these listeners have been shown to assimilate Korean sibilants to Mandarin categories. This result suggests that errors in the production of new words presented auditorily to nonnative listeners may be driven by how they perceptually assimilate the nonnative sounds, emphasizing the need to better understand what drives changes in perceptual assimilation that accompany increased linguistic experience.

화자확인에서 일정한 결과를 얻기 위한 빠른 순시 확률비 테스트 방법 (Fast Sequential Probability Ratio Test Method to Obtain Consistent Results in Speaker Verification)

  • 김은영;서창우;전성채
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.63-68
    • /
    • 2010
  • A new version of sequential probability ratio test (SPRT) which has been investigated in utterance-length control is proposed to obtain uniform response results in speaker verification (SV). Although SPRTs can obtain fast responses in SV tests, differences in the performance may occur depending on the compositions of consonants and vowels in the sentences used. In this paper, a fast sequential probability ratio test (FSPRT) method that shows consistent performances at all times regardless of the compositions of vocalized sentences for SV will be proposed. In generating frames, the FSPRT will first conduct SV test processes with only generated frames without any overlapping and if the results do not satisfy discrimination criteria, the FSPRT will sequentially use frames applied with overlapping. With the progress of processes as such, the test will not be affected by the compositions of sentences for SV and thus fast response outcomes and even consistent performances can be obtained. Experimental results show that the FSPRT has better performance to the SPRT method while requiring less complexity with equal error rates (EER).

  • PDF

Perception of Spanish $/{\setminus}/$ - /r/ distinction by native Japanese

  • Mignelina Guirao Jorge A. Gurlekian;Maria A. Garcia Jurado
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.337-342
    • /
    • 1996
  • In prevoius works we have repored phonetic similarities between Japanese and Spanish voweis and syiiabic sounds. (1) (2) (3) (4). In the present communication we explore the relative importance of duration of the consonantal segment to elicit Spanish /l/ - /r/ distinction by native j Japanese talkers. Three Argentine and three trained native Japanese talkers recorded /l-r/ combined with /a/ in VCV sequences. Modifications of consonant duration and vowel context with transitions were m made by editing natural /ala/ sounds. Mixed VCV were produced by combining sounds of both languages. Perceptual tests were produced by combining sounds of both languages perceptual performed presenting the speech material, to native t trained and non trained Japanese listeners. In a tirst sessIOn a d discrimination procedure was applied. The items were arranged in pairs a and listeners Nere told to indicate the pair that sounded different. In the f following session they were asked to identify and type the letter corresponding to each one of the items. Responses arc examined in tenns of critical duration of the interval between vowels. Preliminary results indicate that the duration of intervocalic intervais was a relevant cue for the identification of /l/ and /r/. It seems that to differentiate the two sounds, Japanese listeners required relatively longer interval steps than the argentine suhjects. There was a tendency to conhlse more frequently /l/ for /r/ than viceversa.

  • PDF

음향 및 음소 정보를 이용한 연속제의 자동 음소 분할에 대한 연구 (A Study on Automatic Phoneme Segmentation of Continuous Speech Using Acoustic and Phonetic Information)

  • 박은영;김상훈;정재호
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.4-10
    • /
    • 2000
  • 본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리(Postprocessing)에 관한 연구이다. 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하고, 자동 분절 결과를 직접 합성 단위로 사용할 수 있는 대량의 합성용 운율데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 보정된 데이터의 특징벡터를 다층 신경회로망(MLP: Multi-layer perceptron)을 통해 학습을 한 후, 자동 분절 결과와 MLP 기반 후처리를 이용하여 새로운 음소 경계를 추출한다. 우선, 특징벡터 set은 음성학적 지식이 최대한 반영되도록 선정되었다. 그리고, 경계를 추출하기 위해서 비선형 패턴분리에 탁월한 성능을 보이는 MLP를 이용한다. MLP는 매우 다양하게 나타나는 음소 경계간 음성학적 특징을 단시간 내에 적용할 수 있기 때문이다. 마지막으로, 음운환경별로 특징 벡터가 적용되는 제안된 후처리 알고리즘을 이용하여 자동 분절의 경계 오류에 대한 보상이 이루어진다. 문장 단위로 발화된 합성용 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보다 약 19.9%의 향상된 성능을 보였으며, 절대오류 (|Hand label position-Auto label position|)는 약 28.6% 감소되었다.

  • PDF

어음청취역치와 순음청력검사의 상관관계에 관한 연구 (The Correlation Between Speech Reception Threshold and Pure Tone Audiometry)

  • 이철희;선우대활;민양기;백만기
    • 대한기관식도과학회:학술대회논문집
    • /
    • 대한기관식도과학회 1981년도 제15차 학술대회연제순서 및 초록
    • /
    • pp.38.2-39
    • /
    • 1981
  • 어음청취역치는 어음명료도검사를 위한 기초검사이며 순음청력검사의 신뢰도를 검증하는데도 이용된다. 순음청럭검사와 어음청취역치의 연관성을 보기위해 본원에 내원한 전음성난청환자 50이(33명), 정상인 30이(40명)에 대해 Grason-Stadler 1702 Audiometer를 사용하여 순음청력검사와 어음청취역치를 측정하여 다음과 같은 결과를 얻었다. 1) 어음청취역치와 회화음역에서의 순음평균치의 차이는 전음성난청의 경우 그 범위가 -3,3dB∼+8.3dB로 평근 2.4dB의 격차를 보였고 정상인의 경우 그 범위가 -6.7dB∼+5dB로 평균 1.9dB의 격차를 보였다. 2) 회화음역의 500Hz, 1,000Hz, 2,000Hz 각 주파수에서의 역치와 어음청취역치간의 차이는 전음성난청의 경우 500Hz에서 평균 6dB, 1,000Hz에서 평균 3dB, 2,000Hz에서 평균8.8dB였으며 정상인의 경우 500Hz에사 평균 3dB, 1,000Hz에서 평균 2dB, 2,000Hz에서 평균 5dB로서 전음성난청과 정상인에서 다같이 1,000Hz에서 어음청취역치와 순음역치의 차이가 가장 적었다.

  • PDF

음성/음악 분류를 위한 특징 비교 (The Comparison of features for Speech/Music Discrimination)

  • 이경록;서봉수;김진영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.157-160
    • /
    • 2000
  • 본 논문에서는 멀티미디어 정보에서 원하는 정보를 추출하는 멀티미디어 인덱싱 중 오디오 인덱싱의 전처리 부격인 음성/음악 분류실험을 하였다. 오디오 인덱싱에 있어서 음성/음악 분류기는 원 오디오 신호에서 정보를 가진 음성 부분을 분리하는 역할을 한다. 실험에서는 음성/음악 분류에서 널리 쓰이는 멜캡스트럼(Mel Cepstrum), 정규화 로그 에너지(normalized log energy), 영교차(Zero-Crossings)를 특징 파라미터로 사용하였다[l, 2, 3]. 특징공간은 GMM(Gaussian Mixture Model)에 의해 모델링 되었고, 오디오 신호의 분류는 각각 3가지 분류항목(음성, 음악, 음성+음악)과 2가지 분류항목(음성, 음악)을 적용하였다. 실험결과 3가지 분류항목 적용시와 2가지 분류항목 적용시 모두 멜캡스트럼을 사용하였을 때 가장 좋은 결과를 보였다.

  • PDF

자동초록 작성시에 발생하는 유사의미 문장요소들의 통합에 관한 연구 (A Study on the Integration of Similar Sentences in Atomatic Summarizing of Document)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제34권2호
    • /
    • pp.87-115
    • /
    • 2000
  • 유사문장의 식별 및 통합을 위하여 문장의 구성성분, 품사, 절유형, 위치 등이 미치는 영향을 조사하고 유사도측정 공식과 통합방안을 모색하였다. 문법적 요인보다는 문장간에 일치하는 단어의 수가 유사성에 영향을 미치며 표제어와 기능절도 관여되었다. 문장간의 유사도 측정 공식은 설튼의 유사도 측정식과 코싸인계수를 혼합하여 사용하였다. 유사문장들의 통합에서 절들의 대체 방법을 사용하였는데 앞으로는 단어들의 대체 방법으로 전환하여야 할 것이다.

  • PDF