• 제목/요약/키워드: reference speaker

검색결과 87건 처리시간 0.026초

유전자 알고리듬을 이용한 화자 적응적 음성인식 (Genetic Algorithm for Speaker Adaptation in Speech Recognition)

  • 임동철
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.107-110
    • /
    • 1998
  • 본 논문은 DTW(Dynamic Time Warping)을 이용한 음성인식에서 표준패턴(reference patterns)으로 사용되는 벡터열을 GA(Genetic Algorithm)을 이용하여 보다 적응된 패턴의 벡터열로 생성하는 방법을 제시한다. 본 논문의 필요성은 다음과 같다. 음성인식의 주요한 엔진들 중에 하나로 DTW가 사용된다[1]. DTW는 표준패턴과 시험패턴(test patterns)간의 최적 경로(optimal path)를 찾아내어 가장 유사한 패턴을 찾아내는 방법을 말한다. 그러나 음성은 같은 발음에 대해서도 사람의 발성 길이와 목의 상태 등에 따라 다양한 패턴으로 나타나며 동일 화자의 같은 어휘도 시간과 환경에 따라 변한다. 따라서 이러한 음성의 동적 특성에 적응하는 방법이 필요하다. 본 논문은 이러한 문제에 대한 해결 방법으로 GA를 이용하여 보다 적합하고 적응적인 표준 패턴을 생성시켜 적응하는 방법을 개발하였다.

  • PDF

A Study on Design and Implementation of Embedded System for speech Recognition Process

  • Kim, Jung-Hoon;Kang, Sung-In;Ryu, Hong-Suk;Lee, Sang-Bae
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.201-206
    • /
    • 2004
  • This study attempted to develop a speech recognition module applied to a wheelchair for the physically handicapped. In the proposed speech recognition module, TMS320C32 was used as a main processor and Mel-Cepstrum 12 Order was applied to the pro-processor step to increase the recognition rate in a noisy environment. DTW (Dynamic Time Warping) was used and proven to be excellent output for the speaker-dependent recognition part. In order to utilize this algorithm more effectively, the reference data was compressed to 1/12 using vector quantization so as to decrease memory. In this paper, the necessary diverse technology (End-point detection, DMA processing, etc.) was managed so as to utilize the speech recognition system in real time

동시발화에 나타나는 발화 속도 변이 분석 (Speech Rate Variation in Synchronous Speech)

  • 김미란;남호성
    • 말소리와 음성과학
    • /
    • 제4권4호
    • /
    • pp.19-27
    • /
    • 2012
  • When two speakers read a text together, the produced speech has been shown to reduce a high degree of variability (e.g., pause duration and placement, and speech rate). This paper provides a quantitative analysis of speech rate variation exhibited in synchronous speech by examining the global and local patterns in two dialects of Mandarin Chinese (Taiwan and Shanghai). We analyzed the speech data in terms of mean speech rate and the reference of "Just Noticeable difference (JND)" within a subject and across subjects. Our findings show that speakers show lower and less variable speech rates when they read a text synchronously than when they read alone. This global pattern is observed consistently across speakers and dialects maintaining the unique local variation patterns of speech rate for each dialect. We conclude that paired speakers lower their speech rates and decrease the variability in order to ensure the synchrony of their speech.

피춰 추출 관점에서 기준 화자 수 증가에 따른 음성 인식 성능 분석 (Performance Analysis of Speech Recognition by Increasing the Number of Reference Speaker)

  • 이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.111-114
    • /
    • 1998
  • 음성을 인식하기 위해서는 주어진 음성을 미리 정한 기준 음성과 비교하여 가장 유사한 것을 갖는 과정을 거치게 된다. 같은 단어라도 화자에 따라서 발음 속도, 음의 강약이 틀리므로 화자 독립 음성 인식을 위해서는 여러 화자가 발음한 음성을 기준 음성으로 사용하여 인식 성능을 향상시킬 수 있다. 그러나 화자 수를 증가시켜도 인식 성능의 향상에는 한계를 보이고 있다. 이러한 문제점은 현재 음성에서 추출되는 피춰가 인식에 필요한 정보를 충분히 포함하지 않는 것과 인식 알고리즘의 효율성 등에서 원인을 찾을 수 있다. 본 논문에서는 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 멜켑스트럼을 추출하고 DTW에 의해 인식을 수행하여 피춰 추출의 관점에서 화자 수 증가에 따른 인식률의 변화와 그 한계에 대해서 분석한다.

  • PDF

LPC Cepstrum과 집단화를 이용한 한국어 고립단어 인식에 관한 연구 (A Study on Korean isolated word recognition using LPC cepstrum and clustering)

  • 김진영;성굉모
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.44-54
    • /
    • 1987
  • 본 논문은 화자독립 고립단어 인식에 있어서 LP모델의 문제점과 그 해결 방안으로서 cepstrum영역에 있어서 lifter를 이용한 해결에 대해서 고찰하였다. 한편, 각 인식 단어의 기준 패턴을 구하기 위한 방법으로서 집단화의 방법에 대해 논하였다. 집단화의 방법으로서는 UWA방법과 K-iteration방법을 변형시킨 KMA 방법을 제시 비교하였다. 인식실험결과 정현파 lifter와 KMA의 집단화 방법을 사용하였을 때 $95\%$의 최고 인식률을 보였다.

  • PDF

음장과 외이도 내부에서의 음성 비교 (The comparison of the voice between the free field and the external auditory canal)

  • 허승덕;김리석;고도흥;이정학
    • 음성과학
    • /
    • 제7권4호
    • /
    • pp.83-90
    • /
    • 2000
  • The purpose of this study was to examine some acoustic characteristics in the ear canal. It was assumed that a sound outside the external auditory canal could be different from the sound inside the external auditory canal. The acoustic signals were captured by a probe microphone placed at a distance within 1 cm from the tympanic membrane, and a reference microphone was placed over the upper pinna. Three vowels /a/, /i/, /u/ were recorded from a normal adult male speaker. The parameters such as the formant frequency ($Fl\simF5$) and the peak intensity were measured using a speech analyser, PCquirer. It was found that the entering part of the external auditory canal functions as a narrowing point as to the speech that passes through the free field. Results show that acoustic characteristics were changed for speech discrimination rather than speech perception.

  • PDF

운율 및 분절음의 독립적 발음 평가 연구: 영어 원어민과 한국인 영어 학습자의 영어 발음 평가 차이를 중심으로 (A Study of an Independent Evaluation of Prosody and Segmentals: With Reference to the Difference in the Evaluation of English Pronunciation between Native Speakers of English and Korean Learners of English)

  • 박한상
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.101-107
    • /
    • 2010
  • This study investigates the difference in the evaluation of English pronunciation quality between native speakers of English and Korean learners of English. This study employs a novel method of independently evaluating the prosody and segmentals of English sentences. A set of stimuli were made by swapping the prosody and the segmentals of English sentences read by a native speaker of American English and a Korean learner of English. Evaluations of the difference level of stimuli pairs and the goodness of the pronunciation quality showed that both native speakers of English and Korean learners of English give priority to the segmentals but native speakers of English were more sensitive to the difference in prosody in the evaluation of English pronunciation.

  • PDF

HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구 (A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.74-82
    • /
    • 1995
  • 본 논문은 HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구이다. HMM(Hidden Markov Model)은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, HMM의 학습 방법인 maximum like-lihood estimation은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 었다. 이러한 문제점을 보완하기 위하여 Segmental K-means 학습 과정에 후저리를 이용하여 인식 실험을 하였다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level Building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가하였다. 이렇게 추가된 단어 모델들에 대한 몇 가지 규칙을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시 스템은 TMS320C30 프로세서를 내장한 DSP 보드와 IBM PC 상에서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성 화자3명을 대상으로 작성하였다. 인식 실험 결과 21종 전화 번호 252개 데이타에 대하여 화자 종속의 경우 $91.6\%$, 회자 독립의 경우 $80.5\%$의 인식률을 나타내었다.

  • PDF

차량용 블루투스 스피커를 위한 EMC를 고려한 4층 PCB 설계 (Design of 4-Layer PCB Considering EMC for Automotive Bluetooth Speaker)

  • 윤기영;김부균;이성수
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.591-597
    • /
    • 2021
  • 본 논문에서는 전자파 방출을 줄이기 위해 필터나 디커플링 캐패시터를 사용하는 대신에 PCB 내의 칩 배치, 배선 모양 등을 변경하여 위험신호의 배선 길이와 귀환경로를 짧게 하는 EMC 고려 PCB 설계 기법을 제안하였다. 제안하는 기법에서는 PCB 상의 여러 가지 신호에 대해 신호속도를 계산하고, 신호속도가 가장 높은 위험신호에 대해 선로를 가능한 짧게 하도록 가장 먼저 칩의 위치를 선정하고 배선도 가장 먼저 수행해야 한다. 또 위험신호의 귀환경로에 불연속이 발생하지 않도록 설계하며 귀환경로의 기준이 되는 전원판과 접지판이 분할되어 있지 않도록 한다. CISPR-32, CISPR-25 등의 전자파 적합성 시험을 통과하지 못했던 차량용 블루투스 지향성 스피커에 이 기법을 적용하여 PCB를 재설계한 후 EMC 측정을 수행하였더니 해당 전자파 적합성 시험을 수월하게 통과할 수 있었다. 제안하는 기법은 EMC 특성이 중요한 전자기기에 유용하게 쓰일 수 있다.

텔레매틱스 시스템을 위한 반향제거 및 Barge-In 기능을 갖는 음성인터페이스 (Speech Interface with Echo Canceller and Barge- In Functionality for Telematic System)

  • 김준;배건성
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.483-490
    • /
    • 2009
  • 본 논문에서는 배경잡음과 반향이 존재하는 차량환경에서 음성인식 성능을 향상시키기 위해 상관계수를 이용한 동시통화 검출 알고리즘을 적용한 음향 반향제거기와 barge-in 기능을 갖는 음성 인터페이스를 구현하였다. 상관계수를 이용한 동시통화 검출 알고리즘은 임계치 설정 및 배경잡음의 영향 등으로 인해 검출 오류가 발생한다. 이를 보완하기 위해 동시통화 검출 조건으로 매 샘플마다 입력신호에서 추정한 배경잡음 및 반향신호의 평균 전력을 이용하여 동시통화 검출 오류를 줄였으며, 시변의 임계치를 적용한 후처리 단을 통해 시변의 잔여 잡음 성분을 제거하였다. 또한 안내음성 중에 음성입력이 가능하도록 barge-in 기능을 적용한 음성 인터페이스 시스템을 구현하였다. 제안한 음성 인터페이스 시스템은 동시통화 검출 오류와 이로 인해 발생되는 문제점을 효율적으로 해결할 수 있음을 실험을 통하여 확인하였다.