• Title/Summary/Keyword: 김화자

Search Result 184, Processing Time 0.021 seconds

The Effect of the Telephone Channel to the Performance of the Speaker Verification System (전화선 채널이 화자확인 시스템의 성능에 미치는 영향)

  • 조태현;김유진;이재영;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.5
    • /
    • pp.12-20
    • /
    • 1999
  • In this paper, we compared speaker verification performance of the speech data collected in clean environment and in channel environment. For the improvement of the performance of speaker verification gathered in channel, we have studied on the efficient feature parameters in channel environment and on the preprocessing. Speech DB for experiment is consisted of Korean doublet of numbers, considering the text-prompted system. Speech features including LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair) are analyzed. Also, the preprocessing of filtering to remove channel noise is studied. To remove or compensate for the channel effect from the extracted features, cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl) are applied. Also by presenting the speech recognition performance on each features and the processing, we compared speech recognition performance and speaker verification performance. For the evaluation of the applied speech features and processing methods, HTK(HMM Tool Kit) 2.0 is used. Giving different threshold according to male or female speaker, we compare EER(Equal Error Rate) on the clean speech data and channel data. Our simulation results show that, removing low band and high band channel noise by applying band pass filter(150~3800Hz) in preprocessing procedure, and extracting MFCC from the filtered speech, the best speaker verification performance was achieved from the view point of EER measurement.

  • PDF

Speaker Adaptation Performance Evaluation in Keyword Spotting System (500단어급 핵심어 검출기에서 화자적응 성능 평가)

  • Seo Hyun-Chul;Lee Kyong-Rok;Kim Jin-Young;Choi Seung-Ho
    • MALSORI
    • /
    • no.43
    • /
    • pp.151-161
    • /
    • 2002
  • This study presents performance analysis results of speaker adaptation for keyword spotting system. In this paper, we implemented MLLR (Maximum Likelihood Linear Regression) method on our middle size vocabulary keyword spotting system. This system was developed for directory services of universities and colleges. The experimental results show that speaker adaptation reduces the false alarm rate to 1/3 with the preservation of the mis-detection ratio. This improvement is achieved when speaker adaptation is applied to not only keyword models but also non-keyword models.

  • PDF

A Study on the Production of the English Word Boundaries: A Comparative Analysis of Korean Speakers and English Speakers (영어 단어경계에 따른 발화 양상 연구: 한국인 화자와 영어 원어민 화자 비교 분석)

  • Kim, Ji Hyang;Kim, Kee Ho
    • Phonetics and Speech Sciences
    • /
    • v.6 no.1
    • /
    • pp.47-58
    • /
    • 2014
  • The purpose of this paper is to find out how Korean speakers' speech production in English word boundaries differs from English speakers' and to account for what bring about such differences. Seeing two consecutive words as one single cluster, the English speakers generally pronounce them naturally by linking a word-final consonant of the first word with a word-initial vowel of the second word, while this is not the case with most of the Korean speakers; they read the two consecutive words individually. In consequence, phonological processes such as resyllabification and aspiration can be found in the English speakers' word-boundary production, while glottalization, and unreleased stops are rather common phonological process seen in the Korean speakers' word-boundary production. This may be accounted for by Korean speakers' L1 interference, depending on English proficiency.

On a Template Extraction of phrase unit by Pitch Searching (피치 검색에 의한 Phrase 단위의 Template 추출에 관한 연구)

  • Kim JongKuk;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.77-80
    • /
    • 2004
  • 원화자로부터 목표 화자의 음성으로 변환을 위해서는 음운 및 피치변환이 이루어져야 한다. 원 음성과 목표 음성 신호 사이에 따른 발성길이, 크기 및 피치 등의 운율 특성은 화자의 개인성 및 발성문장의 의도를 나타내는 주요 역할을 한다. 본 논문에서는 음성 변환을 수행하기 위하여 발성된 음성의 강세구(phrase)단위의 피치 검출을 통하여 템플릿을 추출하는 방법을 제안한다. 우선 한국어의 운율구에 대한 정보가 필요한 것인지, 한국어는 어떤 운율 구조를 갖는지에 대하여 알아본다. 마지막으로 어떻게 연속음성으로부터 한국어에 적당한 운율구 단위를 나눌 것인지, 즉 자동 세그멘테이션 및 레이블링에 대하여 분석한다. 또한 논문에서는 한국어 문장음성의 운율구를 강세구와 억양구로 나누고 육안으로 표시한 운율구 단위를 기준으로 이 운율구 단위에 적합한 특징을 추출하여 패턴을 작성한다.

  • PDF

A Study on the Phoneme Segmentation Using Neural Network (신경망을 이용한 음소분할에 관한 연구)

  • 이광석;이광진;조신영;허강인;김명기
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.5
    • /
    • pp.472-481
    • /
    • 1992
  • In this paper, we proposed a method of segmenting speech signal by neural network and its validity is proved by computer simulation. The neural network Is composed of multi layer perceptrons with one hidden layer. The matching accuracies of the proposed algorithm are measured for continuous vowel and place names. The resulting average matching accuracy is 100% for speaker-dependent case, 99.5% for speaker-independent case and 94.5% for each place name when the neural network 1,; trained for 6 place names simultaneously.

  • PDF

A Study on Phoneme-Based PSOLA Speech Synthesis Using LSP (LSP를 이용한 음소단위 PSOLA 음성합성에 관한 연구)

  • 권혁제;조순계;김종교
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.2
    • /
    • pp.3-10
    • /
    • 1998
  • 본 논문에서는 음소단위 PSOLA 한국어 합성을 LSP line의 조절과 자모음 분석을 통해서 실시하였다. 음성합성에서 많이 사용하는 triphone, diphone, demisyllable등과 같은 합성단위들은 자연스러운 합성음을 위해 다양한 음운환경에서 수집된다. 그러나, 이런 방법 은 많은 시간과 메모리가 요구된다. 본 논문에서는 합성단위로서 자음17개, 모음 16개로 총 33개의 음소를 이용하였다. 자음은 후위모음/이/인 CV에서 segment되고, 모음은 단음절의 단모음과 이중모음을 1인의 화자로부터 합성데이터를 수집하였다. 또한, 10명의 화자가 발성 한 CV에서 각 모음에 따라 변하는 자음의 주파수를 분석하였고, CV+VC 또는 CV+CV에서 각 자음에 따라 변하는 모음의 포먼트변화를 분석하였다. 분석결과를 토대로 모음은 LSP line을 조절해서 PSOLA합성을 하고, 자음은 합성하려는 모음과 결합하였다. 그 결과 6개의 합성단어에 대한 청취율은 65%를 보였다.

  • PDF

A Statistical Approach to Phoneme Segmentation through Multi-step Compensation (다단계 보상 기능을 갖는 통계적 방법에 의한 음소 분할)

  • 김홍국;이황수;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.5
    • /
    • pp.69-76
    • /
    • 1991
  • 본 논문에서는 통계적 방법에 의한 음소의 자동분할에 관한 알고리즘을 제안하였다. 우선 음성 신호를 AR 모델로 모델링한 후 스펙트럼이 변화하기 전과 변화한 후의 모델에 대해서 likelihood ratio 와 mutual information을 고려한 test statistics 로부터 모델 계수가 변화하는 곳을 예측해 내고 이 곳을 음소의 경계로 판단한다. 이 경우 검파되지 못하는 대부분의 음소는 짧은 자음이었으며 Signed front-to-back maximum area ratio을 이용하여 개선하였다. 또한 false alarm error을 줄이기 위해 두 segment 사이의 distortion 으로부터 smoothing을 하였다. 3명의 화자에 대한 실험 결과 non-detection error는 10%, false alarm error는 20% 정도로 나타났지만 화자간에 알고리즘의 성능 변화가 거의 없으 며 특히 분할된 경계치 분포는 전체 음소의 90% 이상이 이 30ms 이내에 위치하였다.

  • PDF

A car number retrieving system using speech recognition for PDA (PDA상에서 음성인식을 이용한 차량번호 조회시스템)

  • 김우성;김동환;윤재선;홍광석
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.281-284
    • /
    • 2001
  • In this paper, we present a car number retrieving system using speech recogntion and speech synthesis for PDA. This system consist of 4-digit numbers and command speech recognition as well its speech synthesis. Experiment results showed 4-digit numbers recognition rate 97% and commands recognition 99% through speaker-independent method.

  • PDF

User Adjustment Post-Process Using Neural Network In Isolated Word Speech Recognition (고립단어 음성인식에서 신경망을 이용한 사용자 적응형 후처리)

  • Kim, Young-Jin;Kim, Eun-Ju;Kim, Myoung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.736-738
    • /
    • 2005
  • 최근 PDA나 PMP와 같은 개인용 모바일 기기의 인터페이스 개발로써 잡음환경에 강인한 음성인식 기술들이 연구되고 있으며 이러한 방법으로 오류패턴, 순차패턴, 의미정보, 문맥정보와 같이 인식기에 독립적인 정보를 이용하거나 영상 정보와 같이 언어와 성격이 다른 이질적인 정보를 이용하여 후처리를 하는 연구들이 진행되어 왔다. 그러나 인식기와 독립적인 정보로 후처리를 하는 방법들의 인식률은 인식기의 사전 인식률이 주변 잡음에 의해 떨어질 경우 후처리 인식률도 같이 떨어지는 현상이 벌어진다. 따라서 본 논문에서는 주변 잡음으로 인한 인식기의 사전 인식률에 저하를 줄이는 방법으로 사용자 적응형 후처리를 제안한다. 사용자 적응형 후처리에 사용되는 데이터는 사용자의 발화에 대한 인식기의 출력 값들이며, 출력 값들은 화자독립모델에 의해 계산되는 각 단어들의 유사도 들이다. 따라서 화자독립모델의 결과를 사용자 적응형 후처리에 적용한 결과 인식기의 오류를 $58.7\%$ 줄일 수 있었다.

  • PDF

Lernerstrategien beim Deklinationserwerb im Deutschen (독일어 명사변화 습득을 위한 학습자 전략)

  • Kim Kab-Nyun
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.7
    • /
    • pp.25-41
    • /
    • 2003
  • 외국어 습득 시 우리는 모국어와 배우려는 언어 사이에 존재하는 언어적 차이 때문에 많은 실수를 한다. 한국어와 독일어 사이에는 물론이고 언어사적으로 친밀한 관계에 있는 언어들 사이에도 이런 어려움은 있다. 본 논문에서 필자는 Erika Diehl(1991)의 연구를 바탕으로 외국어 학습자들이 독일어 명사변화 습득 시 이러한 어려움을 극복하기 위해 특정한 전략을 사용하는가 하는 문제를 다루었다. Diehl은 2차 언어 습득은 언어적 과도체계를 형성하며 이루어진다는 견해이다. 즉 학습자는 특정하고 동일한 학습자 언어를 형성하며 외국어를 습득한다고 한다. 그녀는 연구대상 언어로 독일어와 불어를 선택하여 불어 모국어 사용자의 독어 명사변화 습득을 관찰하여 이러한 실수의 원인으로 대비가정, 동일가정, 중간언어 가정을 든다. 그러나 불어 모국어 화자들이 2차 언어로서의 독일어 명사변화 학습 시행하는 실수의 정확한 원인이 간언어적 원인인지 언어내적 이유인지 정확히 규명할 수는 없었다. 필자는 본 논문을 토대로 한국어 모국어 화자들의 독일어 명사변화 습득과정을 살펴보는 논문을 계획한다.

  • PDF