• 제목/요약/키워드: 음성 파라메터

검색결과 76건 처리시간 0.022초

숫자음성 자동 인식에 관한 일실험 (An Experiment of a Spoken Digits-Recognition System)

  • 오영환
    • 대한전자공학회논문지
    • /
    • 제15권6호
    • /
    • pp.23-28
    • /
    • 1978
  • 본 논문은 복수화자를 대상으로 한 숫자음성자동 시스템의 개발을 위한 기초 실험 결과의 보고다. ZCR, 대수 에너지등의 파라메터에 의한 무성자음의 분류, 선형예측에 의한 formant 주파수의 추정 및 그를 이용한 모음 및 유성자음의 인식을 행했다. 성인 남성 한 사람의 숫자음에 대한 인식실험의 결과, 음소(phoneme) 결합시의 과도 부분이나, 음소 인식 단계에서의 국소적 오인식을 흡수 할 수 있는 algorithm을 채용함으로써 양호한 인식 결과를 얻을 수 있었다. 앞으로, 독수제자를 대상으로 한 인식실험, 인식시스템의 개선과 한께 국어의 음성학적 제성질의 연구를 해 나갈 예정이다.

  • PDF

강인한 화자 확인 시스템을 위한 World 모델을 이용한 켑스트럼 정규화 연구 (A Study of Cepstrum Normalization Using World Model for Robust Speaker Verification)

  • 김유진;정재호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.55-58
    • /
    • 2000
  • 본 논문에서는 화자 확인 시스템의 등록과 확인 과정의 채널 환경 불일치로 성능이 저하되는 문제를 해결하기 위한 새로운 정규화 방법에 대해 설명한다. 제안된 방법은 첫째, 입력 음성으로부터 효과적으로 채널을 추정$\cdot$보상하고 둘째, 스코어 정규화 과정에서 사칭자 모델로서 사용되는 world모델과의 차이를 채널 추정 및 화자 모델 생성에 효과적으로 사용하는 것을 목표로 한다. 이를 위해 입력 음성의 켑스트럼과 HMM world 모델의 파라메터인 평균 켑스트럼과의 차이를 통해 음소열에 종속적인 채널 켑스트럼인 Phone-Dependent Difference Cepstrum을 추정한다. 한편 입력 음성의 음소열은 world모델의 스코어를 얻는 과정에서 함께 얻어질 수 있다. 채널 추정 실험 결과를 통해서 가장 일반적인 채널 정규화방법인 CMS에 의해 추정된 채널에 비해 실제 채널과 유사하며 화자 고유의 특성을 왜곡시키지 않는 채널 추정이 가능함을 확인할 수 있었다.

  • PDF

HMM 기반 혼용 언어 음성합성을 위한 모델 파라메터의 음절 경계에서의 평활화 기법 (Syllable-Level Smoothing of Model Parameters for HMM-Based Mixed-Lingual Text-to-Speech)

  • 양종열;김홍국
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.87-95
    • /
    • 2010
  • In this paper, we address issues associated with mixed-lingual text-to-speech based on context-dependent HMMs, where there are multiple sets of HMMs corresponding to each individual language. In particular, we propose smoothing techniques of synthesis parameters at the boundaries between different languages to obtain more natural quality of speech. In other words, mel-frequency cepstral coefficients (MFCCs) at the language boundaries are smoothed by applying several linear and nonlinear approximation techniques. It is shown from an informal listening test that synthesized speech smoothed by a modified version of linear least square approximation (MLLSA) and a quadratic interpolation (QI) method is preferred than that without using any smoothing technique.

  • PDF

우리말 연속음성의 음절 분할법 (A Syllabic Segmentation Method for the Korean Continuous Speech)

  • 한학용;고시영;허강인
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.70-75
    • /
    • 2001
  • 본 논문은 우리말 연속음성에 대한 음절단위 분할법을 제안한다. 이 방법은 다음 3단계로 이루어진다: (1) 음성의 시간영역 분할 파라메터인 피치, 에너지, ZCR, PVR을 이용하여 음성데이터를 자음, 자음. 묵음 단위로 라벨링하여 토큰 (Token)을 형성, (2) 형성된 토큰을 유한상태오토마타를 이용하여 한국어 음절구조로 파서 (Parser)를 설계하여 스캐닝 (Scanning), (3) 의사 음절핵 정보를 이용하여 두개 혹은 여러 개의 음절을 가지는 음성부분에 대한 재분할을 통하여 음절단위 분할 완성. 제안된 방법에 대한 성능 평가를 위해서 문장과 단어단위 연속음성에 대한 분할 실험결과 각각 73.7%와 85.9%의 분할률을 얻었다.

  • PDF

음성 특징 파라메터를 이용한 모바일 기반의 OTP 설계 (Design of OTP based on Mobile Device using Voice Characteristic Parameter)

  • 차병래;김남호;김종원
    • 한국항행학회논문지
    • /
    • 제14권4호
    • /
    • pp.512-520
    • /
    • 2010
  • 유비쿼터스와 모바일의 광범위한 응용과 더불어 통신 보안은 최근 중요한 관심사가 되고 있다. 따라서 각각의 보안 요소마다 다양한 기법 및 응용에 대한 연구와 시스템적 응용에 대한 연구가 활발히 이루어지고 있다. 본 논문에서는 음성의 특징을 이용한 모바일 OTP의 일회용 암호키를 생성하는 방법을 제안한다. 본 연구는 강력한 개인 인증에 사용되는 바이오매트릭스의 음성 정보를 이용하여 가변적이고 안전한 일회용 암호 키를 생성하였으며, 또한 제안 기법에 대한 덴드로그램(dendrogram)을 이용한 음성 특징점에 의한 준동형적(homomorphic) 가변성 그리고 음성 특징점의 분포를 시뮬레이션 하였다.

가변율 half rate 음성 부호화기의 설계 (Design of a Variable half rate speech codec)

  • 성호상
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.293-296
    • /
    • 1998
  • 본 논문에서는 다양한 멀티미디어 서비스를 위해 가변율 half rate 음성 부호화기를 설계하였다. 유, 무성음과 묵음의 구분을 위해 본 논문에서는 프레임 에너지와 음성 파라메터들을 이용한 효과적인 voicing 결정 알고리즘을 사용하였다. 유성음을 위한 half rate 음성 부호화기는 저속에서 좋은 특성을 보이는 generalized AbS구조를 이용하였다. LPC 계수는 LSP 계수로 변환한 후 predictive 2-stage VQ를 통해서 양자화하며, 여기 신호는 음질저하를 최소화하며 복잡도를 감소시킨 shift 방식의 대수적 고정 코드북 구조를 사용하고, 적응코드북과 여기코드북의 이득은 VQ로 양자화 하였다. 무성음을 위한 부호화기는 대부분이 유성음을 위한 부호화기와 동일하지만, 무성음에서는 피치간 상관도가 매우 낮으므로 피치 보간 방법을 사용하지 않고 개루프로 피치 lag를 찾은 후 전체 프레임에 사용한다. 1 kb/s 부호화기는 묵음 구간과 주변소음 구간에 사용되며 이 구간의 신호를 피치 성분이 미약한 주변소음들로 제한하고 이에 최적인 부음성 부호화기를 설계하였다. 최종적으로 완성된 가변율 half rate 부호화기는 voice activity factor(VAF)가 0.47인 시험음성에서 약 2.6 kb/s의 평균 전송률을 보였다. 주관적 음질 평가의 일환으로 IS-96 표준 코덱인 가변율 8 kb/s QCELP와 A-B preference 시험을 실시하였다. 시험 결과 평균전송률이 약 2배인 가변율 8 kb/s QCELP 보다 우수한 음질 성능을 보였다.

  • PDF

감정 인식을 위한 음성의 특징 파라메터 비교 (The Comparison of Speech Feature Parameters for Emotion Recognition)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.470-473
    • /
    • 2004
  • In this paper, the comparison of speech feature parameters for emotion recognition is studied for emotion recognition using speech signal. For this purpose, a corpus of emotional speech data recorded and classified according to the emotion using the subjective evaluation were used to make statical feature vectors such as average, standard deviation and maximum value of pitch and energy. MFCC parameters and their derivatives with or without cepstral mean subfraction are also used to evaluate the performance of the conventional pattern matching algorithms. Pitch and energy Parameters were used as a Prosodic information and MFCC Parameters were used as phonetic information. In this paper, In the Experiments, the vector quantization based emotion recognition system is used for speaker and context independent emotion recognition. Experimental results showed that vector quantization based emotion recognizer using MFCC parameters showed better performance than that using the Pitch and energy parameters. The vector quantization based emotion recognizer achieved recognition rates of 73.3% for the speaker and context independent classification.

  • PDF

퍼지 스무딩을 이용한 향상된 음성인식 (A Study on Improvement of Speech Recognition by Fuzzy Smoothing)

  • 김대수;김종교
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.13-16
    • /
    • 1999
  • 이산 HMM을 이용한 음성인식을 할 때, 관측심볼은 훈련 데이터의 양자화과정을 수행하여 얻게 된다. 훈련 데이터는 선정된 몇몇 화자에 의해서 얻어지게 되는데, 이러한 이유로 인하여 충분하지 못한 훈련 데이터가 얻어지므로, 관측 심볼에 따라 출력확률분포값이 영(zero)이나, 거의 영에 가까운 값을 가지게 된다. 이러한 요인은 인식률의 저하를 초래하므로, 본 논문에서는 fuzzy smoothing 기법을 채택하여, 출력확률분포값이 영(zero)의 값을 가지는 것을 방지하여, 새로 구해진 파라메터로 인식실험을 하였다. Smoothing과정을 수행한 후의 인식률이 smoothing을 하진 않은 인식율에 비해 평균 $1.46\%$ 향상되었다.

  • PDF

스펙트럼 기반 여기신호 추출을 통한 HMM기반 음성합성기의 음질 개선 방법 (Spectrum Based Excitation Extraction for HMM Based Speech Synthesis System)

  • 이봉진;김성우;백순호;김종진;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.82-90
    • /
    • 2010
  • 본 논문에서는 HMM기반 음성합성시스템에서 합성음의 음질 개선을 위한 방법으로 스펙트럼 정보에 기반한 여기신호 추출방법을 제안한다. 제안된 방법은 스펙트럼 정보와 여기신호를 함께 통계적 모델로 만든 후에 합성 과정에서 스펙트럼 정보를 기반으로 여기신호를 추출해 냄으로써 스펙트럼 파라메터에 가장 적합한 여기신호를 사용할 수 있다. 제안된 방법으로 합성음의 음질을 MUSHRA 테스트 및 WB-FESQ점수를 통해 확인해 본 결과, 비슷한 조건에서 기존에 사용되는 STRAIGHT 방법을 이용한 합성음보다 좋은 음질을 얻을 수 있었다.

멀티미디어 트랙픽의 QoS 지원을 위한 CDMA 무선데이터링크 프로토콜 설계 및 성능분석 (Design and Performance Analysis of CDMA Radio Link Protocols for QoS Control of Multimedia Traffic)

  • 조정호;이형옥;한승완
    • 한국통신학회논문지
    • /
    • 제25권4A호
    • /
    • pp.451-463
    • /
    • 2000
  • 본 논문에서는 CDMA ATM 이동망에서 음성, 비디오 고속 데이터 등의 멀티미디어 서비스를 제공하기 위한 QoS 보장형의 데이터링크 프로토콜을 설계하고 그 성능을 분석하였다. 이동 멀티미디어 트래픽을 지원하기 위해 요구되는 QoS 파라메터 및 특성을 분석하고, CDMA 무선망과 ATM망간의 접속을 위한 무선접속 프로토콜의 스택구조 및 계층별 기능을 제시한 후, QoS를 지원하기 위한 무선 데이터링크 프로토콜을 설계한다. 음성과 데이터 트래픽을 동시에 지원하는 시스템을 가정하여 데이터링크 프로토콜을 분석한다. 데이터 트랙픽의 경우 SREJ ARQ방식과 Type-1 Hybrid ARQ방식을 지연 및 처라량 관점에서 비교 분석하고, 음성 트래픽의 경우 BCH 코딩을 사용하여 데이터 트래픽 부하변화에 따른 음성 패킷으 에러율을 분석하다. 분석 결과로서 구현상의 복잡도는 높아질 수 있으나 QoS를 만족시키는 적응적 ARQ와 에러율 요구를 만족시키는 적응적 FEC 코딩을 이용하는 방식이 효율적임을 알 수 있다.

  • PDF