• 제목/요약/키워드: 무성음

검색결과 122건 처리시간 0.028초

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF

후행하는 자음의 여러 특성에 따른 영어 모음 길이에 관한 연구 (A study on English vowel duration with respect to the various characteristics of the following consonant)

  • 유현빈;이석재
    • 말소리와 음성과학
    • /
    • 제14권1호
    • /
    • pp.1-11
    • /
    • 2022
  • 본 연구는 영어에서 어말 자음의 유무성성에 따라 선행하는 모음의 길이에 차이가 나타나는 현상이 어말 자음, (부분) 무성음화 정도, 폐쇄음의 파열 여부와 가지는 상관관계에 대해서 살펴보고자 한다. 또한, 선행 모음의 길이 차이에 대한 여러 설명 중 무성 자음 앞 모음보다 유성 자음 앞 모음을 더 길게 발화하여 어말 자음의 유무성성을 구별한다는 기능적인 관점을 중심으로 연구 결과를 보고자 한다. 본 연구는 영어 원어민 화자들을 대상으로 발화 실험을 진행하고 선행하는 모음의 길이, 어말 유성 자음의 (부분) 무성음화 정도, 어말 폐쇄음의 파열 유무를 측정하였다. 발화 실험 결과, 어말 자음의 유무성성에 따른 선행 모음 길이 차이의 비율은 어말 자음이 폐쇄음인지, 마찰음인지에 따라 달라지지 않았다. 또한, 어말 유성 자음의 (부분) 무성음화 정도가 크게 나타날수록 어말 유성 자음 앞 모음의 길이가 길게 나타나며 기능적 관점에서 예측한 바와 일치하는 결과가 나타났다. 마지막으로, 기능적 관점에 따른 예측과는 다르게 선행 모음 길이 차이의 비율은 어말 폐쇄음이 파열 없이 발화되었을 때보다 파열하여 발화되었을 때 더 크게 나타났다. 이러한 결과는 어말 자음의 유무성성에 따른 선행 모음 발화 길이의 차이를 기능적 관점으로만 설명하기에는 한계가 있다는 것을 시사한다.

유.무성음 및 묵음 식별에 관한 연구 (A Study on the Voiced, Unvoiced and Silence Classification)

  • 김명환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1984년도 추계학술발표회 논문집
    • /
    • pp.73-77
    • /
    • 1984
  • This paper reports on a Voiced-Unvoiced-Silence Classification of speech for Korean Speech Recognition. In this paper, it is describe a method which uses a Pattern Recognition Technique for classifying a given speech segment into the three classes. Best result is obtained with the combination using ZCR, P1, Ep and classification error rate is less than 1%.

  • PDF

이중 여진 음성모델을 이용한 음질개선 (A Voice/Unvoice Decomposition in Noisy Background)

  • 유창동
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.175-178
    • /
    • 1998
  • 음질개선에 이줄 여진(Double Excitation) 음성모델을 적용하는 방법이 있다. 유성음과 무성음 성분들로 분리하는 이 방법은 각 성분들의 고유한 성질을 이용하여 음질을 저하시키는 wideband 잡음을 제거할 수 있다. 이중 여진 음성모델을 이용한 음질개선 시스팀과 기존의 스펙트랄 제거(spectal subtraction) 알고리즘을 비공식적으로 비교한 결과 이중 여진 모델을 이용한 방법이 더 나은 성능을 보였다.

  • PDF

유성/무성/묵음 분류기와 주파수 스펙트럼을 이용한 음소 경계 검출 (Phoneme Segmentation Using Voice/Unvoiced/Silence Classifier and Spectral Information)

  • 이상래;한현배;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.86-91
    • /
    • 1999
  • 본 논문에서는 유성/무성/묵음 분류기와 주파수 스펙트럼 비교를 통하여 음소 경계 검출기를 구현하였다. 음소경계 검출은 음성 인식, 합성 및 분석 둥의 분야에서 매우 중요하다 유성/무성/묵음 분류기를 이용하여 유성음으로 판별되는 구간은 스펙트럼 비교를 통하여 음소 단위로 세분하였고 무성음으로 판별되는 구간은 한국어의 음성 특성을 고려하여 하나의 음소 단위로 간주하였다. 유성음 구간에 대한 스펙트럼 비교는 수정된 Itakura-Saito distance measure 와 Euclidean MFCC(Mel Frequency Cepstrum Coeffcients) distance measure를 사용하였고 비교 프레임은한 프레임을 건너 윈 경우가 가장 결과가 좋았다. 최종적으로 평균 음소 길이 정보를 이용하여 음소의 경계로 검출된 구간을 더 세분하거나 통합하였다. 유성/무성/묵음 분류기의 경우는 사무실에서 녹음한 고립단어에 대하여 $94.247\%$의 정확도를 보였고 음소 경계 검출의 경우는 $72.8\%$의 정확도를 보였다.

  • PDF

주파수 영역의 선택정보를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Selected Information in a Frequency Domain)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.57-66
    • /
    • 2006
  • 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 새로운 멀티펄스 음성부호화 방식 (FBD-MPC)를 제안하였다. 실험결과, 여자 음성의 경우 TSIUVC 추출율은 84.8%(파열음), 94.9%(마찰음), 92.3%(파찰음), 남자 음성의 경우는 88%(파열음), 94.9%(마찰음), 92.3%(파찰음)의 결과를 얻었다. 아울러, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성할 수 있었으며, 유성음/무성음 선택정보를 이용한 MPC와 유성음/무음/TSIUVC를 이용한 FBO-MPC를 평가한 결과, FBO-MPC의 음질이 MPC의 음질에 비하여 개선되었음을 알 수 있었다.

  • PDF

프레임 분류와 합성필터의 변형을 이용한 적은 지연을 갖는 음성 부호화기의 성능 (Improving LD-CELP using frame classification and modified synthesis filter)

  • 임은희;이주호;김형명
    • 한국통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1430-1437
    • /
    • 1996
  • 중간 주파수 대역(8kbps) 이하에서 적은 지연을 갖는 벡터여기 선형예측 음성 부호화기(LD-CELP)에 대하여 고려한다. 합성필터를 입력 프레임의 종류에 따라 변화시켜 음성 부호화기의 성능을 향상시키고자 한다. 먼저 프레임을 유성음과 무성음 그리고 개시 프레임으로 분류한다. 유성음과 무성음 프레임에서는 합성필터의 스펙트럼 포락을 음운의 특성에 적합하도록 변화시킨다. 개시 프레임에서는 합성필터의 성격을 바꾸어주기 위하여 바이어스 필터를 이용한다. 제안된 부호화기는 다른 적은 지연을 갖는 벡터여기 선형예측 음성 부호화기들에 비하여 비슷한 지연시간을 갖으면서 더 나은 음질을 제공하였다.

  • PDF

전화망 환경에서의 연속숫자음 인식 성능평가 (Performance Evaluation of Telephone Continuous Digit Recognition)

  • 김성탁;김상진;정호영;김회린;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.253-256
    • /
    • 2002
  • 한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.

  • PDF

FIR-STREAK 디지털 필터를 사용한 피치추출 방법에 관한 연구 (A Study on Pitch Extraction Method using FIR-STREAK Digital Filter)

  • 이시우
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.247-252
    • /
    • 1999
  • 낮은 Bit Rate의 음성부호화 방식을 구현하기 위해 필요한 파라메터로서 피치정보가 있다. 연속음성에서 정규화 된 피치정보를 추출하는 방법에서는 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서 피치추출 오류가 발생한다. 이러한 오류를 억제하기 위하여 본 연구에서는 FIR-STREAK 필터의 출력 잔차신호에서 피치정보를 얻는 개별 피치추출법을 제안하였다. 이 방법은 피치정보를 정규화하지 않고 연속적으로 변위하는 피치간격을 적절하게 나타낼 수 있다. 실험결과, 개별 피치추출법은 음성의 시작이나 끝부분, 무성음 혹은 무성자음과 유성음이 같이 존재하는 프레임, 프레임 경계부에서도 유효한 피치정보를 얻을 수 있음을 알 수 있었다. 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식등에 응용할 수 있을 것으로 기대된다.

  • PDF

LSP 파라미터의 분포특성을 이용한 EVRC의 음질개선에 관한 연구 (A Study on the Improvements of the Speech Quality by using Distribution Characteristics of LSP parameters in the EVRC(Enhanced Variable Rate Codec))

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제12권12호
    • /
    • pp.5843-5848
    • /
    • 2011
  • EVRC에서는 채널 스펙트럼의 효율을 높이고 시스템의 소비 전력을 줄이기 위하여, 통화시간 중에서 사용자가 말을 할 때만 음성신호를 압축하여 전달하고, 말을 하지 않을 때는 음성신호를 전달하지 않는다. 또한, EVRC에서는 음성 프레임을 1, 1/2, 1/8의 세 가지 전송률로 구분하여 다르게 처리 하고 있으며, 예를 들어, 1/8 전송률은 입력 신호가 묵음구간인 것을 의미한다. 본 연구에서는 LSP 파라미터의 분포특성을 이용한 유성음 구간, 무성음 구간, 묵음 구간을 구분하는 방법을 사용하여, 유성음인 경우에 대해 1 rate으로 부호화하고, 무성음 구간의 경우는 1/2 rate, 묵음의 경우에는 1/8 rate으로 전송하는 방법에 대하여 제안하였다. 즉, EVRC에서 full rate으로 보내는 부분에 대해서는 기존의 방식을 그대로 적용하며, half rate은 유성음, 무성음을 구분하여 유성음일 경우 full rate으로 바꾸어 전송하였고, 묵음에 대해서는 EVRC 기본 rate을 적용하였다. 실험과정에서는, SNR, ASDM, 전송률을 측정하였으며, 제안한 알고리즘을 사용하는 경우 EVRC에 비해 음성품질이 향상됨을 증명하였다.