• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.025초

리아프노프 지수를 이용한 음성신호 종점 탐색 방법 (Endpoint Detection of Speech Signal Using Lyapunov Exponent)

  • 장한;김정연;정길도
    • 전자공학회논문지SC
    • /
    • 제46권1호
    • /
    • pp.28-33
    • /
    • 2009
  • 음성 인식 연구에서 잡음이 존재하는 음성 발음의 처음과 끝을 찾아내는 것은 매우 중요하다. 음성 종점 탐지를 위한 기존의 방식으로는 2개의 간단한 시간 영역 측정법인 단시간 에너지와 단시간 영점교차 비율 방법이 있다. 위의 방법들은 낮은 신호 대 잡음비의 환경에서는 정확한 결과를 보장 할 수 없기 때문에 본 논문에서는 시간 영역 파형의 리아프노프 지수를 이용하여 음성의 시작과 종점을 구별하는 새로운 접근법을 제시하였다. 제안한 방법은 Mel-Scale특징 방법에서 요구되는 종점 탐지 과정을 위한 주파수 영역 매개변수를 얻는 과정이 필요 없기 때문에 보다 간단하다. 제안한 방법의 성능 검증을 위해 아라비아 숫자의 음성단어 분석에 적용해 보았으며, 결과를 통하여 제안한 방법이 인식률을 현저히 증가시킴을 확인하였다.

HMM기반 자동음소분할기의 음소분할 오류 유형 분석 (The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation)

  • 김민제;이정철;김종진
    • 한국음향학회지
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2006
  • 합성음의 음질을 향상시키기 위하여 분할된 corpora로부터 합성유닛을 선택하여 사용하는 연속음성합성에서 정확한 음소분할은 매우 중요하다. 일반적으로 음소분할은 사람에 의해 수행되지만 많은 작업량으로 인한 시간적 지연, 일관 성 유지 어려움 등 많은 문제가 발생한다. 이에 따라 음성인식에서 도입된 HMM 기반의 자동음소분할이 음성인식, 음성 합성에서 널리 사용되어지고 있지만 음성전문가의 수작업 결과와 비교할 때 HMM 기반 자동음소분할은 오류가 있고, 이는 합성음 품질의 열화의 주요 원인이 되고 있다. 본 논문에서는 HMM 기반의 자동음소분할기를 사용하여 나타난 자동음소분할 결과와 수작업에 의한 음소분할 결과를 비교하고 유형별로 분석함으로써 음성합성의 성능향상을 위해 개선해야 할 문제점들을 제시한다. 실험에서는 ETRI의 표준형 한국어 공통 음성 DB을 사용하였고, 오차의 범위가 20ms를 벗어난 경우를 분절 오류로 간주하였다. 실험 결과 여성화자의 경우 파열음 + 모음, 파찰음 + 모음, 모음 + 유음 음소쌍에서는 각각 약 99%, 99.5%, 99%의 높은 정확률을 보인 반면, 폐쇄음 + 비음, 폐쇄음 + 유음, 비음 + 유음 음소쌍에서는 44.89%, 50%, 55% 의 낮은 정확률을 보였으며, 남성화자에 대한 실험결과에서도 유사한 경향을 보였다.

음성응답과 기록을 통한 가정 방문객 관리 시스템의 구현 -쌍 1차 차분을 통한 음성 파형부호화용 예측기- (On Realizing the Voice Response and Recoding System for a Home Visitor - A Predictor for the waveform Coding of Speech Signals by using the Dual First-Order Difference Values-)

  • 배명진;이미숙;임운천
    • 한국음향학회지
    • /
    • 제11권1호
    • /
    • pp.60-66
    • /
    • 1992
  • 음성표본간의 자기상관관계를 살펴보면 인접한 양쪽 표본의 자기상관관계가 시간지연된 여러 차수의 것보다는 크게 나타난다. 그러므로 현재표본을 기준으로 몇 차 지연된 과거값을 이용하여 현재값을 에측하는 것보다는 바로 인접한 과거 및 미래의 표본에 의해 현재의 표본값을 예측하는 것이 더 효과적이다. 따라서 본 논문에서는 한 표본 미래값과 한 표본 과거값을 취하여 현재의 표본을 예측하는 파형부호화용 예측기를 새로이 제안하였다. 제안된 예측기는 CCITT-표준 ADPCM보다 예측이득이 최고 9dB까지 높게 얻어졌다.

  • PDF

WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산 (A Fast Normalized Cross-Correlation Computation for WSOLA-based Speech Time-Scale Modification)

  • 임상준;김형순
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.427-434
    • /
    • 2012
  • WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.

하모닉 코딩과 CELP방법을 이용한 저 전송률 음성 부호화 방법 (Low Rate Speech Coding Using the Harmonic Coding Combined with CELP Coding)

  • 김종학;이인성
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.26-34
    • /
    • 2000
  • 본 논문에서는 선형예측 잔여신호에 대한 하모닉 벡터 여기 코딩에, 시간 대역 분리 혼합 코딩을 결합한 4kbps 음성코더를 제안한다. 하모닉 벡터 여기 코딩은 유성음 구간에서 하모닉 여기 코딩을 사용하며, 무성음 구간에 대해서는 분석-합성 구조의 벡터 여기 코딩을 사용한다. 그러나, 이러한 양단 모드 코딩 방법은 유성음과 무성음이 혼재하는 전이 구간에서는 비효과적이므로, 유/무성음 모드 코딩 이외의 새로운 방법이 요구된다. 이에, 전이 구간을 위한 시간 분리 전이 코딩을 설계하였으며, 여기서, 유/무성음 결정 알고리즘은 단위 구간 내의 유성음과 무성음의 존속기간을 결정하고, 이전 구간의 유/무성음 결정에 따라 하모닉-하모닉 코딩과 벡터-하모닉 코딩을 선택적으로 사용한다. 복호화기에서는 하모닉 크기값들의 IFFT 과정을 통해 유성음 여기신호가 효과적으로 합성되며, 무성음 여기신호는 역 벡터 양자화를 통해 만들어진다. 재 복원된 음성 신호는 중첩합산 방법에 의해 합성된다.

  • PDF

자극음의 음향적 특성과 청각 뇌간에서의 전기생리학적 반응의 상관성 (Correlation of acoustic features and electrophysiological outcomes of stimuli at the level of auditory brainstem)

  • 전현지;한우재
    • 한국음향학회지
    • /
    • 제35권1호
    • /
    • pp.63-73
    • /
    • 2016
  • 청각기관의 음조체계로 인해 사람들은 일반적으로 주파수 분포에 따라 소리를 듣는다. 그러나 어음인지 측면에서 어음의 음향적 특성이 사람의 뇌에서 어떻게 인식되는지는 여전히 명확하지 않다. 따라서 본 연구에서는 유사한 고주파수 음향적 특성을 갖는 두 개의 어음이 청각 뇌간에서 전기생리학적으로 어떻게 발현되는 지 확인하고자 하였다. 정상 청력을 지닌 20대 성인 33명이 실험에 참여하였다. 자극음으로 두 개의 한국어 단음절 /자/와 /차/, 4개의 주파수로 구성된 톤버스트음(500, 1000, 2000, 4000 Hz)을 사용하여 청성뇌간반응을 얻었다. 연구 결과, 단음절과 톤버스트음 모두 높은 재현성을 보였고, 파형 V는 모든 피검자에게서 잘 발현되었다. 피어슨 상관관계 분석 결과, 3671 ~ 5384 Hz 대역에서 에너지 분포를 갖는 /자/ 음절은 4000 Hz의 톤버스트음과 높은 상관관계를 나타냈다. 그러나 /차/ 음절은 1000 Hz와 2000 Hz의 톤버스트음과 높은 상관성을 보여, 3362~5412 Hz의 음향적 특성과 청각 뇌간에서 생리학적 반응은 일치하지 않았다. 이러한 결과를 바탕으로 사람의 어음인지과정을 면밀히 조사하기 위해 음향-청지각적 매핑후속 연구가 필요하겠다.

노인음성신호처리에서의 젠더 분석 (Gender Analysis in Elderly Speech Signal Processing)

  • 이지연
    • 디지털융복합연구
    • /
    • 제16권10호
    • /
    • pp.351-356
    • /
    • 2018
  • 화로 인한 성대의 변화는 음성의 주파수를 변화시킬 수 있으며, 그 노인음성 신호는 다양한 분석을 통해 정상음성 신호와 자동으로 구분할 수 있다. 본 연구의 목적은 기존 스마트 의료 시스템의 노령자 음성 인식 성능을 향상시키고, 음성을 이용한 편리한 인터페이스를 제공함으로써 빠르게 변화하고 있는 기술사회에서 제외될 수 있는 노인과 장애인들에게 쉽게 접근 할 수 있는 도구를 제공하는 것이다. 본 연구에서는 성 분석으로서, 연구 대상의 성별을 보고했고, 여성과 남성 음성 샘플 개수를 동일하게 사용하였다. 또한 젠더 분석을 적용하여 모든 연령의 목소리를 사용하지 않고 노령자의 목소리를 목표로 설정하여 실험을 수행하였다. 마지막으로, 우리는 성별 및 젠더 편견을 줄이기 위한 표준 및 참조 모델의 재검토 방법을 적용하였다. 본 연구에서는 70세에서 80세까지의 한국인 여성 10명과 남성 10명의 노령자 음성을 사용했다. 파형을 보고 직접 추출한 F0 값과 TF32와 Wavesufer 음성 분석 프로그램에서 추출된 F0를 비교했을 때, TF32보다 Wavesufer가 노인음성의 F0를 더 잘 분석하는 것을 알 수 있었다. 그러나 노령자 대상 노인음성용 음성분석프로그램이 필요하며, 노령자의 음성을 분석함으로써 기존 스마트 의료 시스템의 음성 인식 및 합성 성능을 향상시킬 수 있을 것으로 기대한다.

손실이후 프레임 정보에 의한 패킷손실은닉 알고리즘 개선 (Improvement of Packet Loss Concealment Algorithm by Utilizing Next Good Frame Info.)

  • 김재현;한민수
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.101-112
    • /
    • 2002
  • In real time packetized voice application, missing packets are major source of voice quality degradation. Thus packet loss concealment (PLC) algorithms are needed to guarantee QoS of VoIP. In this paper, we describe packet loss concealment scheme utilizing the next good frame which follows loss packets. When this scheme is combined with other PLC algorithms, such as G.711 pitch waveform replication recommended by ITU-T LP based PLC algorithm, additional voice quality improvement is obtained for consecutive packet loss larger than 60 msec.

  • PDF

기저함수의 가중합을 이용한 음원의 모델링 (Voice Source Modeling Using Weighted Sum-of-Basis-Functions Model)

  • 강상기
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.171-174
    • /
    • 1998
  • 본 논문에서는 음성합성(speech synthesis) 및 부호화(coding) 시스템에 있어서 음원(voice source) 모델링에 관한 문제를 살펴보고자 한다. 기존의 음원 모델링 시스템이 가지고 있는 여러 문제들을 극복하고자 기저함수(basis function) 의 가중 합(weighted-sum)으로 음원을 모델링 하는 새로운 기법을 제안하고자 한다. 제안한 방법에서는 음원 파형(voice source waveform)을 적절히 표현하기 위해서 필터뱅크(filter bank)에 기초한 기저함수의 가중 합으로 나타낸다. 다양한 음원 특성을 효과적으로 나타내는 음원 파라미터를 구하기 위하여 EM(estimate maximize)에 기초한 구조에 관해 조사한다. 제안한 방법을 이용하여 다양한 유성음에 대해 실험을 수행하였다. 실험결과 제안한 추정(estimation) 방법 및 모델링 방법을 이용하면 기존의 방법에 비해 더 정확한 음원 파형을 추정할 수 있고, 다양한 음원 특성을 나타낼 수 있다. 또한 음성합성 및 부호화에서도 음성품질(voice quality)를 개선시킬 수 있으리라 기대된다.

  • PDF

쌍 1차 자기상관관계를 이용한 음성 파형부호화용 예측기의 구현 -쌍 1차 차분값과 시그마-델타 기법을 적용 - (On Realizing the Predictor for the Waveform Coding of Speech Signals by using the Dual First Order Autocorrelation)

  • 이미숙;배명진;이주헌
    • The Journal of the Acoustical Society of Korea
    • /
    • 제11권1E호
    • /
    • pp.23-29
    • /
    • 1992
  • 음성파형은 인근 표본값들 사이에 높은 상관관계를 나타낸다. 음성신호의 상관관계를 증가시키 기 위한 한 방법으로는 부호화하기 전에 입력신호를 단순히 적분시키는 방법이다. 이 적분된 rqkt들은 수신기에서 일반 미분기에 의해 제거될 수 있다. 이렇게 하면 음성신호의 저역주파수가 강조되고 인근 표본값의 자기 상관관계가 증가된다. 이런 과정을 시그마-델타 기법이라 한다. 이 논문에서는 그러한 시 그마-델타의 특성을 사용하는 예측기를 새로이 제안한다. 즉, 부호화하기 전에 입력신호를 적분하고 인 근한 과거 및 미래의 두 표본을 사용하여 적분된 현재표본을 예측한다. 제안된 예측기는 CCITT-권고 형 ADPCM의 평균 예측이득보다 8.65db 높게 얻어졌다.

  • PDF