• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.022초

음주가능성 판단을 위한 VTS 음성파형 보상에 관한 연구 (A Study on VTS Speech Waveform Compensation for Drinking Probability Judgement)

  • 이원희;배성근;배명진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.191-192
    • /
    • 2017
  • 해상에서는 도로가 아닌 해상 위라는 환경 때문에 음주단속을 실시하여 음주운항을 예방하기엔 어려움이 존재한다. 원거리로 신체정보를 보낼 수 있는 음성을 통하여 음주단속을 한다면 거리가 얼마나 떨어져 있더라도 실시간으로 측정이 가능하다. VTS 무선 교신 환경을 이용하여 음성을 통신할 때도 무선 환경이 고르지 못할 경우에 클리핑이 일어나 음주가능성 판단율이 저하될 수 있다. 따라서 본 논문에서는 음성신호가 왜곡이 되어 음주 가능성 여부의 판단율 오차를 줄이기 위해 신호를 보상하는 방법을 제안하였다.

  • PDF

심층 신경망을 이용한 음성 신호의 부호화 이력 검출 (Coding History Detection of Speech Signal using Deep Neural Network)

  • 조효진;장원;신성현;박호종
    • 방송공학회논문지
    • /
    • 제23권1호
    • /
    • pp.86-92
    • /
    • 2018
  • 본 논문에서는 디지털 음성 신호의 부호화 이력을 검출하는 방법을 제안한다. 음성 신호를 디지털 방식으로 전송 또는 저장할 때 데이터양을 줄이기 위해 부호화한다. 따라서 음성 신호 파형이 주어질 때, 해당 신호가 원본인지 부호화된 신호인지 판단하고, 만일 부호화 되었다면 부호화 횟수를 검출하는 부호화 이력 검출 과정이 필요하다. 본 논문에서는 12.2kbps 비트율의 AMR 부호화기에 대하여 원본, 단일 부호화, 이중 부호화 여부를 판단하는 부호화 이력 검출 방법을 제안한다. 제안한 방법은 입력 음성 신호에서 음성 고유의 특성 벡터를 추출하고, 해당 특성 벡터를 심층 신경망으로 모델링 하는 방법을 사용한다. 본 논문에서 제안하는 특성 벡터가 일반적인 스펙트로그램으로부터 추출한 특성 벡터보다 우수한 부호화 이력 검출 성능을 제공하는 것을 확인하였다.

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현 (Context-adaptive Smoothing for Speech Synthesis)

  • 이기승;김정수;이재원
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.285-292
    • /
    • 2002
  • 문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

시간/주파수 전이신호를 위한 향상된 2.4 kbps 하모닉 스토케스틱 여기 음성 부호화 방법 (Enhaced 2.4 kbps Harmonic Stochastic Excitation Coding for Time/Frequency Transitional Speech)

  • 김종학;이인성
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.53-58
    • /
    • 2000
  • 본 논문은 주파수 전이신호와 시간 전이 신호에 대해서 고조파 잡음 여기 방법과 시간 분리 여기 방법을 적용한 2.4 kbps 음성부호화 방법을 제안한다. 혼합 여기 부호화 방법은 주기 신호와 비 주기 신호를 효과적으로 표현하기 위해 하모닉 잡음 모델을 사용한다. 혼합신호에 대한 잡음 성분은 캡스트럴 분석 방법을 사용함으로써 추출되고, AR (Autoregressive Model) 모델에 의해 표현된다. 시간 전이구간 신호에서의 모호한 음성을 효과적으로 제거하기 위한 또 다른 방법이 제안된다. 제안된 시간 분리 방법은 시간 에너지 변화정도를 관찰함으로써 전이 시점을 감지하고 다른 시간 길이를 가지는 두 블록으로 분리하여 분석한다. 시간 분리 방법은 분석을 위한 비대칭 윈도우와 합성에서의 위상 합성 방법을 포함한다. 제안된 방법을 사용한 2.4 kbps 음성부호화 방법은 주관적 음질 평가에서 전이구간에서의 지각적 음질의 향상을 보여주었으며, 원본 음성 스펙트럼과의 고조파 비 매칭에 의한 윙윙거리는 기계적인 잡음을 감소시킨다.

  • PDF

소리체제에서 음향 자질[noise]: 한국어와 기타 언어들에서의 한 예증 (An acoustic feature [noise] in the sound pattern of Korean and other languages)

  • 이석재
    • 음성과학
    • /
    • 제6권
    • /
    • pp.103-117
    • /
    • 1999
  • This paper suggests that the onset-coda asymmetry found in languages like Korean and others should be dealt with in terms of one acoustic feature rather than other articulatory features, claiming that the acoustic feature involved here is [noise], i.e., 'aperiodic waveform energy'. It determines the structural well-formedness of the languages in question whether a coda ends in [noise] or not, regardless of the intensity, the frequency, and the time duration of the [noise]. Fricatives, affricates, aspirated stops, tense stops, and released stops are all disallowed in the coda position due to the acoustic feature [noise] they, commonly end with if they were, posited in the coda. The proposal implies that the three seemingly separate prohibitions of consonants in the coda position -- i) no fricatives/affricates, ii) no aspirated/tense stops, and iii) no released stops -- are directly correlated with each other. Incorporation of the one acoustic feature [noise] in the feature theory enables us to see that the aspects of onset-coda asymmetry are derived from one single source: ban, of [noise] in the coda.

  • PDF

각국 언어 특성에 독립적인 CELP 계열 보코더에서의 계산량 단축 알고리즘 (The Computation Reduction Algorithm Independent of the Language for CELP Vocoders)

  • 민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2451-2454
    • /
    • 2003
  • In this paper, we propose the computation reduction methods of LSP(Line spectrum pairs) transformation that is mainly used in CELP vocoders. In order to decrease the computational time in real root method the characteristic of four proposed algorithms is as the following. First, scheme to reduce the LSP transformation time uses met scale. Developed the second scheme is the control of searching order by the distribution characteristic of LSP parameters. Third, scheme to reduce the LSP transformation time uses voice characteristics. Developed the fourth scheme is the control of searching interval and order by the distribution characteristic of LSP parameters. As a result of searching time, computational amount, transformed LSP parameters, SNR, MOS test, waveform of synthesized speech, speech, spectrogram analysis, searching time reduced about 37.5%, 46.21%, 46.3%, 51.29% in average, computational amount is reduced about 44.76%, 49.44%, 47.03%, 57.40%. But the transformed LSP parameters of the proposed methods were the same as those of real root method.

  • PDF

화자의 발음에 대한 통계적 모델의 적용에 관한 연구 (A study on application of the statistic model about an utterance of the speaker)

  • 김대식;배명진;윤재강
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.25-28
    • /
    • 1988
  • A speech that play a part of important mediation in the man's conversation is the sound of representation to man's emotion and thought, then voice sound could be verified and identified a speaker's speech by individual property. This study indicates as distribution of pitch in searching for sample number of each pitch with eye in the sound waveform of speaker. We propose the algorithm that judge speaker's emotion state, personality, regional group, age, sex distinction, e.t.c., according to the deviation degree.

  • PDF

ON A REDUCTION OF PITCH SEARCHING TIME BY PREPROCESSING IN THE CELP VOCODER

  • Kim, Daesik;Bae, Myungjin;Kim, Jongjae;Byun, Kyungjin;Han, Kichun;Yoo, Hahyoung
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.904-911
    • /
    • 1994
  • Code Excited Linear Prediction (CELP) speech coders exhibit good performance at data rates below 4.8 kbps. The major drawback to CELP type coders is their many computation. In this paper, we propose a new pitch search method that preserves the quality of the CELP vocoder with reducing complexity. The basic idea is to apply the preprocessing technique beforehand grasping the autocorrelation property of speech waveform. By using the proposed method, we can get approximately 77% complexity reduction in the pitch search.

  • PDF

시간영역에서의 파형분석에 의한 무제한 어휘 합성 및 음절 유형별 규칙합성음 음질평가 (Speech Synthesis for the Korean large Vocabulary Through the Waveform Analysis in Time Domains and Evauation of Synthesized Speech Quality)

  • 강찬희;진용옥
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.71-83
    • /
    • 1994
  • 본 논문은 한국어 문어면환(TTS : Text-to-Speech) 시스템내에서의 음성합성시 음질 및 자연성 개선을 위한 연구 결과이다. 합성방법으로는 단음절단위의 파형을 시간영역에서 분석(표1)하여 규칙합성에 필요한 매개변수(표2)를 추출하여 규칙합성시켰다. 실험에 사용된 음절은 한국어 발음 대사전의 빈도순위에 따라 V형 19개, CV형 80개, VC형 30개, CVC형 100개등 총 229음절을 선정하여 규칙합성시켰다. 규칙합성음의 평가방법으로는 229개의 규칙합성음중 음절 유형별로 15개씩 무작위로 추출한 합성음을 사전지식이 없는 임의의 그룹을 선정하여 이해도, 명료도, 잡음감, 자연성등 4가지 항목에 대하여 주관적인 오피니온 평가를 수행하였다. 실험결과, 합성음의 음질은 대단히 명료한 수준이었으며, 운율요소의 제어결과는 지속시간(장단)과 악센트(강약)의 제어(그림 9, 그림 10)가 가능하였으며, 피치주기(억양)의 제어도 Lagrange 보간법을 사용함으로써 가능하였다(그림 11, 그림 12).

  • PDF

잡음에 강한 음성 인식에서 SNR 기준 함수를 사용한 가우시안 함수 변형 및 결정에 관한 연구 (A Study on Variation and Determination of Gaussian function Using SNR Criteria Function for Robust Speech Recognition)

  • 전선도;강철호
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.112-117
    • /
    • 1999
  • 잡음에 강한 음성인식시스템을 위하여 주파수 차감법을 사용할 경우 음성 신호마저 차감하여 신호를 더욱 부식시키는 경우가 존재한다. 본 연구에서는 이러한 경우를 위해서 프레임 마다 추정 잡음과 차감 신호의 SNR(Signal to Noise Ratio) 함수로부터 반연속 HMM(Hidden Markov Model)의 가우시안 함수를 변형 및 결정하는 방법을 제안한다. 이 방법의 타당성을 위해 프레임마다 추정 잡음의 오류 정도가 추정 잡음의 크기와 관계함을 신호 파형 형태로써 보였으며, 이러한 이유에서 SNR을 기준으로 가우시안 함수를 변형 및 결정하게 된다. 실험에서 80㎞/h 이상의 속도로 달리는 차량 내에서 배경 잡음과 음성이 혼합되었을 때의 음성 인식율을 평가하였다. 그 결과 주파수 차감한 경우와 차감하지 않은 경우에 비해 본 논문에서 제안한 SNR에 의한 가우시안 결정 방법이 더욱 향상된 인식율을 보였다.

  • PDF