• Title/Summary/Keyword: 유성음

Search Result 121, Processing Time 0.027 seconds

Speech Enhancement Based on Voice/Unvoice Classification (유성음/무성음 분리를 이용한 잡음처리)

  • 유창동
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.4
    • /
    • pp.374-379
    • /
    • 2002
  • In this paper, a nobel method to reduce noise using voice/unvoice classification is proposed. Voice and unvoice are an important feature of speech and the proposed method processes noisy speech differently for each voice/unvoice part. Speech is classified into voice/unvoice using zero-crossing rate and energy, and a modified speech/noise dominant-decision is proposed based on voice/unvoice classification. The proposed method was tested on conditions of white noise and airplane noise, and on the basis of comparing segmental SNR with the existing method and listening to the enhanced speech, a performance of the proposed method was superior to that of the existing method.

Voiced/Unvoiced/Silence Classification of Speech Signal Using Wavelet Transform (웨이브렛 변환을 이용한 음성신호의 유성음/무성음/묵음 분류)

  • 손영호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.449-453
    • /
    • 1998
  • 일반적으로 음성신호는 파형의 특성에 따라 파형이 준주기적인 유성음과 주기성 없이 잡음과 유사한 무성음 그리고 배경 잡음에 해당하는 묵음의 세 종류로 분류된다. 기존의 유성음/무성음/묵음 분류 방법에서는 피치정보, 에너지 및 영교차율 등이 분류를 위한 파라미터로 널리 사용되었다. 본 논문에서는 음성신호를 웨이브렛 변환한 신호에서 스펙트럼상에서이 변화를 파라미터로 하는 유성음/무성음/묵음 분류 알고리즘을 제안하고 제안된 알고리즘으로 검출한 결과와 이에 따른 문제점을 검토하였다.

  • PDF

A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech (음성의 유성음 특성을 이용한 음성/비음성 판별 방법)

  • Lee, Sung-Joo;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.411-412
    • /
    • 2007
  • 자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.

  • PDF

An Acoustic Analysis on the Plosives of Korean and Japanese

  • Lee Seungmie
    • MALSORI
    • /
    • no.21_24
    • /
    • pp.111-122
    • /
    • 1992
  • 본 논문에서는 한국어에 있어서 세 가지 유형의 파열음과 일본어에 있어서 두 가지 유형의 파열음과 일본어에 있어서 두 가지 유형의 파열음이 보여주는 시간적 특성을 어두 위치 및 모음간 위치로 나누어 비교해 보았다- 한국어에 있어서 세 가지 유형의 파열음은 어두 위치에서 모두 무성음으로 실현되므로 성의 대립으로는 이들을 유형화 할 수 없고, 그보다는 조음의 힘과 기식의 유무에 따라 연음, 무기 경음, 유기 경음으로 분류하는 것이 타당하다. 이에 비해 일본어 파열음은 유성음인 연음과 무성음인 경음의 두가지 유형으로 대립된다. 유성음과 무성음, 그리고 유기음과 무기음의 구분에는 파열음의 개방에서부터 성대 진동까지의 시간인 성 시작 시간(VOT)과 기식의 길이가 변수가 된다. 경음과 연음의 구분에는 선행 모음의 길이, 폐쇄 지속 시간, Vl/(Vl+CL)의 비율이 유용한 정보가 된다. 양국어 어두 파열음의 VOT를 비교해 볼 때, 일본어 유성음은 음수의 VOT를 가지며, 한국어 무기 경음에서는 VOT가 10msec정도로 짧게 나타나고, 그 다음으로 한국어 연음. 일본어 무성음, 한국어 유기 경음의 순서로 길어진다. $\frac{선행 모음의 길이}{(선행 모음의 길이+폐쇄 지속 시간)}$의 비율은 언어의 특성도 반영해 주는데, 한국어의 경우 연음: 무기 경음: 유기 경음의 비는 0.63: 0.30:0.35, 일본어의 경우 유성음:무성음의 비는 0.69: 0.45로 나타났다. 청취 실험을 통해 한국인의 자음 인식 경향을 살펴본 결과, 성대 진동의 유무를 변별적으로 사용하지 않는 한국인 화자는 일본어 유성음은 연음으로, 무성음은 경음으로 인식하는 경향이 있는 것으로 나타났다.

  • PDF

A Study on the speech synthesis-by-rue system using Multiband Excitation signal (다중대역 여기신호를 이용한 음성의 규칙합성에 관한 연구)

  • 경연정
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.80-83
    • /
    • 1993
  • 본 논문에서는 양질의 규칙합성을 얻기 위하여, 유성음에 대한 여기신호로 임펄스 스펙트럼과 노이즈 스펙트럼을 다중대역으로 혼합하여 생성한 여기신호를 규칙합성에 적용하는 방법을 제안한다. 이 방법에서는, 분석합성에서 각 프레임별로 요구되었던 혼합여기신호에 대한 정보량 문제를 해결하기 위해 유성음의 정상부분의 한 프레임에 대해 혼합여기신호를 구하여 규칙합성에 적용하였고, 정보량을 더욱 줄이는 방안으로, 켑스트럼 유클리디안 거리를 이용하여 유성음을 분류하여, 각 그룹에 대한 대표 여기신호를 규칙합성의 여기신호로 사용하였다. 제안된 방법으로 음성을 합성한 결과 양질의 합성음을 얻을 수 있음을 확인하였다.

  • PDF

An Acoustic study of Korean Lenis Stop Voicing -in relation to Prosodic Structures- (한국어 파열연자음 유성화에 관한 음향음성학적 고찰 -운율구조와 관련하여-)

  • Kim Hyo Sook;Kim Sun Ju;Kim Sunmi
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.383-386
    • /
    • 1999
  • 이 논문은 한국어 파열연자음이 유성음 환경에서 유성음화하는 현상을 운율구조와 관련해서 음향음성학적으로 고찰하는 것을 목적으로 한다. 이 논문에서는 첫째, 음성적 자질로서나 청각적인 판단에 의해서나 무성음과 유성음의 이분법으로 나뉘는 것을 음향적 고찰을 통하여 각각을 하위의 범주로 나누었다. 문장 안에서 파열연자음이 음향적으로 실현될 때 각각의 범주가 어느 정도의 빈도수로 출현하는지를 살펴보았다. 둘째, 한국어 파열연자음은 어절 초에서는 무성음으로 실현되나 앞뒤에 유성음이 오는 경우에는 유성화되는 음운규칙이 있는데, 음향적인 분석을 통하여 앞뒤에 유성음이 온다는 조건만으로 설명할 수 없는 예들을 발견하였다. 그리하여 인접음절(특히 앞음절에 오는 분절음의 특성)과 운율구조(액센트구 내에서의 위치, 억양구경계의 유무)를 함께 고려하는 파열연자음 유성화규칙의 조건을 제안하였다.

  • PDF

On the Classification of Voice Sound and the Recognition of Vowels for Korean Continuous Speech (한국어 연속음인식에 관한 연구(유성음 분류 및 단모음 인식 ))

  • 하판봉;이철희;방승찬;안수길
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.3
    • /
    • pp.28-35
    • /
    • 1986
  • 우리나라 음성의 유성음을 모음, 비음 및 유성화 자음으로 분류하는 알고리즘을 기술하였다. 먼 저 기존의 PITCH 검출 알고리즘에 의하여 음성을 유성음과 무성음으로 나눈 뒤, 단지 정규화된 1차 상 관계수, 영교차율, LOG 에너지 및 LPG 에너지의 골짜기 검출만을 이용하여, 유성음은 모음, 비음 및 유 성화자음으로 분류하고 무성음은 실제의 무성음과 묵음으로 분류하였다. 그리고 이렇게 분류된 모음에 대하여 단모음 인식을 행하였다. 단지 한 FRAME으로 모음을 대표하였기 때문에 메모리 크기와 인식 시간을 줄였다. 여기서 UP & DOWN 및 수정된 영교차율을 새로이 정의하여 적용한 결과 만족한 결과 를 얻을 수 있었다. LPC 매개변수 및 전력 스펙트럼도 단모음 인식의 FEATURE로 사용하였다. 그리고 각 FEATURE 의 성능을 비교하였다. 이들 FEATURE을 잘 조합하여 2단계 인식을 행한 결과 92%의 높은 인식율을 얻을 수 있었다.

  • PDF

Pitch Determination and Voiced/Unvoiced Decision of Noisy Speech Based on the Higher-Order Statistics (고차 통계를 이용한 잡음 환경에서의 음성신호의 피치 추출과, 유, 무성음 판별)

  • 신태영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.55-60
    • /
    • 1995
  • 고차 통계 방법을 이용하여 잡음이 섞인 음성 신호에서 피치를 구하는 방법과 이를 이용하여 유성음 및 무성음 구간을 구분하는 방법을 구현하고 그 결과를 기술하였다. 고차 통계의 일종인 3차 cumulant 함수의 경우 Gaussian 또는 대칭적인 분포를 갖는 잡음 신호를 음성신호로부터 효과적으로 분리하여 제거시키는 특징을 가지고 있으며, 이러한 특징을 이용하면 잡음 환경에서 여러 가지 음성 특징 파라메터들을 보다 신뢰도 높게 추정할 수 있다. 본 논문에서는 dam성 신호의 3차 cumulant 함수의 자기상관함수로부터 음성의 피치 주기를 추정하였으며, 피치 위치에서의 normalized peak 크기에 의해 유성음과 무성음을 구분하였다. 또한 성능 비교를 위해 음성 신호 자체의 자기 상관 함수로부터 역시 피치 주기 및 유성음/무성음 구분을 수행하였다. 백색 및 유색 Gaussian 잡음 환경에서의 음성의 피치 주기 추정 실험 결과 SNR가 낮은 경우에 3차 cumulant를 이용한 방법이 2차 통계에 비해 우수한 성능을 나타내었다. 또한 동일한 잡음 환경에서의 유성음/무성음 판별 시험에서도 3차 cumulant를 이용한 방법이 기존의 2차 통계를 이용한 방법에 비해 성능이 크게 향상된 결과를 얻었다.

  • PDF

Branch Algorithm for Phoneme Segmentation in Korean Speech Recognition System (한국어 음성인식 시스템에서 음소 경계 검출을 위한 Branch 알고리즘)

  • 서영완;한승진;장흥종;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.357-359
    • /
    • 2000
  • 음소 단위로 구축된 음성 데이터는 음성인식, 합성 및 분석 등의 분야에서 매우 중요하다. 일반적으로 음소는 유성음과 무성음으로 구분되어 진다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계추출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과 매개변수 (스펙트럼) 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 추출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 Branch 알고리즘을 설계하였다. Branch 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(Mel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정법을 사용하였고, 유성음과 무성음의 구분은 포만트 주파수를 이용하였다. 실험 결과 3~4음절 고립단어를 대상으로 약 78%의 정확도를 얻을수 있었다.

  • PDF

A study on the clinical utility of voiced sentences in acoustic analysis for pathological voice evaluation (장애음성의 음향학적 분석에서 유성음 문장의 임상적 유용성에 관한 연구)

  • Ji-sung Kim
    • The Journal of the Acoustical Society of Korea
    • /
    • v.42 no.4
    • /
    • pp.298-303
    • /
    • 2023
  • This study aimed to investigate the clinical utility of voiced sentence tasks for voice evaluation. To this end, we analyzed the correlation between perturbation-based acoustic measurements [jitter percent (jitter), shimmer percent (shimmer), Noise to Harmonic Ratio (NHR)] using sustained vowel phonation, and cepstrum-based acoustic measurements [Cepstral Peak Prominence (CPP), Low/High spectral ratio (L/H ratio)] using voiced sentences. As a result of analyzing data collected from 65 patients with voice disorders, there was a significant correlation between the CPP and jitter (r = -.624, p = .000), shimmer (r = -.530, p = .000), NHR (r = -.469, p = .000).This suggests that the cepstrum measurement of voiced sentences can be used as an alternative to the analysis limitations of the pathological voice such as not possible perturbation-based acoustic measurement, and result difference according to the analysis section.