• Title/Summary/Keyword: 음성구간 검출

Search Result 158, Processing Time 0.025 seconds

시간-주파수영역에서의 새로운 피치검출 방법 (A New Pitch Detection Method in time-Frequency Domain)

  • 김종국;최호진;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.805-808
    • /
    • 2001
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하나 만일 음성신호의 기존주파수를 정확히 검출할 수 있다면 음성인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성합성 시에 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석시 피치에 동기 시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 따라서 제안한 논문에서는 시간영역처리에서 시간영역파형에서 먼저 성도성분이 제거된 성문특성 즉 피치주기 성분을 강조하기 위해 음성신호의 기울기를 이용한 Positive 센터 클리핑를 수행하고 주파수 영역에서는 원신호의 스펙트럼과 센터클립된 신호의 스펙트럼과의 Peak-Fiting을 수행하고 선형 인터폴래이션(스무딩)을 통해 평탄화된 스펙트럼을 얻었다. 결과적으로 유성음 구간과 음성이 변하는 전이구간에서 G-peak가 강조된 더욱 정확한 Pitch를 검출할 수 있었다.

  • PDF

연속 숫자음의 음절 수 검출

  • 김득수
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1998년도 공동추계학술대회 경제위기 극복을 위한 정보기술의 효율적 활용
    • /
    • pp.785-790
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 발음한 음성의 음절 개수 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지에 대한 확률밀도함수를 이용하여 연속 음성에서 음절갯수검출 알고리듬을 제안, 실험을 통하여 그 유효성을 확인하고자한다. 이를 위하여 음성자료로서는 국어 공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 음향학적 특징을 분석하기 위하여 확률밀도함수 및 음절의 최소구간 및 단위시간의 확률밀도 함수의 값을 이용하였다. 그 결과 KLE 데이터에서 스펙트럼에너지만 이용한 경우 고립음절을 3.7%이며 본 논문의 알고리듬을 적용한 경우 4음절은 약 60%의 결과가 되며 제안한 방법의 유효성을 확인하였다.

RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구 (A study on pitch detection for RUI emotion classification based on voice)

  • 변성우;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

통계적 비선형 차원축소기법에 기반한 잡음 환경에서의 음성구간검출 (Voice Activity Detection in Noisy Environment based on Statistical Nonlinear Dimension Reduction Techniques)

  • 한학용;이광석;고시영;허강인
    • 한국정보통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.986-994
    • /
    • 2005
  • 본 논문은 잡음 환경하에서 적응 가능한 음성구간검출를 구축하기 위하여 우도기반의 음성 특징 파라미터의 비선형 차원축소 방법을 제안한다. 제안하는 차원축소 방법은 음성/비음성 클래스에 대한 가우시아 확률 밀도 함수의 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성구간검출기의 음성/비음성 결정은 우도비 검증(LRT)의 통계적 방법을 이용하며, 선형판별분석(LDA)에 의한 차원축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법으로 음성 특징 파라미터를 2차원으로 축소한 결과가 원래 특징백터의 차원에서의 결과와 대등한 성능을 확인하였다.

음성 구간 검출기의 실시간 적응화를 위한 특징 벡터의 차원 축소 방법 (Dimension Reduction Method of Feature Vector for Real-Time Adaptation of Voice Activity Detection)

  • 김평환;한학용;김창근;고시영;허강인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.53-56
    • /
    • 2004
  • 본 논문은 잡음 환경하에서 특징 벡터의 차원 축소를 통한 음성 구간 검출에 관한 연구이다. 음성/비음성 분류는 통계적 모델을 이용한 분류-기반 방법을 사용한다. 검출기에서 실시간 적응화를 위해 우도-기반의 특징 벡터에 대한 차원 축소 방법을 제안한다. 이 방법은 음성/비음성 클래스에 대한 가우시안 확률 밀도 함수에 의한 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성/비음성 결정은 우도비 검증(Likelihood Ratio Test)의 방법을 이용하며, LDA(Linear Discriminant Analys)에 의한 축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법을 통하여 2차원으로 축소된 특징 벡터가 고차원에서의 결과와 대등함을 확인하였다.

  • PDF

음성 및 잡음 인식 알고리즘을 이용한 환경 배경잡음의 제거 (Reduction of Environmental Background Noise using Speech and Noise Recognition)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.817-822
    • /
    • 2011
  • 본 논문에서는 먼저 신경회로망의 학습에 오차역전파 학습 알고리즘을 사용하여 각 프레임에서의 음성 및 잡음 구간의 검출에 의한 음성인식 알고리즘을 제안한다. 그리고 신경회로망에 의하여 음성 및 잡음 구간의 검출에 따라서 각 프레임에서 잡음을 제거하는 스펙트럼 차감법을 제안한다. 본 실험에서는 제안한 음성인식알고리즘의 성능을 원음성에 백색잡음 및 자동차 잡음을 부가하여 인식율을 평가한다. 또한 인식시스템에 의하여 검출된 음성 및 잡음 구간을 이용하여 각 프레임에서의 스펙트럼 차감법에 의한 잡음제거의 실험결과를 나타낸다. 잡음에 의하여 오염된 음성에 대하여 신호대잡음비를 사용하여 본 알고리즘이 유효하다는 것을 확인한다.

연속음성신호에서 IMBE 모델을 이용한 SNR 추정 연구 (IMBE Model Based SNR Estimation of Continuous Speech Signals)

  • 박형우;배명진
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.148-153
    • /
    • 2010
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵읍구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 음성신호는 MBE(Multi-Band Excitation) 발성 모델에 따라 유 무성음으로 구분할 수 있다. 그리고 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다. 제안하는 방식은 연속음성신호를 IMBE (Improved Multi-Band Exciation) 보코더를 이용해 유 무성음 대역으로 구분하고, 각각 대역의 에너지 정보를 아용하여 단구간 음성신호의 SNR을 계산한다. 전체 음성구간의 SNR은 단구간 SNR의 평균값을 통해 추정한다.

유성/무성/묵음 분류기와 주파수 스펙트럼을 이용한 음소 경계 검출 (Phoneme Segmentation Using Voice/Unvoiced/Silence Classifier and Spectral Information)

  • 이상래;한현배;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.86-91
    • /
    • 1999
  • 본 논문에서는 유성/무성/묵음 분류기와 주파수 스펙트럼 비교를 통하여 음소 경계 검출기를 구현하였다. 음소경계 검출은 음성 인식, 합성 및 분석 둥의 분야에서 매우 중요하다 유성/무성/묵음 분류기를 이용하여 유성음으로 판별되는 구간은 스펙트럼 비교를 통하여 음소 단위로 세분하였고 무성음으로 판별되는 구간은 한국어의 음성 특성을 고려하여 하나의 음소 단위로 간주하였다. 유성음 구간에 대한 스펙트럼 비교는 수정된 Itakura-Saito distance measure 와 Euclidean MFCC(Mel Frequency Cepstrum Coeffcients) distance measure를 사용하였고 비교 프레임은한 프레임을 건너 윈 경우가 가장 결과가 좋았다. 최종적으로 평균 음소 길이 정보를 이용하여 음소의 경계로 검출된 구간을 더 세분하거나 통합하였다. 유성/무성/묵음 분류기의 경우는 사무실에서 녹음한 고립단어에 대하여 $94.247\%$의 정확도를 보였고 음소 경계 검출의 경우는 $72.8\%$의 정확도를 보였다.

  • PDF

연속음성신호의 SNR 추정기법에 관한 연구 (A Study on SNR Estimation of Continuous Speech Signal)

  • 송영환;박형우;배명진
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.383-391
    • /
    • 2009
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.