• 제목/요약/키워드: Cepstral envelope

검색결과 8건 처리시간 0.024초

캡스트럼 포락선을 이용한 해금 소리의 포만트 합성 (Formant Synthesis of Haegeum Sounds Using Cepstral Envelope)

  • 홍연우;조상진;김종면;정의필
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.526-533
    • /
    • 2009
  • 본 논문에서는 전통 현악기 해금의 스펙트럼 모델링을 위해 캡스트럼 포락선을 이용한 포만트 합성법을 제안한다. 스펙트럼 모델링은 입력 신호를 정현파 성분과 노이즈 성분의 합으로 해석하여 음을 합성하는 기술로 주기성이 있는 현악기나 관악기의 음 합성에 효과적이다. 캡스트럼 포락선의 포만트는 정현파 성분 합성을 위한 파라미터로 활용하였다. 정현파 성분을 합성하기 위해 기존의 가산합성 방식과는 달리 IIT (Impulse Invariant Transform)로 공명기를 설계하였으며 배음간 크기 보완을 위해 대역 통과 필터를 추가하였다. 원음과 합성된 정현파 성분의 차로 구해진 노이즈 성분에 포함된 일부 유효배음을 제거하면 완전한 노이즈 성분을 구할 수 있으며 선형 보간법 (linear interpolation)에 기초하여 그 주파수 특성을 파라미터화 하였다. 최종적으로 합성된 노이즈 성분과 정현파 성분을 더하여 해금 단위음을 합성하였고 합성음은 원음과 매우 유사하였다.

스펙트럴 차원의 잡음처리를 이용한 음성인식 (Speech Recognition Using Noise Processing in Spectral Dimension)

  • 이광석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.738-741
    • /
    • 2009
  • 본 연구는 잡음을 포함한 음성 환경에서의 음성인식을 개선방안에 관한 것이다. 우리는 음성인식에서 잡음 섞인 음성으로부터 얻은 스펙트럴 envelope에서 곡들의 스펙트럴 subtraction 및 복원이 보다 더 효과적임을 알 수 있었다. 본 연구에서, 평균화된 스펙트럴 envelope은 모음 스펙트럼으로부터 추출하여 곡들의 강조에 사용하였다. 낮은 주파수 영역에서의 모음 스펙트럴 정보는 강조되어지고 자음으로부터 얻은 스펙트럼은 변하지 않는다. 시뮬레이션으로 살펴보면, 강조계수는 켑스트럴 영역에서 변한다. 이 방법으로 잡음석인 숫자음성 인식에서 적용하였으며 인식결과가 개선됨을 알 수 있었다.

  • PDF

유도전동기의 고장 진단을 위한 효과적인 특징 추출 방법 (An Effective Feature Extraction Method for Fault Diagnosis of Induction Motors)

  • 흥 뉘엔;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권7호
    • /
    • pp.23-35
    • /
    • 2013
  • 본 논문은 고장 분류 시스템을 위해 진동 신호로부터 특징 벡터를 자동적으로 추출하는 효과적인 기법을 제안한다. 기존의 멜-주파수 캡스트럼 계수는 진동신호의 노이즈에 민감하여 분류 정확도를 감소시키는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문은 4단계 필터 뱅크로 구성된 스펙트럴 엔벨로프 캡스트럼 계수 분석을 제안하며, 4단계는 (1) 모든 진동 신호의 스펙트럴 엔벨로프를 기술하기 위한 선형 예측 코딩 알고리즘 사용 단계, (2) 일반적인 스펙트럴 모양을 얻기 위해 모든 엔벨로프의 평균화 단계, (3) 평균 엔벨로프와 그 주파수의 최대값을 찾기 위한 기울기 하강 방법 사용 단계, (4) 엔벨로프의 주파수 사이의 거리로부터 계산된 중앙값을 얻는데 사용되는 비 중첩 필터 뱅크 단계로 구성된다. 이4-단계필터뱅크는 특징벡터를 추출하기위해 캡스트럼 계수 계산에 사용된다. 마지막으로 유도전동기의 결함 형태를 구분하기 위해 이러한 특수 파라미터를 사용하는 다중 계층 서포트 벡터 머신을 사용한다. 모의실험 결과, 제안하는 방법은 약 99.65%의 분류 성능을 보이며, 동시에 기존 방법들보다 우수한 성능을 보인다.

캡스트럼 분석을 이용한 해금의 스펙트럼 모델링 (Spectral Modeling of Haegeum Using Cepstral Analysis)

  • 홍연우;강명수;조상진;김종면;이정철;정의필
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.243-250
    • /
    • 2010
  • 본 논문에서는 해금 소리의 시간에 따른 변화를 사실적으로 묘사하기 위해 캡스트럼 분석을 이용한 전통 악기 해금의 스펙트럼 모델링을 제안한다. 정확한 캡스트럼 분석 결과를 얻기 위해 프레임 사이즈는 입력 신호의 3주기로 하였고 포만트 추출에 더 많은 캡스트럼 계수를 활용하였다. 정현파 성분 합성 과정에서 대역통과 필터의 차단주파수를 공명점 별로 유동적으로 조절하고 노이즈 성분에 남아있는 피크 성분들을 제거하는 과정을 추가하여 성능을 향상시켰다. 음 높이의 변화를 판단하기 위해 입력 프레임을 묵음구간, 어택구간, 지속구간으로 분류하였고 기본주파수에 따라 프레임 사이즈를 가변적으로 조절하였으며 지속구간에서의 기본주파수 검출 오류를 수정함으로써 정확도를 향상시켰다. 해금 연주 전문가의 청취테스트를 통해 원음과 합성음이 96~100 % 유사하다는 평가 결과를 얻었다.

롬바드 효과의 보정을 위한 스펙트럼 크기의 정규화와 켑스트럼 변환 (Normalization of Spectral Magnitude and Cepstral Transformation for Compensation of Lombard Effect)

  • 지상문;오영환
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.83-92
    • /
    • 1996
  • 본 연구에서는 음성인식기의 성능이 잡음환경하에서 급격히 저하되는 것을 완화하기 위해, 성능저하의 원인인 롬바드효과의 보정과 잡음의 제거방법을 제안하였다. 롬바드 효과는 조용한 환경에서 발성된 음성에 비해, 스펙트럼 포락과 발성음의 세기를 변이 시키는 것으로 모델링하였고, 변이의 제거를 위해 스펙트럼 크기의 정규화와 켑스트럼 변환을 사용하였다. 주변 잡음의 첨가에 의한 음성신호의 왜곡은 스펙트럼 차감법을 사용하여 완화하였고, 음성의 동적인 특성을 강조하기 위해 대역통과 필터링을 하였다. 잡음환경에서 발성된 롬바드 음성의 분석 및 잡음처리 기술의 개발과 평가를 위해, 음성인식 기술의 적용이 예상되는 자동차, 전시장, 시내 공중전화 부스, 거리, 전산실 잡음을 이용하여 롬바드 음성을 수집하여 실험하였다. 제안한 방법을 여러 가지 잡음환경하에서 음성인식에 적용한 결과, 효과적인 잡음처리 방법임을 확인할 수 있었다.

  • PDF

Acoustic Signal based Optimal Route Selection Problem: Performance Comparison of Multi-Attribute Decision Making methods

  • Borkar, Prashant;Sarode, M.V.;Malik, L. G.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.647-669
    • /
    • 2016
  • Multiple attribute for decision making including user preference will increase the complexity of route selection process. Various approaches have been proposed to solve the optimal route selection problem. In this paper, multi attribute decision making (MADM) algorithms such as Simple Additive Weighting (SAW), Weighted Product Method (WPM), Analytic Hierarchy Process (AHP) method and Total Order Preference by Similarity to the Ideal Solution (TOPSIS) methods have been proposed for acoustic signature based optimal route selection to facilitate user with better quality of service. The traffic density state conditions (very low, low, below medium, medium, above medium, high and very high) on the road segment is the occurrence and mixture weightings of traffic noise signals (Tyre, Engine, Air Turbulence, Exhaust, and Honks etc) is considered as one of the attribute in decision making process. The short-term spectral envelope features of the cumulative acoustic signals are extracted using Mel-Frequency Cepstral Coefficients (MFCC) and Adaptive Neuro-Fuzzy Classifier (ANFC) is used to model seven traffic density states. Simple point method and AHP has been used for calculation of weights of decision parameters. Numerical results show that WPM, AHP and TOPSIS provide similar performance.

네트워크 환경에서 서버용 음성 인식을 위한 MFCC 기반 음성 부호화기 설계 (A MFCC-based CELP Speech Coder for Server-based Speech Recognition in Network Environments)

  • 이길호;윤재삼;오유리;김홍국
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.27-43
    • /
    • 2005
  • Existing standard speech coders can provide speech communication of high quality while they degrade the performance of speech recognition systems that use the reconstructed speech by the coders. The main cause of the degradation is that the spectral envelope parameters in speech coding are optimized to speech quality rather than to the performance of speech recognition. For example, mel-frequency cepstral coefficient (MFCC) is generally known to provide better speech recognition performance than linear prediction coefficient (LPC) that is a typical parameter set in speech coding. In this paper, we propose a speech coder using MFCC instead of LPC to improve the performance of a server-based speech recognition system in network environments. However, the main drawback of using MFCC is to develop the efficient MFCC quantization with a low-bit rate. First, we explore the interframe correlation of MFCCs, which results in the predictive quantization of MFCC. Second, a safety-net scheme is proposed to make the MFCC-based speech coder robust to channel error. As a result, we propose a 8.7 kbps MFCC-based CELP coder. It is shown from a PESQ test that the proposed speech coder has a comparable speech quality to 8 kbps G.729 while it is shown that the performance of speech recognition using the proposed speech coder is better than that using G.729.

  • PDF

심음 기반의 심장질환 분류를 위한 새로운 시간영역 특징 (New Temporal Features for Cardiac Disorder Classification by Heart Sound)

  • 곽철;권오욱
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.133-140
    • /
    • 2010
  • 연속 심음신호로부터 추출한 새로운 시간영역에서의 특징들을 추가하여 심장질환 분류의 성능을 개선한다. 기존에 사용되고 있는 켑스트럼 영역 특징인 멜주파수 켑스트럼 계수 (MFCC)에 심음 포락선, 심잡음 확률벡터, 심잡음 진폭값 변동으로 구성된 새로운 3종류의 시간영역 특징을 추가한다. 심장 질환 분류 및 검출 실험에서, 시간영역 특징의 분류 정확도에 대한 기여도를 평가하고 순차적 특징선택 방식을 이용하여 시간영역 특징을 선택한다. 선택된 특징들은 다층 퍼셉트론(MLP), support rector machine (SVM), extreme learning machine (ELM)와 같은 신경회로망 패턴 분류기에 대하여 의미있고 일관되게 분류 정확도를 개선함을 보여준다.