• 제목/요약/키워드: Mel-spectrum

검색결과 45건 처리시간 0.022초

전화선 채널이 화자확인 시스템의 성능에 미치는 영향 (The Effect of the Telephone Channel to the Performance of the Speaker Verification System)

  • 조태현;김유진;이재영;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.12-20
    • /
    • 1999
  • 본 논문에서는 깨끗한 환경에서 녹음된 음성데이터와 채널환경에서 수집된 음성데이터의 화자확인 성능을 비교하였다. 채널데이터의 화자확인 성능을 향상시키기 위하여 채널환경에 강인한 특징 파라메타 및 전처리에 대해 연구하였다. 실험을 위한 음성 DB는 어구지시(text-prompted) 시스템을 고려하여 두 자리의 한국어 숫자음으로 구성하였다. 적용한 음성 특징은 LPCC(Linear Predictive Cepstral Coefficient), MFCC(Mel Frequency Cepstral Coefficient), PLP(Perceptually Linear Prediction), LSP(Line Spectrum Pair)이며, 채널 잡음을 제거하기 위한 전처리 과정으로는 음성신호에 대한 필터링을 적용하였다. 추출된 특징으로부터 채널의 영향을 제거 또는 보상하기 위해 cepstral weighting, CMS(Cepstral Mean Subtraction), RASTA(RelAtive SpecTrAl)를 적용하였다. 또한 각각의 특징 및 처리 방법에 대한 음성인식 성능을 제시함으로써 화자확인에서의 성능과 음성인식에서의 성능을 비교하였다. 적용한 음성 특징 및 처리 방법들에 대한 성능 평가를 위해 HTK(HMM Tool Kit) 2.0을 이용하였다. 남자, 여자 화자별로 임계값을 다르게 주는 방법으로 깨끗한 음성데이터와 채널 데이터에 대한 EER(Equal Error Rate)을 구하여 비교하였다. 실험결과 전처리 과정에서 대역통과 필터(150~3800Hz)를 적용하여 저대역 및 고대역의 채널 잡음을 제거하고, 이 신호로부터 MFCC를 추출하였을 때 EER 측면에서의 화자확인 성능이 가장 좋게 나타났다.

  • PDF

오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류 (Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.239-246
    • /
    • 2023
  • 본 논문에서는 오디오 부호화기를 위한 스펙트럼 변화 파라미터와 Mel Frequency Cepstral Coefficients(MFCC) 파라미터를 이용하여 음성과 음악 신호를 분류하는 개루프 방식의 알고리즘을 제안한다. 반응성을 높이기 위해 단구간 특징 파라미터로 MFCC를 사용하고 정확도를 높이기 위해 장구간 특징 파라미터로 스펙트럼 변화를 사용하였다. 전체적인 음성/음악 신호 분류 결정은 단구간 분류와 장구간 분류를 결합하여 이루어진다. 패턴인식을 위해 Gaussian Mixed Model(GMM)을 사용하였고, Expectation Maximization(EM) 알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 다양한 오디오 음원에서 평균적으로 1.5% 분류 오류율을 보였고 단구간 단독 분류 방법 보다 0.9%, 장구간 단독 분류 방법보다 0.6%의 분류 오류율의 성능 개선을 이룰 수 있었다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 USAC 오디오 분류 방법보다 타악기 음악 신호에서 9.1% 분류 오류율, 음성신호에서 5.8% 분류 오류율의 성능 개선을 이룰 수 있었다.

Numerical simulation of fully nonlinear sloshing waves in three-dimensional tank under random excitation

  • Xu, Gang;Hamouda, A.M.S.;Khoo, B.C.
    • Ocean Systems Engineering
    • /
    • 제1권4호
    • /
    • pp.355-372
    • /
    • 2011
  • Based on the fully nonlinear velocity potential theory, the liquid sloshing in a three dimensional tank under random excitation is studied. The governing Laplace equation with fully nonlinear boundary conditions on the moving free surface is solved using the indirect desingularized boundary integral equation method (DBIEM). The fourth-order predictor-corrector Adams-Bashforth-Moulton scheme (ABM4) and mixed Eulerian-Lagrangian (MEL) method are used for the time-stepping integration of the free surface boundary conditions. A smoothing scheme, B-spline curve, is applied to both the longitudinal and transverse directions of the tank to eliminate the possible saw-tooth instabilities. When the tank is undergoing one dimensional regular motion of small amplitude, the calculated results are found to be in very good agreement with linear analytical solution. In the simulation, the normal standing waves, travelling waves and bores are observed. The extensive calculation has been made for the tank undergoing specified random oscillation. The nonlinear effect of random sloshing wave is studied and the effect of peak frequency used for the generation of random oscillation is investigated. It is found that, even as the peak value of spectrum for oscillation becomes smaller, the maximum wave elevation on the side wall becomes bigger when the peak frequency is closer to the natural frequency.

Radical Scavenging Activity and Cytotoxicity of Maysin(C-glycosylflavone) isolated from Silks of Zea mays L.

  • Kim, Sun-Lim;Snook, Maurice-E;Lee, Jong-Ock
    • 한국작물학회지
    • /
    • 제48권5호
    • /
    • pp.392-396
    • /
    • 2003
  • Maysin, a C-glycosylflavone, was isolated from the silks of maize, Zea mays L. The ESI mass spectrum indicates that molecular weight of maysin is $577\textrm{M}^+$m/z, and the ether-linked sugar is rhamnose, $431\textrm{M}^+$m/z (MW$^{+}$-146). The DPPH (1,1-Diphenyl-2-picrylhydrazyl) radical scavenging activity of maysin was higher than that of rutin. However, as compared with its aglycon luteolin, maysin showed the relatively moderate DPPH scavenging activity mainly due to the glycosylation of two sugars moieties, keto-fucose and rhamnose. In the in vitro cytotoxicity test against the five human tumor cell lines such as lung (A549), ovarian (SK-OV-3), melanoma (SK-MEL-2), central nerve system (XF-489), and colon (HCT-15), maysin exhibited the relatively weaker activities than cisplatin. The $\textrm{ED}_{50}$ values of maysin were 62.24, 43.18, 16.83, 37.22, and 32.09/$m\ell$, respectively. Result suggests that maysin is a potential cytotoxicity compound, particularly for human colon, central nerve system, and melanoma tumors.s.

빔포밍 및 DOA 기반의 마스킹을 이용한 2채널 잡음제거 (Two-Channel Noise Reduction Using Beamforming and DOA-Based Masking)

  • 김영일;정상배
    • 한국정보통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.32-40
    • /
    • 2013
  • 본 논문에서는 빔포밍과 입사각분석 기반 마스킹을 이용한 다채널 음성개선 알고리즘이 제안된다. 제안된 알고리즘에서는 LCMV 빔포밍을 수행한 후에 입사각 분석을 이용한 멜-주파수 위너필터가 적용되어 잔존하는 잡음을 제거한다. 성능 향상을 위해서 빔포밍의 적응 필터 학습률과 목표 음성 스펙트럼 검출을 위한 입사각 임계치가 최적화된다. 성능 지수로서 PESQ와 출력 SNR이 측정되었으며 실험 결과 제안한 알고리즘이 종전의 최소분산 빔포밍 기법보다 PESQ 관점에서 0.09, 출력 SNR 관점에서 5.75 dB의 성능 향상시킴을 알 수 있었다.

A cable tension identification technology using percussion sound

  • Wang, Guowei;Lu, Wensheng;Yuan, Cheng;Kong, Qingzhao
    • Smart Structures and Systems
    • /
    • 제29권3호
    • /
    • pp.475-484
    • /
    • 2022
  • The loss of cable tension for civil infrastructure reduces structural bearing capacity and causes harmful deformation of structures. Currently, most of the structural health monitoring (SHM) approaches for cables rely on contact transducers. This paper proposes a cable tension identification technology using percussion sound, which provides a fast determination of steel cable tension without physical contact between cables and sensors. Notably, inspired by the concept of tensioning strings for piano tuning, this proposed technology predicts cable tension value by deep learning assisted classification of "percussion" sound from tapping a steel cable. To simulate the non-linear mapping of human ears to sound and to better quantify the minor changes in the high-frequency bands of the sound spectrum generated by percussions, Mel-frequency cepstral coefficients (MFCCs) were extracted as acoustic features to train the deep learning network. A convolutional neural network (CNN) with four convolutional layers and two global pooling layers was employed to identify the cable tension in a certain designed range. Moreover, theoretical and finite element methods (FEM) were conducted to prove the feasibility of the proposed technology. Finally, the identification performance of the proposed technology was experimentally investigated. Overall, results show that the proposed percussion-based technology has great potentials for estimating cable tension for in-situ structural safety assessment.

효소 전처리에 의한 상황버섯 β-glucan 추출물의 특성 (Characteristics of mushroom Phellinus baumii extracts with enzyme pretreatment)

  • 손은지;류은아;이상한;김영찬;황인욱;정신교
    • Journal of Applied Biological Chemistry
    • /
    • 제61권1호
    • /
    • pp.101-108
    • /
    • 2018
  • 본 연구에서는 국내산 상황버섯의 효소 가수분해 전처리를 통한 ${\beta}-glucan$의 최적 추출조건을 확립하고 그에 따른 활성을 알아보고자 추출 조건에 따른 생이화학적활성을 측정하였다. 효소가수분해 조건을 최적화하기 위해 실시한 반응표면분석법의 결과 0.66%(v/v)의 viscozyme 농도에서 6.08시간 반응하는 것이 최적이라 예측되었으며($R^2=0.9245$), 이에 따라 최적 추출 조건에서 추출한 시료의 ${\beta}-glucan$ 함량은 1.9594 g/100 g으로 측정되었다. 추출 수율(0.76-16.40%)은 EBE가 NEBE에 비해 약 3배 높았다. ${\beta}-glucan$ 순도(11.15-59.05%)로 가장 높았으며, ${\beta}-glucan$ 함량 또한 0.26-3.38 g/100 g으로 EB (3.38 g/100 g)가 가장 높았다. 총당 함량(0.61-1.17 mg/mL)은 NEB, EB가 NEBE, EBE보다 높았으며, EB가 가장 높았다. 구성당 분석 결과, 모든 추출물에서 glucose의 함량이 가장 높았으며, 대조구와 효소 전처리구 모두 정제하면서 그 비율이 증가하였다. 단백질 함량(0.44-11.73 mg/mL)은 NEBE, EBE가 NEB, EB보다 높았으며, EBE가 가장 높았다. FT-IR 분석 결과 $890cm^{-1}$ 부근에서 peak가 확인되었기에 ${\beta}-glycosidic$ linkage를 가지고 있는 것으로 판단하였다. MTT assay를 통해 B6F10과 SK-MEL-5 세포 독성을 측정한 결과 B6F10의 경우 대조구의 세포 생존율을 100%로 하였을 때 세포 생존율이 80% 이상으로 나타나 세포독성을 보이지 않았으나, SK-MEL-5에서는 EBE를 $100{\mu}g/mL$의 농도로 처리하였을 때 세포 생존율이 75%로 나타나 약간의 세포독성을 보였다. Wound healing assay를 통해 암세포 증식 억제활성 측정 결과, 정제한 NEB, EB가 NEBE, EBE보다 활성이 높았으며, 특히 12시간일 때 EB $30{\mu}g/mL$를 처리한 경우 B6F10과 SK-MEL-5 모두에서 가장 높은 활성을 나타내었다.

프레임 신뢰도 가중에 의한 강인한 음성인식 (Frame Reliability Weighting for Robust Speech Recognition)

  • 조훈영;김락용;오영환
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.323-329
    • /
    • 2002
  • 본 논문에서는 임의의 시점에서 발생하여 음성 신호의 일부분을 심하게 손상시키는 시간선택 잡음 (time-selective noise)을 보상하기 위한 프레임 신뢰도 가중 방법을 제안한다. 음성 프레임들은 서로 다른 정도의 신뢰도를 갖으며, 신뢰도는 프레임의 신호대잡음비 (signal-to-noise ratio)에 비례한다. 잡음이 일정한 경우에는 무음구간에서 획득한 잡음 정보를 이용하여 프레임의 신호대잡음비 추정이 용이하나, 시간선택 잡음은 잡음추정이 어렵다. 따라서, 본 연구에서는 프레임 신뢰도를 추정하기 위해 깨끗한 음성의 통계적 모델을 사용하였다. 제안한 MFR (model-based frame reliability) 방법은 탐조 모델의 평균 벡터열과 입력 MFCC (mel-frequency cepstral coefficient) 특징 벡터 열의 역변환에 의해 얻은 필터뱅크 에너지를 이용하여 프레임 신호대잡음비를 근사한다. 다양한 버스트 (burst) 잡음에 대한 인식 실험 결과, 제안한 방법은 프레임의 신뢰도를 효과적으로 나타낼 수 있었으며, 이 신뢰도를 우도 계산에서 가중치로 적용하여 인식 성능을 향상시킬 수 있었다.

한국어 음성인식에서 음성의 특성을 고려한 음소 경계 검출 (Phoneme Segmentation in Consideration of Speech feature in Korean Speech Recognition)

  • 서영완;송점동;이정현
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.31-38
    • /
    • 2001
  • 음소 단위로 구축된 음성 데이터는 음성인식과 음성합성 및 분석 등의 분야에서 매우 중요한 문제이다. 일반적으로 음소는 유성음과 무성음으로 구분된다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계 검출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과의 스펙트럼 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 검출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 분류 알고리즘을 설계하였다. 분류 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(kel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정 법을 사용하였고 유성음과 무성음의 구분은 에너지 영 교차율, 스펙트럼 비, 포만트 주파수를 이용하였다. 본 논문의 실험결과 3-4음절 고립단어를 대상으로 약 7%,의 정확도를 얻음으로써 기존의 음소 경계 검출 시스템보다 약 8%의 정확도 향상을 보였다.

  • PDF

가속도계와 자이로스코프 데이터를 사용한 인간 행동 인식 기반의 템포 지향 음악 추천 시스템 (Tempo-oriented music recommendation system based on human activity recognition using accelerometer and gyroscope data)

  • 신승수;이기용;김형국
    • 한국음향학회지
    • /
    • 제39권4호
    • /
    • pp.286-291
    • /
    • 2020
  • 본 논문에서는 템포 기반의 음악 분류와 센서 기반의 인간 행동 인식을 통한 음악을 추천하는 시스템을 제안한다. 제안하는 방식은 템포 기반의 음악 분류를 통해 음악 파일을 색인하고, 인식된 행동에 따라 적합한 음악을 추천한다. 정확한 음악 분류를 위해 변조 스펙트럼 기반의 동적 분류기와 멜 스펙트로그램 기반의 시퀀스 분류기가 함께 사용된다. 또한, 간단한 스마트폰 가속도계, 자이로스코프 센서 데이터가 심층 스파이킹 신경망에 적용되어 행동 인식 성능을 향상시킨다. 마지막으로 인식된 행동과 색인된 음악 파일의 관계를 고려한 매핑 테이블을 통해 음악 추천이 수행된다. 실험 결과는 제안된 시스템이 음악 플레이어가 있는 실제 모바일 장치에 사용하기에 적합하다는 것을 보여준다.