• 제목/요약/키워드: Mel-spectrum

검색결과 45건 처리시간 0.024초

다중 오디오 특징을 이용한 유해 동영상의 판별 (Classification of Phornographic Video with using the Features of Multiple Audio)

  • 김정수;정명범;성보경;권진만;구광효;고일주
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.522-525
    • /
    • 2009
  • 본 논문에서는 인터넷의 역기능으로 현대 사회에 큰 문제를 야기 시키는 음란성 유해 동영상을 내용기반으로 판별하기 위한 방법을 제안하였다. 유해 동영상에서 오디오 데이터를 이용하여 특징을 추출하였다. 사용된 오디오 특징은 주파수 스펙트럼, 자기상관, MFCC이다. 음란성의 내용이 될 수 있는 소리의 특징을 추출하였고 동영상 전체 오디오에서 해당 소리의 특징과 일치하는지를 측정하여 유해성을 판별하였다. 제안한 방법의 실험은 각 특징마다 유해 판별 측정 결과와 다중 특징을 이용한 측정 결과를 비교 수행하였다. 하나의 오디오 특징만을 추출하여 사용하였을 때 보다 다중 특징의 사용이 좋은 결과를 얻을 수 있었다.

  • PDF

Statistical Model-Based Noise Reduction Approach for Car Interior Applications to Speech Recognition

  • Lee, Sung-Joo;Kang, Byung-Ok;Jung, Ho-Young;Lee, Yun-Keun;Kim, Hyung-Soon
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.801-809
    • /
    • 2010
  • This paper presents a statistical model-based noise suppression approach for voice recognition in a car environment. In order to alleviate the spectral whitening and signal distortion problem in the traditional decision-directed Wiener filter, we combine a decision-directed method with an original spectrum reconstruction method and develop a new two-stage noise reduction filter estimation scheme. When a tradeoff between the performance and computational efficiency under resource-constrained automotive devices is considered, ETSI standard advance distributed speech recognition font-end (ETSI-AFE) can be an effective solution, and ETSI-AFE is also based on the decision-directed Wiener filter. Thus, a series of voice recognition and computational complexity tests are conducted by comparing the proposed approach with ETSI-AFE. The experimental results show that the proposed approach is superior to the conventional method in terms of speech recognition accuracy, while the computational cost and frame latency are significantly reduced.

A time-domain simulation of an oscillating water column with irregular waves

  • Koo, Weoncheol;Kim, Moo-Hyun
    • Ocean Systems Engineering
    • /
    • 제2권2호
    • /
    • pp.147-158
    • /
    • 2012
  • A time-domain simulation of a land-based Oscillating Water Column (OWC) with various irregular waves as a form of PM spectrum is performed by using a two-dimensional fully nonlinear numerical wave tank (NWT) based on the potential theory, mixed Eulerian-Lagrangian (MEL) approach, and boundary element method. The nonlinear free-surface condition inside the OWC chamber was specially devised to describe both the pneumatic effect of the time-varying pressure and the viscous energy loss due to water column motions. The quadratic models for pneumatic pressure and viscous loss are applied to the air and free surface inside the chamber, and their numerical results are compared with those with equivalent linear ones. Various wave spectra are applied to the OWC system to predict the efficiency of wave-energy take-off for various wave conditions. The cases of regular and irregular waves are also compared.

Frequency Scaling을 통한 LSP 파라미터 Fitting에 관한 연구 (A Study on the Fitting of LSP(Line Spectrum Pairs) Parameter using Frequency Scaling)

  • 민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.801-804
    • /
    • 2001
  • LSP 파라미터는 음성코덱(codec)이나 인식기에서 음성 신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다[1]. 기존의 LSP 변환 방법 중 음성 부호화기에서 주로 사용하는 real root 방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 비교 평가한 알고리즘은 첫 번째, 기존의 real root 알고리즘, 두 번째는, LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검객구간의 순서와 검색간격을 달리한 경우, 세 번째는 검색 시 mel scale을 사용한 알고리즘이다. 실험결과, 기존의 real root 방식에 비하여 두 가지 방식 모두가 변환시간의 40% 이상이 감소되는데 반하여 통일한 관을 찾음을 알 수가 있었고, 특히 분포특성을 이용하여 검색순서와 간격조절을 한 경우에 있어서, 기존의 방식보다 40%이상이 감소되었다.

  • PDF

실제 해상 실험 데이터를 이용한 능동소나 표적/비표적 식별 (Active Sonar Target/Nontarget Classification Using Real Sea-trial Data)

  • 석종원
    • 한국멀티미디어학회논문지
    • /
    • 제20권10호
    • /
    • pp.1637-1645
    • /
    • 2017
  • Target/Nontarget classification can be divided into the study of shape estimation of the target analysing reflected echo signal and of type classification of the target using acoustical features. In active sonar system, the feature vectors are extracted from the signal reflected from the target, and an classification algorithm is applied to determine whether the received signal is a target or not. However, received sonar signals can be distorted in the underwater environments, and the spatio-temporal characteristics of active sonar signals change according to the aspect of the target. In addition, it is very difficult to collect real sea-trial data for research. In this paper, target/non-target classification were performed using real sea-trial data. Feature vectors are extracted using MFCC(Mel-Frequency Cepstral Coefficients), filterbank energy in the Fourier spectrum and wavelet domain. For the performance verification, classification experiments were performed using backpropagation neural network classifiers.

각국 언어 특성에 독립적인 CELP 계열 보코더에서의 계산량 단축 알고리즘 (The Computation Reduction Algorithm Independent of the Language for CELP Vocoders)

  • 주상규
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.257-260
    • /
    • 2010
  • In this paper, we propose the computation reduction methods of LSP(Line spectrum pairs) transformation that is mainly used in CELP vocoders. In order to decrease the computational time in real root method the characteristic of four proposed algorithms is as the following. First, scheme to reduce the LSP transformation time uses mel scale. Developed the second scheme is the control of searching order by the distribution characteristic of LSP parameters. Third, scheme to reduce the LSP transformation time uses voice characteristics. Developed the fourth scheme is the control of searching interval and order by the distribution characteristic of LSP parameters. As a result of searching time, computational amount, transformed LSP parameters, SNR, MOS test, waveform of synthesized speech, spectrogram analysis, searching time is reduced about 37.5%, 46.21%, 46.3%, 51.29% in average, computational amount is reduced about 44.76%, 49.44%, 47.03%, 57.40%. But the transformed LSP parameters of the proposed methods were the same as those of real root method.

  • PDF

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.55-63
    • /
    • 2020
  • 음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.

LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구 (A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics)

  • 민소연;배명진
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.304-309
    • /
    • 2002
  • LSP (Line Spectrum Pairs) 파라미터는 음성코덱 (codec)이나 인식기에서 음성신호를 분석하여 전송형이나 저장형 파라미터로 변환되어, 주로 저전송률 음성부호화기에 사용된다. 그러나 LPC (Linear Predictive Coding) 계수를 LSP로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다는 단점이 있다. 기존의 LSP변환 방법 중 음성 부호화기에서 주로 사용하는 실근 (real root)방법은 근을 구하기 위해 주파수 영역을 순차적으로 검색하기 때문에 계산시간이 많이 소요되는 단점을 갖는다. 본 논문에서 기존의 실근 방법과 비교 평가한 알고리즘은 첫 번째 검색 대역에 멜 스케일 (met scale)을 사용하였고, 두 번째는 LSP 파라미터의 분포 특성을 조사하여 이를 토대로 검색구간의 순서와 검색간격을 달리 하였다. 실험결과, 기존의 실근 방식에 비하여 두 가지 방식 모두가 변환시간의 47% 이상이 감소되는데 반하여 동일한 근을 찾음을 알 수가 있었다.

이동통신용 음성부호화기에서의 LSP 계산시간 감소에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time in Speech Coder for CDMA Digital Cellular System)

  • 민소연
    • 한국산학기술학회논문지
    • /
    • 제8권3호
    • /
    • pp.563-568
    • /
    • 2007
  • 본 논문에서는 EVRC 시스템에 사용되어지는 실근 방식의 계산량 감소 알고리즘을 치안한다. 실근 방법에서는 다항식에서의 근을 구하여 LSP로 변환하는 과정이 필요하다. 그러나, 근을 구하는 과정에서 주파수 대역을 순차적으로 검색하므로 계산시간이 많이 소요된다. LSP 파라미터의 중요한 특징은 대부분의 계수가 특정 주파수 대역에 주로 분포한다는 것이다. 그러므로, 본 논문에서는 실근 방식에서의 계산시간을 줄이기 위하여 1KHz 대역까지는 선형적이고 1KHz 대역 이상에서는 로그 스케일인 멜 스케일을 사용하였다. 실근 방식과 제안한 방법을 비교하기 위하여 두 가지를 측정하였다. 첫째, 제안한 방법에서의 LSP 파라미터의 값과 실근방식에서의 LSP 파라미터 값을 비교하였다. 둘째, 계산 시간 감소율을 측정하였다. 실험결과, LSP 파라미터의 값은 변화하지 않았으며 계산량은 약 48% 정도 감소하였다.

  • PDF

흰쥐 태반에서의 $Mel_{la}$ 유전자 발현과 멜라토닌이 PLP-A 유전자 발현에 미치는 영향 (Local Expression of $Mel_{la}$ and Effect of Melatonin on Expression of PLP-A Gene in the Rat Placenta)

  • Shin, Chang-Sook;Lee, Chae-Kwan;Kang, Han-Seung;Kim, Haekwon;Yoon, Yong-Dal;Moon, Deog-Hwan;Kang, Sung-Goo
    • 한국발생생물학회지:발생과생식
    • /
    • 제5권2호
    • /
    • pp.181-187
    • /
    • 2001
  • 포유동물의 혈중 프로락틴 농도는 일주기와 연주기의 변화를 나타내며 송과체에서 분비되는 멜라토닌이 조절인자로 관여한다. 인위적인 송과체의 기능 억제는 혈중 프로락틴 농도를 증가시킨다. 임신 후반기에 태반에서는 수종의 프로락틴군 호르몬들이 분비되어 태반기능 및 배아발생에 중요한 역할을 한다. 그러나 이들 호르몬 유전자들의 발현 조절기작과 조절 인자들에 관한 연구 결과는 미비하다. 본 연구에서는 RT-PCR과, in situ hybridization 방법으로 흰쥐의 태반에서 Me $l_{la}$ 유전자의 발현을 확인하였다. 발현되는 주요 세포는 junctional zone과 labyrinth zone의 spongiotrophoblast 세포와 trophoblast giant세포였다. 특이한 것은junctional zone의 Me $l_{la}$ 유전자의 발현이 밤시간(22:00)에 비하여 낮시간(16:00)에 높게 조사되었다. 그리고 멜라토닌 수용체 agonist인 chloromelatonin은 PLP-A 유전자의 발현을 억제하였다. 이러한 결과들로 보아 흰쥐의 태반에서 Me $l_{la}$ 유전자가 발현되며, 멜라토닌에 의해 유도되는 Me $l_{la}$ 의 활성화는 PLP-A유전자의 발현에 중요한 조절인자로 작용할 것이다.

  • PDF