• Title/Summary/Keyword: MFCC

Search Result 272, Processing Time 0.031 seconds

Moving Average Filter for Automatic Music Segmentation & Summarization (이동 평균 필터를 적용한 음악 세그멘테이션 및 요약)

  • Kim Kil-Youn;Oh Yung-Hwan
    • Proceedings of the KSPS conference
    • /
    • 2006.05a
    • /
    • pp.143-146
    • /
    • 2006
  • Music is now digitally produced and distributed via internet and we face a huge amount of music day by day. A music summarization technology has been studied in order to help people concentrate on the most impressive section of the song andone can skim a song as listening the climax(chorus, refrain) only. Recent studies try to find the climax section using various methods such as finding diagonal line segment or kernel based segmentation. All these methods fail to capture the inherent structure of music due to polyphonic and noisy nature of music. In this paper, after applying moving average filter to time domain of MFCC/chroma feature, we achieved a remarkable result to capture the music structure.

  • PDF

Performance Comparison of Automatic Detection of Laryngeal Diseases by Voice (후두질환 음성의 자동 식별 성능 비교)

  • Kang Hyun Min;Kim Soo Mi;Kim Yoo Shin;Kim Hyung Soon;Jo Cheol-Woo;Yang Byunggon;Wang Soo-Geun
    • MALSORI
    • /
    • no.45
    • /
    • pp.35-45
    • /
    • 2003
  • Laryngeal diseases cause significant changes in the quality of speech production. Automatic detection of laryngeal diseases by voice is attractive because of its nonintrusive nature. In this paper, we apply speech recognition techniques to detection of laryngeal cancer, and investigate which feature parameters and classification methods are appropriate for this purpose. Linear Predictive Cepstral Coefficients (LPCC) and Mel-Frequency Cepstral Coefficients (MFCC) are examined as feature parameters, and parameters reflecting the periodicity of speech and its perturbation are also considered. As for classifier, multilayer perceptron neural networks and Gaussian Mixture Models (GMM) are employed. According to our experiments, higher order LPCC with the periodic information parameters yields the best performance.

  • PDF

A Study on Feature Extraction using Wavelet Transform for Speech Recognition (웨이블렛 변환을 이용한 음성특징 추출에 관한 연구)

  • Joung Eui-jun;Chang Sung-wook;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.33-36
    • /
    • 2001
  • 본 논문에서는 기존의 음성인식에서 사용하는 특징벡터인 MFCC(Mel-Frequency Cepstral Cefficients)를 대신하여 웨이블렛 변환을 이용한 새로운 특징벡터를 추출하는 방법을 제안한다. 새 특징벡터로는 MRA(Multi-Resolution Analysis)를 이용하여 구성하였다. 웨이블렛 변환을 이용한 새로운 특징벡터의 추출 목적은 시간축과 주파수축에서의 더 좋은 해상도를 가지는 성질을 이용하는 것이다. 실험결과에서 웨이블렛 변환을 이용한 새로운 특징벡터를 이용한 인식이 기존의 방식보다 더 좋은 인식률을 보이고 있음을 확인하였다.

  • PDF

Branch Algorithm for Phoneme Segmentation in Korean Speech Recognition System (한국어 음성인식 시스템에서 음소 경계 검출을 위한 Branch 알고리즘)

  • 서영완;한승진;장흥종;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.357-359
    • /
    • 2000
  • 음소 단위로 구축된 음성 데이터는 음성인식, 합성 및 분석 등의 분야에서 매우 중요하다. 일반적으로 음소는 유성음과 무성음으로 구분되어 진다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계추출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과 매개변수 (스펙트럼) 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 추출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 Branch 알고리즘을 설계하였다. Branch 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(Mel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정법을 사용하였고, 유성음과 무성음의 구분은 포만트 주파수를 이용하였다. 실험 결과 3~4음절 고립단어를 대상으로 약 78%의 정확도를 얻을수 있었다.

  • PDF

A Study on the HMM Structure for Classifying Dog Breeds (개의 품종 분류를 위한 HMM 구조의 연구)

  • Lim, Seong-Min;Kim, Yoon-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.477-479
    • /
    • 2012
  • 개의 발성은 성도의 물리적인 특징에 따라 고유의 특정 포먼트를 만들어 내며 개의 품종에 따라 다른 물리적 특징을 가지므로 개의 발성을 HMM(Hidden Markov Model)으로 모델링하여 개의 품종을 분류하는 연구를 하였다. 주파수 특징은 MFCC(Mel Frequency Cepstral Coefficients) 12차, 에너지 컴포넌트 1차, 델타 13차, 억셀러레이션(Acceleration) 13차, 총 39차 벡터를 사용하였다. 개의 품종 분류에 적합한 HMM 구조의 설계를 위하여 기본 좌우 모델, 좌우 모델, 좌우 모델2, 전후진 모델, 총 4가지를 제안하고 실험하여 성능을 비교분석하였다. 이 중 전후진 모델이 가장 바람직한 모델로 검증 되었다. 본 모델은 다음과 같은 장점을 갖는다. (1) 기본 좌우 모델과 마찬가지로 1~2회 발성을 갖는 데이터가 입력되어도 처음에서 마지막 상태까지의 이동단계가 최소 3번까지 가능하므로 적은 횟수의 발성 데이터도 처리가 가능하다. (2) 다수 반복된 발성 데이터의 신호도 처리가 가능하다. 즉, 본 모델은 상태의 이동이 후진도 가능하므로 5회이상 반복된 발성 데이터의 신호의 처리도 가능하다.

Music Recommendation System Based on User Preference Analysis Using Hidden Markov Model (은닉 마코프 모델을 이용한 사용자 선호도 분석 기반의 음악 추천 시스템)

  • Kim, Geon-Su;Lee, Dong-Hun;Yun, Tae-Bok;Lee, Ji-Hyeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.56-59
    • /
    • 2008
  • 현재의 음악 서비스들의 대부분은 음악을 가수 이름이나 장르와 같은 키워드들로 구분하여 사용자에게 제공한다. 하지만 음악의 장르가 다양해지고, 장르별로 음악의 유형도 다양해짐에 따라 키워드 기반은 음악 제공 방법만으로는 사용자가 원하는 음악을 제공하는데 한계가 있다. 이런 한계점을 극복하기 위하여 음악 자체의 성질을 기반으로 음악을 분석하는 컨텐츠 기반의 음악 분석 방법이 필요하다. 또한 사용자가 원하는 음악을 제공 받을 수 있도록 사용자의 음악 선호도를 분석하여 그에 맞는 음악을 제공하는 방법도 필요하다. 본 논문에서는 음악의 시퀀스 정보와 특징을 추출하여 음악 모델을 구축하고, 이를 사용하여 사용자의 음악 선호도를 분석하는 방법을 제안하고, 사용자의 선호도에 맞는 음악을 제공하기 위하여 선호도 분석 방법을 통해 음악을 추천해주는 시스템을 제안한다.

  • PDF

Emotion Recognition using Speech Recognition Information (음성 인식 정보를 사용한 감정 인식)

  • Kim, Won-Gu
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.425-428
    • /
    • 2008
  • 본 논문은 음성을 사용한 인간의 감정 인식 시스템의 성능을 향상시키기 위하여 감정 변화에 강인한 음성 인식 시스템과 결합된 감정 인식 시스템에 관하여 연구하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 인식 시스템의 성능에 미치는 영향에 관한 연구와 감정 변화의 영향을 적게 받는 음성 인식 시스템을 구현하였다. 감정 인식은 음성 인식의 결과에 따라 입력 문장에 대한 각각의 감정 모델을 비교하여 입력 음성에 대한 최종 감정 인식을 수행한다. 실험 결과에서 강인한 음성 인식 시스템은 음성 파라메터로 RASTA 멜 켑스트럼과 델타 켑스트럼을 사용하고 신호편의 제거 방법으로 CMS를 사용한 HMM 기반의 화자독립 단어 인식기를 사용하였다. 이러한 음성 인식기와 결합된 감정 인식을 수행한 결과 감정 인식기만을 사용한 경우보다 좋은 성능을 나타내었다.

  • PDF

Implementation of Hidden Markov Model based Speech Recognition System for Teaching Autonomous Mobile Robot (자율이동로봇의 명령 교시를 위한 HMM 기반 음성인식시스템의 구현)

  • 조현수;박민규;이민철
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 2000.10a
    • /
    • pp.281-281
    • /
    • 2000
  • This paper presents an implementation of speech recognition system for teaching an autonomous mobile robot. The use of human speech as the teaching method provides more convenient user-interface for the mobile robot. In this study, for easily teaching the mobile robot, a study on the autonomous mobile robot with the function of speech recognition is tried. In speech recognition system, a speech recognition algorithm using HMM(Hidden Markov Model) is presented to recognize Korean word. Filter-bank analysis model is used to extract of features as the spectral analysis method. A recognized word is converted to command for the control of robot navigation.

  • PDF

Development of the measurement system of abdominal obesity based on analysis of abdominal electromyogram (복부 근전도 분석을 통한 복부 비만 측정시스템 개발)

  • Kim, Jung-Ho;Kwon, Jang-Woo
    • Journal of Sensor Science and Technology
    • /
    • v.16 no.5
    • /
    • pp.369-376
    • /
    • 2007
  • Recently, obesity that is increasingly becoming a major cause of various diseases is emerging as a serious social problem. In order to solve this problem, the necessity of measurement systems for overweight management has increased. This paper is a study on the measurement system for obesity management that can offer right medical services everywhere and allways by analyzing EMG (electromyograph) of the abdomen and then checking one's health state. For analyzing EMG signals of the abdomen, algorithms for energy detection, signal feature extraction, classification and recognition are presented. This paper proposes a system that provides an appropriate an estimation on the health status by evaluating the obesity degree and muscular strength of the abdomen through the system applying these algorithms.

A Hybrid Neural Network model for Enhancement of Speaker Recognition in Video Stream (비디오 화자 인식 성능 향상을 위한 복합 신경망 모델)

  • Lee, Beom-Jin;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.396-398
    • /
    • 2012
  • 대부분의 실세계 데이터는 시간성을 띄고 있으므로 시간성을 지닌 데이터를 분석할 수 있는 기계 학습 방법론은 매우 중요하다. 이런 관점에서 비디오 데이터는 다양한 모달리티가 결합된 대표적인 시간 데이터 이므로 비디오 데이터를 대상으로 하는 기계 학습 방법은 큰 의미를 갖는다. 본 논문에서는 음성 채널에기반한 비디오 데이터 분석 방법의 예비 연구로 비디오 데이터에 등장하는 화자를 인식할 수 있는 간단한 방법을 소개한다. 제안 방법은 MFCC (Mel-frequency cepstrum coefficients)를 이용하여 인간 음성 특성의 분포를 분석한 후 분석 결과를 신경망에 입력하여 목표한 화자를 인식하는 복합 신경망 모델을 특징으로 한다. 실제 TV 드라마 데이터에서 가우시안 혼합모델, 가우시안 혼합 신경망 모델, 제안 방법의 화자 인식 성능을 비교한 결과 제안 방법이 가장 우수한 인식 성능을 보임을 확인하였다.