• Title/Summary/Keyword: Time Warping

Search Result 294, Processing Time 0.04 seconds

개선된 DTW를 통한 효과적인 서명인식 시스템의 제안 (Effect On-line Automatic Signature Verification by Improved DTW)

  • Dong-uk Cho;Gun-hee Han
    • 한국산학기술학회논문지
    • /
    • 제4권2호
    • /
    • pp.87-95
    • /
    • 2003
  • Dynamic Programming Matching (DPM)은 순차적으로 구성된 문제를 수학적으로 최적화 시키는 기술로서 패턴인시 분야에서 다년간 중요한 역할을 해왔다. 서명인식을 위한 대부분의 실제적 적용에서는 Sakoe and Chiba [9]의 실제구현 버전이 기반이 되어 왔는데, 일반적으로 slope constraint p = 0의 방법이 적용되어 왔다. 이 논문에서는 이 경우에는 전진탐색에 의한 휴리스틱한 방법을 적용한 MDPM이 상당한 처리시간의 단축 뿐만 아니라 약간의 인식능력 향상을 가질 수 있음을 보여준다.

  • PDF

유전자 알고리듬을 이용한 화자 적응적 음성인식 (Genetic Algorithm for Speaker Adaptation in Speech Recognition)

  • 임동철
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.107-110
    • /
    • 1998
  • 본 논문은 DTW(Dynamic Time Warping)을 이용한 음성인식에서 표준패턴(reference patterns)으로 사용되는 벡터열을 GA(Genetic Algorithm)을 이용하여 보다 적응된 패턴의 벡터열로 생성하는 방법을 제시한다. 본 논문의 필요성은 다음과 같다. 음성인식의 주요한 엔진들 중에 하나로 DTW가 사용된다[1]. DTW는 표준패턴과 시험패턴(test patterns)간의 최적 경로(optimal path)를 찾아내어 가장 유사한 패턴을 찾아내는 방법을 말한다. 그러나 음성은 같은 발음에 대해서도 사람의 발성 길이와 목의 상태 등에 따라 다양한 패턴으로 나타나며 동일 화자의 같은 어휘도 시간과 환경에 따라 변한다. 따라서 이러한 음성의 동적 특성에 적응하는 방법이 필요하다. 본 논문은 이러한 문제에 대한 해결 방법으로 GA를 이용하여 보다 적합하고 적응적인 표준 패턴을 생성시켜 적응하는 방법을 개발하였다.

  • PDF

온라인 서명자동인식을 위한 개선된 DTW (The Modified DTW Method for on-line Automatic Signature Verification)

  • 조동욱;배영래
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.451-458
    • /
    • 2003
  • Dynamic Programming Matching(DPM)은 순차적으로 구성된 문제를 수학적으로 최적화 시키는 기술로서 패턴인식 분야에서 다년간 중요한 역할을 해왔다. 서명인식을 위한 대부분의 실제적 적용에서는 Sakoe and Chiba [9]의 실제구현 버전이 기반이 되어 왔는데, 일반적으로 slope constraint p = 0의 방법이 적용되어 왔다. 이 논문에서는 이 경우에는 전진탐색에 의한 휴리스틱한 방법을 적용한 MDPM이 상당한 처리 시간의 단축 뿐만 아니라 약간의 인식능력 향상을 가질 수 있음을 보여준다.

불변 모멘트를 이용한 DSTW 기반의 동적 손동작 인식 방법 (Recognition of Dynamic Hand Gestures based on DSTW using Invariant Moments)

  • 지재영;장경현;박기태;문영식
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.273-276
    • /
    • 2009
  • 본 논문에서는 Dynamic Space Time Warping(DSTW) 알고리즘을 이용하여 손동작을 다양한 배경에서도 정확하게 인식할 수 있는 방법을 제안한다. DSTW 알고리즘을 이용한 기존의 손동작 인식 방법은 질의영상의 매 프레임 마다 검출된 다수의 손 후보영역을 사용하여 모델영상과 시간 축 상으로 비교하는 방법이다. 그러나 기존의 DSTW 알고리즘을 이용한 손동작 인식 방법은 손을 포함하지 않은 후보영역들(배경, 팔꿈치 등)에 의해 오인식될 수 있는 경로를 생성하며, 그 결과로 사용자가 의도하지 않은 손동작으로 인식될 수 있다. 이러한 단점을 해결하기 위해서, 본 논문에서는 손 후보영역의 불변 모멘트를 이용하여 질감 정보를 추출한 후 후보영역들 사이의 유사도를 비교하였다. 제안한 방법은 유사도를 모델과 질의의 매칭비용에 가중치로 적용하였고, 다양한 실험 결과 제안한 방법이 기존의 방법에 비해 사용자의 손동작을 정확하게 인식하는 것을 확인하였다.

  • PDF

거리 측정방법에 따른 쿼리-바이-싱잉/허밍 시스템의 성능 변화 (Performance of Query-by-singing/humming system depending on the distance metric)

  • 장세진;장달원;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.261-263
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템에서의 거리 함수를 다양화하면서 그 성능 변화를 살펴본다. QbSH는 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 왔으며, 많은 경우, dynamic time warping (DTW) 방법으로 사용해서 정합하고 있다. 그러나, DTW에서 사용하는 거리에 대해서는 특별한 관심을 가지지 않았으며, 일반적으로 절대적 차이값이나 그것의 제곱값을 많이 사용해 왔다. 이 논문에서는 여러 가지 거리에 대해서 성능을 측정하였다. 성능측정은 특정한 시스템에서 이루어진 것이기 때문에 일반성을 가지지 않을 수 있으나, DTW에서 사용하는 거리를 기존의 것과 다른 것으로 변화시켜서 성능을 향상시킬 가능성이 있음을 이 논문에서는 밝힌다. 본 논문에서는 10-12초 길이의 1000번의 쿼리 (Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 논문에서 제안하는 거리가 기존의 절대적 차이값을 사용한 것보다 제1후보 검출 정확도가 10% 가량 상승함을 확인할 수 있었다.

  • PDF

허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발 (Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming)

  • 송재종;임태범
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

적은 훈련 데이터를 이용한 LSP 파라메터 기반의 화자종속 음성인식에 관한 연구 (A Speaker Dependent Speech Recognition Method Using LSP Parameters for Small Training Data)

  • 곽수주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.373-376
    • /
    • 1998
  • 통신 수단의 발달로 휴대단말기의 사용이 증가하고 있으며, 이와 함께 휴대단말기에서의 음성인식에 대한 수요도 증가하고 있다. 휴대단말기의 경우 저 전송율을 가지는 음성 부호화기를 사용하게 되며, 이러한 저전송율의 음성 부호화기에서의 음성인식을 수행할 경우 인식 성능이 저하되는 현상을 보이게 된다. 본 논문에서는 이러한 문제를 해결하기 위하여 LSP 파라메터 기반의 거리척도에 관하여 비교 검토하였으며, 적은 훈련 데이터에서 사용 가능한 화자 종속 음성인식 방법으로 Dynamic Time Warping(DTW)과 변형된 Hidden Markov Model(HMM)에 관하여 검토하였다. QCELP 음성 부호화기에서 인식 어휘 당 2번의 훈련 데이터만을 이용한 화자종속 인식방법을 사용한 결과 95% 이상의 인식 성능을 얻을 수 있었다.

  • PDF

멜켑스트럼의 성능 향상을 위한 critical band 필터의 최적화 (Optimization of Critical Band Filter for Improving Performance of Mel-cepstrum)

  • 현동훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.403.1-406
    • /
    • 1998
  • 현재 음성 인식에서 널리 사용되고 있는 피춰 중의 하나로 멜켑스트럼을 들 수 있다. 멜켑스트럼은 인간의 청각 특성을 적용한 critical band 필터를 사용하여 구하는데, 필터의 형태를 다양하게 적용하여 같은 음성에 대해서 여러 가지의 멜켑스트럼을 구할 수 있다. 본 논문에서는 critical band 필터의 형태, 즉 필터의 모양, 인접한 필터간의 중심 주파수 간격, 그리고 필터의 대역폭을 각각 변화시키면서 멜켑스트럼을 구하여 음성 인식 성능에 미치는 영향을 분석하였다. 또한 최적의 인식 성능을 나타내는 멜켑스트럼을 구하기 위하여 simplex 기법을 사용하여 필터를 최적화하는 방법을 제안한다. DTW(dynamic time warping)를 인식 알고리즘으로 사용하였고 한국어 숫자음을 사용하여 인식 실험을 수행한 결과, 제안된 방법으로 최적화된 필터를 사용하여 구한 멜켑스트럼은 기존의 critical band 필터를 사용하는 것보다 향상된 인식 성능을 나타내었다.

  • PDF

Review And Challenges In Speech Recognition (ICCAS 2005)

  • Ahmed, M.Masroor;Ahmed, Abdul Manan Bin
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1705-1709
    • /
    • 2005
  • This paper covers review and challenges in the area of speech recognition by taking into account different classes of recognition mode. The recognition mode can be either speaker independent or speaker dependant. Size of the vocabulary and the input mode are two crucial factors for a speech recognizer. The input mode refers to continuous or isolated speech recognition system and the vocabulary size can be small less than hundred words or large less than few thousands words. This varies according to system design and objectives.[2]. The organization of the paper is: first it covers various fundamental methods of speech recognition, then it takes into account various deficiencies in the existing systems and finally it discloses the various probable application areas.

  • PDF

Polo-Zero 모델을 이용한 한국어 단독 숫자음 인식 (Recognition of Korean Isolated Digits Using a Pole-Zero Model)

  • 김순협;박규태
    • 대한전자공학회논문지
    • /
    • 제25권4호
    • /
    • pp.356-365
    • /
    • 1988
  • In this paper, we describe an isolated words recognition system for Korean isolated digits based on a voiced -unvoiced decision algorithm and a frequency domain analysis. The algorithm first performs a voiced-unvoiced decision procedure for the begtinning part of each uttered work using the normalized log energy and zero crossing rate as decision parameters. Based on this decision,. each word is assigned to one of two classes. In order to identify the uttered word within each class, a dynamic time warping algorithm is applied using formant frequencies as the basis for the distance measure. We exploit a pole-zero analysis to measure formant frequencies in each frame. We have observed that pole-zero analysis can provide more accurate estimation of formant frequencies than analysis based on poles only. Experimental recognition rates of 97.3% illustrating the performance of the recognition system was achieved.

  • PDF