• 제목/요약/키워드: DTW(Dynamic Time Warping)

검색결과 133건 처리시간 0.029초

접합 왜곡의 최소화 과정이 포함된 음성합성기 (Text-to-Speech Synthesizer with the Process of Minimizing Concatenation Distortion)

  • 박훈재;김상훈;정재호
    • 한국음향학회지
    • /
    • 제17권4호
    • /
    • pp.38-44
    • /
    • 1998
  • 대용량의 음성합성용 데이터베이스를 용이하게 구축하기 위해 음성인식 시스템을 이용한 음소 경계 분할이 이루어지고 있다. 그러나 자동 분할 결과를 직접 이용하여 합성음 을 생성할 경우 음소 경계 에러로 인하여 접합 왜곡이 많이 발생하게 된다. 이러한 문제를 해결하기 위해서, 본 연구에서는 단위 접합시 경계 에러를 고려하여 적합한 접합 위치를 찾 고자 하였다. 여기서 적합한 접합 위치는 스펙트럼의 불연속이 최소화된 접합점을 의미한다. 합성음에 대한 MOS(Mean Opinion Score) 테스트와 스펙트로그램(spectrogram)의 모양을 비교하므로써 제안된 방법의 성능을 평가하였다. 제안된 방법은 두 단계로 이루어져 있다. 첫째, 레퍼런스 패턴(reference pattern)과 두 개의 테스트 패턴(test pattern)을 선택하는 단 계와, 둘째, 앞과 뒤 테스트 패턴 사이의 적합한 접합위치를 찾는 단계이다. 본 연구에서는 패턴 사이의 스펙트로그램 비교를 위해 켑스트럼(cepstrum) 피라미터와 패턴 분류기 (pattern classifier)인 DTW(Dynamic Time Warping) 알고리즘을 사용하였다. 제안된 알고 리즘을 평가한 청취 테스트의 결과에서 제안된 알고리즘을 적용하여 합성된 합성음의 음질 이 자동 분절로 생성된 단위를 그대로 이용한 경우의 음질보다 우수함을 보였다.

  • PDF

저가형 3D 카메라를 이용한 K-POP 댄스 안무 검색 (K-POP Dance Choreography retrieval with low-cost depth cameras)

  • 김도형;장민수;윤영우;김재홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1435-1438
    • /
    • 2015
  • 본 논문에서는 대용량의 K-POP 모션캡처 데이터베이스에서 특정 안무구간을 검색하는 방법을 제안한다. 제안 기술은 저가형 3D 카메라를 이용하여 사용자가 직접 검색하고자 하는 동작을 생성하고 이를 질의동작으로 입력하여 원하는 안무동작을 검색하는 직관적인 검색 기술로서 구간 동작의 명칭이 존재하지 않는 K-POP 댄스를 검색하기 위한 핵심기술이다. 역동적인 댄스 자세를 표현하고 매칭하는 방법으로 관절 및 바디파트 간의 상대적인 각도 정보를 추출하고 비교하는 방법을 설명한다. 대용량의 모션캡쳐 데이터베이스를 고속으로 검색하기 위해서 안무동작의 핵심 자세를 분석하여 후보구간 집합을 빠르게 생성하고, 이들 집합에서 Dynamic Time Warping(DTW) 알고리즘으로 안무동작 간의 매칭거리를 보다 정밀하게 산출한다. 약 358분의 K-POP 댄스 곡 100곡에 대한 성능평가에서 92%의 검색정확도를 보였으며, 이는 K-POP 댄스 동작의 복잡성을 고려할 때 경쟁력 있는 성능치이다.

가속도 센서 데이터를 이용한 스마트폰 사용자의 제스처 인식 (Gesture Recognition from Accelerometer Data on a Smartphone)

  • 남상하;김주희;허세경;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.385-388
    • /
    • 2012
  • 본 논문에서는 스마트 폰에 내장된 3축 가속도 센서를 이용해 제스처 훈련 및 테스터 데이터를 수집하고, DTW(Dynamic Time Warping) 알고리즘을 근간으로 하는 효과적인 제스처 인식 방법을 제안한다. 본 논문에서 제안하는 제스처 인식 방법의 성능을 분석하기 위해 안드로이드 스마트 폰에서 동작하는 제스처 인식 프로그램을 개발하였고, 이것을 이용해 수행한 성능실험 결과를 소개한다.

다중 생체인식 기반의 모바일 인증 시스템 성능 개선 (Enhancement of Mobile Authentication System Performance based on Multimodal Biometrics)

  • 정강훈;김상훈;문현준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.342-345
    • /
    • 2013
  • 본 논문은 모바일 환경에서의 다중생체인식을 통한 개인인증 시스템을 제안한다. 다중생체인식을 위하여 얼굴인식과 화자인식을 선택하였으며, 시스템의 인식 시나리오는 다음을 따른다. 얼굴인식을 위하여 Modified census transform (MCT) 기반의 얼굴검출과 k-means 클러스터 분석 (cluster analysis) 알고리즘 기반의 눈 검출을 통해 얼굴영역 전처리를 수행하고, principal component analysis (PCA) 기반의 얼굴인증 시스템을 구현한다. 화자인식을 위하여 음성의 끝점 추출과 Mel frequency cepstral coefficient(MFCC) 특징을 추출하고, dynamic time warping (DTW) 기반의 화자 인증 시스템을 구현한다. 그리고 각각의 생체인식을 본 논문에서 제안된 방법을 기반으로 융합하여 인식률을 향상시킨다.

내용 기반 음악 유사 구간 검색 시스템 (A Content-based Music Similarity Retrieval System)

  • 김현우;한병준;김철환;이교구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.732-735
    • /
    • 2010
  • 본 연구에서는 음악 데이터 베이스에서 노래의 특정 구간과 가장 유사한 구간을 검색하는 시스템을 제안한다. 제안된 시스템에서는 음악을 다차원 시계열 데이터로 간주하고, 음악의 조성 차이 및 템포(tempo) 차이를 고려한 음악의 유사도 계산 방법을 사용한다. 유사도 계산의 전처리 단계에서 조성 차이를 보정하고, 비트(beat)를 검출하며, 추출된 크로마그램(chromagram)을 검출된 비트와 동기화 하여 평균한다. 이후, 동적 시간 왜곡(DTW; dynamic time warping)을 사용하여 두 구간사이의 유사도를 계산한 후 계산된 유사도 순서로 정렬된 검색 결과를 출력한다. 사용자는 제안된 시스템을 사용하여 선택 구간 유사도 검색과 자동 유사 검색 결과로 도출된 구간 쌍을 검토하여 유사 구간을 보다 쉽게 찾을 수 있다.

다중 시계열 패턴 분석에 의한 소프트웨어 계측 (Software Measurement by Analyzing Multiple Time-Series Patterns)

  • 김계영
    • 인터넷정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.105-114
    • /
    • 2005
  • 본 논문에서는 다중 시계열 패턴을 분석하여 계측 값을 예측하는 방법에 관하여 기술한다. 본 논문의 목적은 표본패턴들 중에서 입력패턴과 가장 유사한 패턴을 찾은 다음 그 표본패턴이 가지는 실측값과의 오차율을 산출하는 것이다. 따라서 인식이 아니라 계측이며 하드웨어가 아닌 소프트웨어 기술을 제안하다. 본 논문에서 제안하는 방법은 초기화, 인식 및 계측 등의 단계로 구성된다. 초기화 단계에서는 중요도를 사용하여 인자들 각각의 가중치를 산출한다. 학습 단계에서는 수집된 표본패턴을 먼저 DTW와 LBG 알고리즘을 사용하여 각 인자별 독립적으로 군집화를 수행한 다음, 모든 표본패턴에 대하여 군집의 번호들로 구성된 코드열을 생성한다. 계측 단계에서는 입력패턴에 대한 코드열을 생성한 다음 해슁으로 표본패턴들 중에서 같은 코드열을 가지는 표본들을 찾고, 이 표본들 중에서 입력패턴에 가장 잘 정합되는 하나의 표본을 선택하다. 최종적으로 이 패턴이 가지고 있는 실측값과 오차율을 출력한다. 성능평가는 반도체생산장치 중에서 하나인 식각장치로부터 얻어진 자료에 적용하여 수행한다.

  • PDF

Gated Recurrent Unit Architecture for Context-Aware Recommendations with improved Similarity Measures

  • Kala, K.U.;Nandhini, M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권2호
    • /
    • pp.538-561
    • /
    • 2020
  • Recommender Systems (RecSys) have a major role in e-commerce for recommending products, which they may like for every user and thus improve their business aspects. Although many types of RecSyss are there in the research field, the state of the art RecSys has focused on finding the user similarity based on sequence (e.g. purchase history, movie-watching history) analyzing and prediction techniques like Recurrent Neural Network in Deep learning. That is RecSys has considered as a sequence prediction problem. However, evaluation of similarities among the customers is challenging while considering temporal aspects, context and multi-component ratings of the item-records in the customer sequences. For addressing this issue, we are proposing a Deep Learning based model which learns customer similarity directly from the sequence to sequence similarity as well as item to item similarity by considering all features of the item, contexts, and rating components using Dynamic Temporal Warping(DTW) distance measure for dynamic temporal matching and 2D-GRU (Two Dimensional-Gated Recurrent Unit) architecture. This will overcome the limitation of non-linearity in the time dimension while measuring the similarity, and the find patterns more accurately and speedily from temporal and spatial contexts. Experiment on the real world movie data set LDOS-CoMoDa demonstrates the efficacy and promising utility of the proposed personalized RecSys architecture.

필터 뱅크 최적화에 의한 멜켑스트럼의 성능 향상 (Performance Improvement of Mel-Cepstrum Through Optimzing Filter Banks)

  • 현동훈;이철희
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.78-85
    • /
    • 1999
  • 본 논문에서는 현재 음성 인식에서 널리 사용되고 있는 멜켑스트럼의 성능 향상 방안을 제안한다. 일반적으로 멜켑스트럼은 인접한 필터간의 중심 간격과 필터의 대역폭이 일정한 critical band 필터들을 사용하여 구한다. 그러나 필터의 특성에 따라 멜켑스트럼의 값들이 달라지게 되고, 이에 따라 인식 성능도 변하게 된다. 본 논문에서는 삼각형과 사각형 모양의 critical band 필터를 사용하여 인접한 필터간의 중심 간격과 필터의 대역폭을 각각 변화시키면서 멜켑스트럼을 구하고 이에 따른 인식 성능을 분석한다. 또한 최적화 알고리즘인 simplex 방법을 사용하여 필터의 중심 주파수와 대역폭을 각각 변화시키면서 최적의 성능을 나타내는 필터를 구하는 방법을 제안한다. 인식 알고리즘으로 DTW (dynamic time warping)를 사용하고, 남자 10명과 여자 10명이 발음한 한국어 숫자음을 인식 대상으로 하여 실험을 수행하였다. 사각형 모양의 필터가 삼각형 모양의 필터 보다 우수한 성능을 보여 주었고 제안된 방법으로 최적화된 필터를 사용하여 구한 멜켑스트럼은 기존의 critical band 필터를 사용하는 것보다 향상된 인식 성능을 나타내었다.

  • PDF

연속회분식반응기에서 패턴매칭방법을 이용한 탈질완료 감지 알고리즘 개발 (Detection of Denitrification Completion Using Pattern Matching Method in Sequencing Batch Reactor(SBR))

  • 김예진;안유가;신중필;김창원
    • 대한환경공학회지
    • /
    • 제29권8호
    • /
    • pp.944-949
    • /
    • 2007
  • 연속 회분식 반응기에서 측정되는 기초 상용계측기의 프로파일은 공정 내에서 행해지는 제거반응의 진행 정도에 대한 정보를 제공할 수 있다. 특히 ORP(산화환원전위, Oxidation-Reduntion Potential, ORP) 프로파일에서 관찰되는 탈질 완료를 알리는 굴곡점(nitrate knee point, NKP)을 이용한 탈질 반응의 완료 감지는 널리 알려진 응용사례라고 할 수 있다. 그러나 ORP 굴국점의 재현성이 부족하고, ORP 신호 자체가 가지는 잡음 등의 문제로 탈질 반응의 완료를 감지한 공정 제어의 현장 적용은 미비한 상태이다. 본 논문에서는 이러한 기존의 문제점을 극복할 수 있는 대안으로 ORP 프로파일의 패턴을 인지하여 탈질의 종료 여부를 진단할 수 있는 알고리즘을 제안하였다. 동적 시간 와핑 방법을 사용하여 패턴인지를 수행한 결과, ORP 굴곡점의 출현 여부와 상관없이 공정의 탈질 완료 여부를 감지할 수 있었다.

임베디드 직렬 다중 생체 인식 시스템 개발에 관한 연구 (A Study on the Development of Embedded Serial Multi-modal Biometrics Recognition System)

  • 김정훈;권순량
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.49-54
    • /
    • 2006
  • 현재의 지문 인식 시스템은 지문 패턴의 복제와 지문 특징점의 해킹이라는 불안한 요소가 잠재되어 있어, 시스템 오동작의 주요 원인이 되기도 한다. 이에 본 논문에서는 신체의 일부인 지문을 주 핵심 인식기로 사용하고, 여기에 최근 널리 이용 되고 있는 화자 인증을 이용하여 직렬 형태의 다중 생체인식 시스템을 구현하였다. 구현된 시스템은 다중생체인식시스템으로 먼저 음성에 대한 인증과정이 성공하면 지문에 대한 인식과정을 수행하는 구조로 되어있다. 또한 효율적인 실시간 인증 처리를 위해 기존의 음성 인식 알고리즘 중에서 화자 종속형인 DTW(Dynamic Time Waning) 알고리즘을 사용하였으며, 지문 인식 알고리즘으로는 계산량을 고려하여 인공지능 기법인 KSOM(Kohonen Self-Organizing feature Map) 알고리즘을 적용하였다. 본 논문에서 구현한 다중생체 인식시스템을 실험한 결과 지문과 음성을 각각 이용한 단일인식시스템보다 본인거부율은 $2\~7\%$정도 떨어졌지만, 인식시스템에서 가장 중요한 요소인 타인수락율은 전혀 발생하지 않음을 확인하였다. 아울러 인식테스트 시간 또한 기존의 단일 생체 인식 시스템과 차이가 거의 없었으며, 인식에 걸린 시간은 평균 1.5초 정도였다. 이에 구현된 다중 생체 인의 시스템은 여러 가지 실험 결과 단일 인식 시스템보다 더 효율적인 보안 시스템임을 증명하였다.