• 제목/요약/키워드: Time Warping

검색결과 292건 처리시간 0.024초

SOLA를 이용한 더빙 신호의 시간축 동기화 (Time-Synchronization Method for Dubbing Signal Using SOLA)

  • 이기승;지철근;차일환;윤대희
    • 방송공학회논문지
    • /
    • 제1권2호
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문에서는 음성 신호의 시간축 변화에 널리 사용되고 있는 SOLA(Synchronized Over-Lap and ADD)기법을 사용하여 더빙된 신호를 본래의 음성 신호와 시간적으로 일치시키는 기법을 제안하였다. 방송 녹음의 경우, 큰 레벨의 배경 잡음등으로 인하여 스튜디오에서의 재녹음이 필요한 경우가 발생하게 된다. 이러한 재녹음 신호는 원래의 녹음 시간과 비교하여 대략 200msec의 시간차이를 갖게 되며, 이러한 시간차이는 화면과 음성과의 합성시 입모양이 서로 불일치하는 현상을 야기시킨다. 본 논문에서는 이러한 문제점을 해결하기 먼저 에너지궤적을 통해 원녹음 신호와 더빙 신호간의 어절 시작점을 서로 일치시키고, 어절내의 음소 위치를 동기화시키기 위하여 LPC 켑스트럼 분석과 DTW(Dynamic Time Warping)을 적용하였다. 음소가 서로 일치하는 지점은 원래의 녹음 신호와 더빙된 신호간의 LPC켑스트럼 자승 오차가 취소로 되는 지점을 탐색함으로서 결정된다. 음성의 합성시에는 인접 프레임간의 위상 관계가 서로 일치하도록 SOLA 방법을 사용하였다. 컴퓨터를 이용하여 모의 실험을 수행한 결과, 제안된 알고리즘을 통해 시간축 보정된 음성 신호는 음성 파형, 스펙트로그램 및 청취상으로 원래의 녹음 신호와 시간적으로 서로 일치함을 확인할 수 있었다.

  • PDF

매개변수로 제어가능한 운전자의 안전벨트 뻗침 모션 생성 (Parametrized Construction of Virtual Drivers' Reach Motion to Seat Belt)

  • 서혜원;코디에프레데릭;최우진;최형연
    • 한국CDE학회논문집
    • /
    • 제16권4호
    • /
    • pp.249-259
    • /
    • 2011
  • In this paper we present our work on the parameterized construction of virtual drivers' reach motion to seat belt, by using motion capture data. A user can generate a new reach motion by controlling a number of parameters. We approach the problem by using multiple sets of example reach motions and learning the relation between the labeling parameters and the motion data. The work is composed of three tasks. First, we construct a motion database using multiple sets of labeled motion clips obtained by using a motion capture device. This involves removing the redundancy of each motion clip by using PCA (Principal Component Analysis), and establishing temporal correspondence among different motion clips by automatic segmentation and piecewise time warping of each clip. Next, we compute motion blending functions by learning the relation between labeling parameters (age, hip base point (HBP), and height) and the motion parameters as represented by a set of PC coefficients. During runtime, on-line motion synthesis is accomplished by evaluating the motion blending function from the user-supplied control parameters.

음성인식 기능을 탑재한 다기능 휠체어 시스템 설계 및 구현 (wheelchair system design on speech recognition function)

  • 김정훈;류홍석;강재명;강성인;김관형;이상배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.1-5
    • /
    • 2002
  • 본 논문은 수족이 불편한 장애인의 편리성을 위해 휠체어에 음성인식 모듈을 개발하는데 목표로 하고 있다. 본 시스템의 주프로세서는 TMS320C32를 이용하였고, 전처리단계에서 잡음환경의 특성을 고려하여 Winer 필터를 적용해서 잡음을 제거하였고 특징추출과정에서는 LPC&Cepstrum을 이용하여 프레임당 12차의 특징패턴을 추출하였다. 그 후 인식부에서는 기존의 알고리즘 중 고립단어에서 흔히 사용하는 DTW(Dynamic Time Warping)과 오인식률 발생을 방지하기 위해 NN(Neural Network)를 결합한 Hybrid 형태로 구현하였다. 본 연구에서는 DTW와 Hybrid형태를 각각 실험한 결과 잡음환경에서 고립단어 인식률이 평균 96%이상 나타났다.

  • PDF

소나무와 이태리포플러 판재(板材)의 천연건조(天然乾燥)에 관(關)한 시험(試驗) (Study on the course of air-drying of red pine and Italian poplar boards)

  • 안수구;임동혁;정희석
    • Journal of the Korean Wood Science and Technology
    • /
    • 제4권1호
    • /
    • pp.48-53
    • /
    • 1976
  • This Study was carried out to investigate the course of air-drying and drying defects of red pine (Pinus densiflora S. et Z.) and Italian poplar (Populus eurameriana I-476) boards 1,2 and 3cm thick in the flat pile. The results are as follows. 1. Air-drying curves for red pine and Italian poplar boards were same as figure 1 and 2. These moisture contents were lower in July and August during seasoning periods. 2. Air drying time of red pine board required to dry 15 percent moisture content in one week for 1 cm board, five weeks for 2 cm board and six weeks for 3cm board respectively. In case of Italian poplar boards, in one week for 1 cm board, four weeks for 2 cm and five weeks for 3 cm board. The thickness of board influenced the time for air drying. 3. Drying defects such as checking, warping and staining happened badly in pine than in Italian poplar boards. Especially, checking was severe in thicker board and warping in thinner board.

  • PDF

스펙트럼사상학습을 이용한 잡음환경에서의 한국어숫자음인식 (Korean Digit Recognition Under Noise Environment Using Spectral Mapping Training)

  • 이기영
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.25-32
    • /
    • 1994
  • 본 연구에서는 정적지도적응알고리즘을 기초로 한 스펙트럼사상학습을 이용하여 잡음환경에서의 한국어숫자음인식방법을 제시하였다. 제시한 인식방법에서 잡음이 섞인 음성스펙트럼 공간을 잡음이 없는 음성스펙트럼 공간으로 사상한 결과, 잡음이 섞인 음성스펙트럼의 왜곡이 개선되어 잡음처리를 행하지 않은 기존의 VQ(vector quantizaton)와 DTW(dynamic time warping)를 이용한 방법보다 높은 인식율을 얻을 수 있었으며 , 0 dB의 SNR 레벨에서도 기존방법의 인식율을 10배 정도 향상시키므로써, 스펙트럼사상학습이 잡음환경의 음성에 대한 인식성능을 향상시킬 수 있는 방법임을 확인하였다.

  • PDF

크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발 (Development of melody similarity based on chroma representation, dynamic time warping, and hinge distance)

  • 장달원;박성주;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.258-260
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.

  • PDF

DTW 거리를 지원하는 범위 서브시퀀스 매칭 (Range Subsequence Matching under Dynamic Time Warping)

  • 한욱신;이진수;문양세
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.559-566
    • /
    • 2008
  • 본 논문에서는 동적 타임 워핑(DTW) 거리를 사용하는 범위 서브시퀀스 질의 처리 방법을 제안한다. 본 논문에서는 제안하는 방법은 데이타 시퀀스를 디스조인트 윈도우로 분할하고, 질의 시퀀스를 슬라이딩 윈도우로 분할하는 방법을 사용하는 DualMatch의 범위 서브시퀀스 질의 처리 방법을 이용한다. DualMatch는 유클리디언 거리 하에서 동작하는 것으로 알려져 있다. 그러나, 유클리디언 거리는 견고하지 못한 유사 모델이기 때문에 DualMatch는 반드시 DTW 거리를 지원해야 한다. 본 논문에서는 제안하는 방법의 정확성을 입증하기 위해서 중요한 정리를 유도하고, 이에 근거한 알고리즘을 제안한다. 광범위한 실험을 통해 본 논문에서 제안하는 방법이 순차 스캔 알고리즘 보다 효율적으로 동작함을 보였다.

동적 프로그래밍을 이용한 오프라인 환경의 문서에 대한 필적 분석 방법 (A Verification Method for Handwritten text in Off-line Environment Using Dynamic Programming)

  • 김세훈;김계영;최형일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1009-1015
    • /
    • 2009
  • 필적 감정은 개인의 필적 개성을 이용하여 임의의 두 필기 문장 또는 텍스트가 동일인에 의해 작성되었는지를 판별하는 기술이다. 본 논문은 패턴 인식 기술을 사용하여 효과적으로 필적을 분석하고 판별하는 오프-라인 환경에서의 검증 방법을 제안한다. 본 논문에서 연구된 방법의 핵심 절차는 문자 영역 추출, 문서의 구조적 특징을 반영하는 특징의 추출, DTW(Dynamic Time Warping) 알고리즘과 주성분 분석을 이용한 특징 분석이다. 실험 결과는 제안하는 방법의 우수한 성능을 보여준다.

윤곽선 특성과 동적 시간 정합을 이용한 식물 잎 이미지 검색 기법 (A Leaf Image Retrieval Scheme based on Shape Descriptor and Dynamic Time Warping)

  • 탁윤식;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.3-5
    • /
    • 2007
  • 본 논문에서는 새로운 내용기반 이미지 검색 기법으로 식물 잎의 윤곽선에 대하여 동적 시간 정합 기법을 이용하여 유사한 이미지를 효과적으로 검색하는 방법을 제안한다. 이를 위하여 우선 식물 잎의 기준점에 대하여 잎의 가장자리를 따라 가면서 구해지는 거리의 곡선을 통하여 잎의 외형 특성을 표현하였다. 추출된 곡선 정보의 효율적인 저장과 처리를 위하여 곡선의 특성을 표현할 수 있는 퓨리에 계수(Fourier Coefficients)를 계산하고 이를 바탕으로 유사한 이미지를 계산하였다. 이런 과정에서 생기는 문제점으로는 복잡한 형태의 곡선에 대해서는 퓨리에 계수를 통하여 저장하고 복원하는 과정에서 원본 곡선의 세부적인 형태 정보를 상실하게 된다. 이러한 문제를 해결하기 위해서는 복잡한 곡선 유형에 대해서는 복원시 상실되는 정보가 최소화될 수 있는 작은 단위의 구간으로 나누고 이에 대한 퓨리에 계수를 계산하는 방법으로 다수의 퓨리에 계수 세트를 추출하는 이진 구간 분할 (Binary Range Reduction) 알고리즘을 사용하였고 질의 이미지와 저장된 이미지들을 비교하는 과정에서 검색의 정확도를 향상시키기 위하여 동적 시간 정합(Dynamic Time Warping) 알고리즘을 사용하였다. 그리고 검색의 효율을 더욱 높이기 위하여 추출된 외형 정보를 기반으로 잎의 유형을 다양한 카테고리로 분류하는 외형 기형 기반의 잎 분류 기법을 제안하였다. 다양한 실험을 통하여 제안한 기법이 식물 잎 검색에 우수한 성능을 나타냄을 보인다.

  • PDF

화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가 (Evaluation of Frequency Warping Based Features and Spectro-Temporal Features for Speaker Recognition)

  • 최영호;반성민;김경화;김형순
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.3-10
    • /
    • 2015
  • In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) are applied to the speaker recognition experiment. In addition, the spectro-temporal features extracted by the cepstral-time matrix (CTM) are examined as an alternative to the delta and delta-delta features. Experiments on the NIST speaker recognition evaluation (SRE) 2004 task are carried out using the Gaussian mixture model-universal background model (GMM-UBM) method and the joint factor analysis (JFA) method, both based on the ALIZE 3.0 toolkit. Experimental results using both the methods show that BWFCC with appropriate warping factor yields better performance than MFCC and LFCC. It is also shown that the feature set including the spectro-temporal information based on the CTM outperforms the conventional feature set including the delta and delta-delta features.