• 제목/요약/키워드: 시간축 변환

검색결과 84건 처리시간 0.028초

천이구간 정보를 이용한 음성의 가변적인 시간축 변환 (Variable Time-Scale Modification of Speech Using Trasient Information)

  • 이성주;김희동;김형순
    • 전자공학회논문지S
    • /
    • 제35S권6호
    • /
    • pp.147-155
    • /
    • 1998
  • 기존의 시간축 변환 방법은 음성 특징에 따른 발음 속도의 영향을 고려하지 않기 때문에 변환비율이 커짐에 따라 합성음의 명료도가 떨어지는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 음성 인지과정에서 천이 구간의 시간축 정보가 중요한 역할을 한다는 사실에 기반을 둔 가변적인 시간축 변환 방법을 제안한다. 이를 위하여 제안된 방법에서는 먼저 음성신호를 천이 구간과 정적인 구간으로 구분하고, 천이 구간의 시간축 정보는 그대로 유지하면서 정적인 구간만을 시간축 변환함으로써 목표하는 변환 비율을 얻는다. 청취자 선호도 시험 결과, 제안된 방법이 기존의 대표적인 시간축 변환 방법인 SOLA 방법에 비해 그 성능이 우수함을 확인하였다.

  • PDF

Analysis- By-Synthesis/OverLap- Add( ABS/OLA) Sinusoidal Model 을 이용한 음성변환과 연결음성합성 (Speech Modification and Concatenative Speech Synthesis by using Analysis-By-Synthesis/OverLap-Add(ABS/OLA) Sinusoidal Model)

  • 구자형
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.339-343
    • /
    • 1998
  • Sinusoidal model 은 음성신호처리의 넓은 분야에 적용되고 있는 방법으로 고음질의 합성음을 생성해 낼 수 있고, 조작이 용이하다는 장점을 가지고 있다. 본 논문에서는 Analysis-by-synthesis/Overlap-add Sinusoidal model 이라는 방법을 이용하여 시간축 변환과 dam성 변환을 수행하였다. 특히 본 논문에서는 음질향상을 위하여 시간축 변환시에는 정적인 구간과 변화하는 구간을 구별하여 서로 다른 시간축 변환비를 이용하였고, 기존의 LPC 방법에 비해 스펙트럼 포락선을 보다 잘 추정하는 Improved Cepstrum을 이용하여 음정변환에 적용하였다. 또 서로 다른 문맥에서 얻어진 음성단위들을 결합할 때 생기는 위상차이를 극복하기 위하여, 기본주파수 성분이 일치하도록 시간축을 이동하여 합성하였다. 실험결과 본 논문에서 적용한 방법들을 통해 기존 방식에 비해 개선된 음질을 얻을 수 있었다.

  • PDF

WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산 (A Fast Normalized Cross-Correlation Computation for WSOLA-based Speech Time-Scale Modification)

  • 임상준;김형순
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.427-434
    • /
    • 2012
  • WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.

음성 신호 시간축 변환의 실시간 구현에 관한 연구 (A Study on Real-time Implementing of Time-Scale Modification)

  • 한동철;이기승;차일환;윤대희
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.50-61
    • /
    • 1995
  • 본 논문에서는 음성 신호가 가지고 있는 중요한 특성을 유지하면서 발음 속도만을 변화시키는 시간축 변환 방법을 범용 디지탈 신호 처리 프로세서를 이용하여 실시간으로 구현하였다. 음성 신호 시간축 변환은 음성 신호의 발음 속도만을 변화시키기 때문에, 입력 신호와 변환 신호간의 시간적 차이가 발생하여 실시간 처리가 불가능하다. 본 논문에서는 이러한 입력, 변환 신호간의 시간차를 해결하기 위해서, 카세트 테이프 레코더의 모터 회전 속도를 조절하는 것과 같은 물리적 시간축 변환으로, 입력 음성 신호를 느리게 또는 빠르게 변환시켜 그 신호를 실시간 시스템의 입력으로 사용하였다. 카세트 레코더의 주행 속도만을 조절하는 물리적 변환은 원 신호의 피치 정보를 왜곡시켜, 원 음성의 특성을 변화시키기 때문에, 본 연구에서는 FIR 필터를 이용한 피치 보정 기법으로 왜곡된 신호를 원신호로 복원한 후, SOLA 시간축 변환 방법을 이용하여, 복원된 신호를 카세트 레코더의 모터 속도에 맞추어 시간축으로 변환하는 시스템을 실시간으로 구현하였다. 구현된 알고리듬으로 음성 신호를 시간축으로 변환하는 실험에서, 16비트 해상도를 가진 ADSP2101 프로세서로 구현한 결과와 컴퓨터 시뮬레이션 결과를 비교할 때 평균 구간 신호 대 오차비가 대략 20dB로 두 결과가 거의 유사함을 알 수 있었다.

  • PDF

시간축 웨이블릿 변환을 이용한 블라인드 비디오 핑거프린팅 (Blind Video Fingerprinting Using Temporal Wavelet Transform)

  • 강현호;박지환;이혜주;홍진우
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1263-1272
    • /
    • 2004
  • 본 논문에서는 불법으로 복제된 컨텐츠의 근원지를 확인할 수 있는 핑거프린팅 기법을 제안하고 있다. 판매자와 구매자의 키로 만들어진 균일 랜덤 신호를 시간축 웨이블린 변환에 의해 얻어진 계수 중에서 배포 받을 사용자의 영역에 삽입하여 핑거프린팅을 수행하게 된다. 제안기법은 핑거프린팅된 컨텐츠에 대한 공모 공격과 MPEG2 합축에도 유일한 핑거프린팅 정보를 감지할 수 있다. 특히, 핑거프린팅 정보를 삽입할 사용자의 영역 지정을 위해서 시간축 웨이블릿 변환의 특성을 이용한다. 실험에서는 비디오 컨텐츠의 불법 배포를 추적할 수 있음을 보이고, 다양한 공모공격과 MPEG2 압축에 대해 강인(robustness)함을 보인다.

  • PDF

시간축 웨이블릿 변환에 의한 비디오 핑거프린팅 (Video Fingerprinting based on the Temporal Wavelet Transform)

  • 강현호;박지환;이혜주;홍진우
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.36-39
    • /
    • 2003
  • 본 논문에서는 비디오 컨텐츠 내에 소유자와 구매자 정보를 함께 포함하는 핑거프린팅 정보를 삽입하여 불법으로 배포된 핑거프린팅 컨텐츠로부터 배포자가 누구인지를 추적할 수 있는 기법을 보인다. 특히, 문헌[1]에서 제시된 시간축 웨이블릿 변환을 이용하여 핑거프린팅 정보가 삽입될 영역을 분리해 주고, 역 변환을 통해 전 영역의 비디오 프레임에 정보가 삽입되게 된다. 이로 인해 핑거프린팅된 컨텐츠의 상이성을 이용한 기존의 여러 공모공격에도 강인함을 보이고 있다. 또한, 비디오 컨텐츠의 특성상 MPEG2의 압축에도 불법 배포자를 추적할 수 있는 강인함을 보인다.

  • PDF

피치 변환을 사용한 실시간 음성 변환 시스템 (Real-time Voice Change System using Pitch Change)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.759-763
    • /
    • 2004
  • 본 논문에서는 음성을 본인이 아닌 사람의 음성으로 변환시키기 위하여 피치 변환 기법을 사용한 실시간 음성 변환 방법을 제안하였다 이러한 목적을 위하여 DFT((Discrete Fourier Transform)를 사용한 표본화율 변환 방법과 SOLA(Synchronized Overlap and Add) 방법을 사용한 시간축 변환 방법을 결합하여 피치를 변환시켰다 제안된 방법의 성능을 평가하기 위하여 음성 변환 실험을 수행하였다. 실험 결과에서 원 음성 신호는 원 화자의 신원을 알기가 어려운 음성 신호로 바뀌는 것을 알 수 있었다. 제안된 시스템은 시스템의 실시간으로 구현될 수 있는지 확인하기 위하여 TI TMS320C6711DSK 보드를 사용하여 구현되었다.

이산 웨이블릿 변환을 활용한 VOD 트래픽 모델링 방법 (An approach to VOD traffic modeling using discrete wavelet transform)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (3)
    • /
    • pp.481-483
    • /
    • 2000
  • 본 논문은 이산 웨이블릿 변환의 스케일러빌리티(scalability)를 활용한 VOD 트래픽 모델링에 대하여 소개한다. VOD는 사용자의 요구에 대하여 비디오 데이터를 제공하는 시스템이다. 비디오 데이터는 여러 가지 특징을 가지고 있다. 첫 번째 특징은 데이터 양이 상당히 많다는 점이다. 그리고 데이터 양이 비디오 데이터가 전달되는 시간축에 따라서 변화가 많다는 점이다. 그리고 두 번째 특징은 비디오 데이터는 전송되는 양상이 시간축에 대하여 거의 끊김이 없어야 한다는 점이다. 이러한 점들 때문에 VOD 트래픽을 정확하게 모델링하는 것은 상당히 어렵게 생각되었다. 이산 웨이블릿 변환(discrete wavelet transform)은 함수에 대한 근사이다. 우수한 점은 함수에 대한 근사가 상당히 용이하고 또 유연하다는 점이다. 다시 말하면 함수 근사의 정밀도를 용이하게 조절할 수 있다는 점이다. 또 다른 우수한 점은 시간과 공간 양쪽에 대하여 함수 근사를 할 수 있다는 점이다. 본 논문은 VOD server와 client 사이의 트래픽을 이산 웨이블릿 변환인 스케일러빌리티를 활용하여 모델링하여 server와 client 사이에 보다 효과적인 네트워크 트래픽 제어를 할 수 있음을 보인다.

  • PDF

시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구 (Study on the Improvement of Speech Recognizer by Using Time Scale Modification)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.462-472
    • /
    • 2004
  • 본 논문에서는 자동 음성 인식기의 성능 저하를 일으키는 요인으로서 발성 속도의 변동에 따를 성능 저하를 보상하기 위한 기법을 제안하였다. 새로운 기법의 제안에 앞서서. 먼저 발성 속도의 변화에 따른 기존의 은닉 마코프 모델을 이용한 음성 인식기의 성능을 정량적으로 분석하였다. 이러한 분석을 통해 발성 속도에 따른 유의한 성능 저하를 관찰하고, 주어진 음성으로부터 발성 속도를 정량적으로 나타낼 수 있는 변수를 도입하였다. 발성 속도를 학습 시 사용한 음성과 유사하게 변화시키기 위해 본 논문에서는 음성 신호에 대한 시간축 변환을 사용하였으며, 최종적으로 발성 속도에 따라 선택적으로 시간축 변환을 적용하여 발성 속도의 변동에 따른 음성 인식의 성능 저하를 보상할 수 있는 기법을 제안하였다. 10자리의 이동통신용 전화번호를 이용한 음성 인식의 실험을 통해, 제안된 기법은 빠르게 발성하는 음성에 대해 15.5%의 오류율 감소를 가져오는 것을 확인할 수 있었다.

AC-3오디오 알고리듬의 시간축 영역 에일리어징 제거 변환부 성능향상에 관한 연구 (A Study on the Enhanced Time Domain Aliasing Cancellation Transform of the AC-3 Algorithm)

  • 김준성;강현철;변윤식
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.13-18
    • /
    • 2000
  • 본 연구에서는 입력신호의 특성에 따른 가변 필터뱅크의 구조를 가지는 AC-3 알고리듬의 분석과 합성부를 위한 MDCT/IMDCT변환의 fast-algorithm 설계 및 분석 결과를 제시하며, 또한 pre-echo를 막기 위한 블록사이즈의 변환시 발생하는 aliasing을 시간축 영역에서 효율적으로 제거하지 못하는 AC-3 알고리듬의 불완전한 부분을 4가지의 특별한 윈도우를 사용하여 보완한다. 다양한 음원에 대해 fast-MDCT/IMDCT 연산량과 오차 신호 에너지를 direct form과 비교하여 필터의 성능을 평가하였다.

  • PDF