• 제목/요약/키워드: multi-pitch extraction

검색결과 7건 처리시간 0.026초

개별 피치정보를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by Using Individual Pitch Information)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제6권2호
    • /
    • pp.59-64
    • /
    • 2006
  • 본 연구에서는 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별피치 펄스를 이용한 새로운 멀티펄스 음성부호화 방식(IP-MPC)을 제안하였다. 여기에서, 개별피치 펄스의 추출률은 남자음성에서 $96\%$, 여자음성에서 $85\%$를 얻을 수 있었으며, 개별피치 펄스를 이용한 IP-MPC와 자기상관법의 피치정보를 이용한 MPC를 평가한 결과, IP-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

개별 피치펄스를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Individual Pitch Pulses)

  • 이시우
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.977-982
    • /
    • 2004
  • 본 연구에서는 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별피치 펄스를 이용한 새로운 멀티펄스 음성부호화 방식(띤-MPC)을 제안하였다. 여기에서, 개별피치 펄스의 추출률은 남자음성에서 96 여자음성에서 85%를 얻을 수 있었으며, 개별피치 펄스를 이용한 IP-MPC와 자기상관법의 피치정보를 이용한 MPC를 평가한 결과, IP-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

하모닉 구조를 이용한 다성 음악의 주요 멜로디 검출 (Extracting Predominant Melody from Polyphonic Music using Harmonic Structure)

  • 윤제열;이석필;서경학;박호종
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.109-116
    • /
    • 2010
  • 본 논문에서는 하모닉 구조를 이용하여 다성 음악의 주요 멜로디를 검출하는 방법을 제안한다. 다성 음악은 다수의 음원을 동시에 포함하므로 주요 멜로디를 검출하기 위하여 다중 기본 주파수를 추출하고 각 기본 주파수의 성질을 기반으로 주요 멜로디를 구하는 과정으로 구성된다. 하모닉 구조는 기본 주파수의 배음관계를 나타내고 단일 음원 신호의 중요한 특성 파라미터이다. 따라서 제안하는 방법은 하모닉 구조의 정확도를 기준으로 다성 음악에 존재하는 모든 기본 주파수 후보를 추출하고, 추출된 기본 주파수 후보에 대하여 하모닉 성분을 조합하여 하모닉 평균 에너지를 구하여 기본 주파수 후보의 중요도 순위를 결정한다. 마지막으로 기본 주파수 후보의 순위와 기본 주파수의 연속성을 기반으로 피치 트래킹을 진행하여 최종 주요 멜로디에 해당하는 기본 주파수를 검출한다. 제안한 방법의 성능을 ADC 2004 DB와 가요 100곡에 대하여 MIREX 2005 측정 방법에 따라 측정하였으며, ADC 2004 DB에 대하여 90.42%의 검출 정확도를 가진다.

V/S/TSIUVC를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by Using V/S/TSIUVC)

  • 이시우
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1233-1239
    • /
    • 2004
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭, 개별피치 펄스와 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 95.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks

  • Farhadipour, Aref;Veisi, Hadi;Asgari, Mohammad;Keyvanrad, Mohammad Ali
    • ETRI Journal
    • /
    • 제40권5호
    • /
    • pp.643-652
    • /
    • 2018
  • Dysarthria is a degenerative disorder of the central nervous system that affects the control of articulation and pitch; therefore, it affects the uniqueness of sound produced by the speaker. Hence, dysarthric speaker recognition is a challenging task. In this paper, a feature-extraction method based on deep belief networks is presented for the task of identifying a speaker suffering from dysarthria. The effectiveness of the proposed method is demonstrated and compared with well-known Mel-frequency cepstral coefficient features. For classification purposes, the use of a multi-layer perceptron neural network is proposed with two structures. Our evaluations using the universal access speech database produced promising results and outperformed other baseline methods. In addition, speaker identification under both text-dependent and text-independent conditions are explored. The highest accuracy achieved using the proposed system is 97.3%.

8kbps에 있어서 ACFBD-MPC에 관한 연구 (A Study on ACFBD-MPC in 8kbps)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.49-53
    • /
    • 2016
  • 최근 무선네트워크의 효율을 높이기 위하여 신호압축 방식의 사용이 증가되고 있다. 특히, MPC 시스템은 비트율을 줄이기 위하여 피치추출 방법과 유성음과 무성음의 음원을 사용하였다. 일반적으로, 유성음원과 무성음원을 사용하는 MPC 시스템에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 재생 음성파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성파형이 정규화 되는 것이 원인으로 작용한다. 본 논문에서는 재생 음성파형의 일그러짐을 제어하기 위하여 피치구간 마다 멀티펄스의 진폭을 보정하고, 특정 주파수를 이용하는 ACFBD-MPC(Amplitude Compensation Frequency Band Division-Multi Pulse Coding)를 제안하였다. 실험은 남자와 여자음성에서 각각 16개의 문장을 사용하였으며, 음성신호는 10kHz 12bit로 A/D 변환하였다. 또한 8kbps의 부호화 조건에서 ACFBD-MPC 시스템을 구현하고, ACFBD-MPC의 SNR를 평가하였다. 그 결과 ACFBD-MPC의 남자 음성에서 14.2dB, 여자 음성에서 13.6dB 임을 확인할 수 있었으며, ACFBD-MPC가 기존의 MPC에 비하여 남자음성에서 1dB, 여자음성에서 0.9dB 개선되는 것을 알 수 있었다. 이 방법은 셀룰러폰이나 스마트폰과 같이 낮은 비트율의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

V/S/TSIUVC 스위칭을 이용한 음성부호화 방식에 관한 연구 (A study on Speech Coding Method using V/S/TSIUVC Switching)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제7권6호
    • /
    • pp.1180-1184
    • /
    • 2006
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서 모음과 무성자음이 있는 프레임에서 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭과 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 96.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF