• Title/Summary/Keyword: 음성개선

Search Result 1,031, Processing Time 0.036 seconds

A Study on the Multiple-Speech Synthesis using the Duration Control (지속시간 변경에 의한 다중음성 합성에 관한 연구)

  • Jin Ming;Seo JiHo;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.97-100
    • /
    • 2004
  • 다중음성 합성시스템은 단일 화자의 음성을 입력받아 다양한 음색의 다중음성으로 합성을 해주는 음성합성 시스템이다. 기존의 다중음성 합성시스템의 출력인 다중 합성음은 피치만 변경된 음성으로 원 음성과 동일한 지속시간을 갖게 된다. 따라서 피치 변경된 음성간의 구분이 어렵게 되며 이러한 사항을 개선하고자 본 논문에서는 피치와 지속시간 변경에 의한 다중음성 합성시스템에서 관한 연구를 하였다. 본 논문에서는 시간 영역에서의 지속시간 변경법인 PSOLA방식을 적용하여 피치 변경된 음성의 지속시간을 변경하였다. 지속시간 변경을 적용한 다중음성 합성시스템을 이용하면 한 사람의 음원 목소리로 여러 사람이 응원하는 효과음을 낼 수 있는 합성기로 사용할 수 있고 영화의 효과음, 핸드폰의 음성 메시지 서비스 등에서 용이하게 사용될 것으로 예상하고 있다.

  • PDF

Improvement of Signal-to-Noise Ratio for Speech under Noisy Environment (잡음환경 하에서의 음성의 SNR 개선)

  • Choi, Jae-Seung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.7
    • /
    • pp.1571-1576
    • /
    • 2013
  • This paper proposes an improvement algorithm of signal-to-noise ratios (SNRs) for speech signals under noisy environments. The proposed algorithm first estimates the SNRs in a low SNR, mid SNR and high SNR areas, in order to improve the SNRs in the speech signal from background noise, such as white noise and car noise. Thereafter, this algorithm subtracts the noise signal from the noisy speech signal at each bands using a spectrum sharpening method. In the experiment, good signal-to-noise ratios (SNR) are obtained for white noise and car noise compared with a conventional spectral subtraction method. From the experiment results, the maximal improvement in the output SNR results was approximately 4.2 dB and 3.7 dB better for white noise and car noise compared with the results of the spectral subtraction method, in the background noisy environment, respectively.

A Study on the design of voice cryptograph system (음성암호시스템 설계에 관한 연구)

  • Choi, Tae-Sup;Ahn, In-Soo
    • Journal of the Institute of Electronics Engineers of Korea TE
    • /
    • v.39 no.2
    • /
    • pp.51-59
    • /
    • 2002
  • In this paper, we studied the voice cryptograph system designed by the SEED algorithm for the safe transmission and receipt on the voice communication. Voice band signal converts to digital signal by the CODEC and DSP that applied the improved SEED algorithm encrypt the digital signal. The CODEC convert Encryption signal into analog voice signal. This voice signal is transmitted safely because of encryption signal even if someone wiretap. Receiver can hear the source voice, because the encryption signal decrypted using the SEED algorithm. In this paper, We designed the 32 round key instead of 16 round key in the SEED algorithm so that we improve the truncated differential probability from $2^{-143.1}$ to $2^{-286.6}$

An Improved Seheme in IMT-2000 CDMA Forward Link Using Combined Speech and Channel Coding (음성 및 채널부호화의 연계성능 분석을 이용한 IMT-2000 CDMA 순방향링크 성능개선)

  • 김선영;강법주;윤병식
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.3
    • /
    • pp.65-71
    • /
    • 1998
  • 비균등 에러 보호에 의한 IMT-2000용 CDMA 순방향 링크의 성능개선 방법을 나타 내었다. 제안된 방법의 성능은 다경로 페이딩채널 및 BPSK변조에 대한 CS-ACELP 음성부 호화기 및 RCPC 채널부호화기를 이용하여 분석되었다. CS-ACELP 부호화기의 비트 에러 감도 정보에 근거한 연계성능분석 결과제안된 방법은 SEGSNR이 0.4∼1dB 개선되었다. 또 한 총전송율 및 전력제어비트를 펑처링하지 않고도 기존 구조를 유연성있게 변경 가능하다.

  • PDF

Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology (한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론)

  • Solee Im;Wonjun Lee;Gary Geunbae Lee;Yunsu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

A Study on the Improvement Plan of Voice Recognition Security Vulnerability (음성인식 보안 취약점 개선방안에 대한 연구)

  • Kim, YeonJeong;Yun, HyeMin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.746-748
    • /
    • 2017
  • 음성인식을 사용하는 이용자가 많아지는 요즘, 이를 악용하여 개인정보를 탈취하고, 휴대폰을 해킹하는 등 정보보호 상의 문제점이 많아지고 있다. 이 논문에서는 음성인식 중에서도 IoT 기기의 음성비서를 이용하는 사용자들의 개인정보보호를 위해 음성인식의 보안 정도를 높이고, 본인인증을 더 확실히 할 수 있는 방안을 제안한다.

A Speech Coder for Server-Based Speech Recognition in Mobile Communication (이동통신 환경 하에서의 서버 기반 음성 인식을 위한 음성 부호화 기법)

  • Lee Gil Ho;Yoon Jae Sam;Oh Yoo Rhee;Kim Hong Kook
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.89-92
    • /
    • 2004
  • 본 논문의 목적은 이동통신 환경 하에서 음성 인식과 음성 부호화를 성능의 저하 없이 동시에 수행하기 위한 기법을 개발하는 것에 있다. 이를 구현하기 위해 통신상에서 전송되는 음성 특징 파라미터는 기존 음성 부호화기의 LPC 대신 음성 인식 파라미터인 MFCC를 사용하였다. 따라서 음성 인식 성능은 향상된다 하지만 음성 재생을 위해 MFCC를 LPC로 변환하는 과정에서 오차가 발생하여 전송되는 bit 수에 비해 만족할만한 음질을 얻을 수 없다. 따라서 이 오차를 보상하여야 하며 이를 위한 변수를 추가하여 음질을 개선시켰다. 그 결과 음질과 음성 인식에서 안정된 성능을 보이는 음성 부호화기를 개발하였다.

  • PDF

다중 서버 구조를 갖는 Web 기반 음성 수집 시스템

  • 홍문기;강선미;장문수
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.230-232
    • /
    • 2003
  • 음성에 관련된 연구분야에 있어서 음성 데이터 수집의 중요성은 매우 크다. 개발된 인식기나 분석기의 성능이 좋다 하더라도 실험에 사용된 음성 데이터의 질과 양에 따라서 실험 결과를 확정짓기가 어려운 점이 있다. 대개의 경우 음성 수집은 오프라인으로 이루어지는데, 실험에서 요구되는 특정 수집자에 대해서 일정 기간과 정해진 장소에서 반복 수집하는 것은 어려움이 많이 따른다. 그러므로 본 연구에서는 Web을 이용하여 음성 데이터 수집자로 하여금 다양한 시간과 장소에서 자유롭게 음성을 수집할 수 있도록 하였다. 이에 대하여 수집된 음성 데이터의 크기가 커짐에 따른 통신상에서 종종 발생하는 문제점을 개선하려는 목적으로 다중 서버를 두어 수집된 데이터는 지역 서버에 일단 저장되었다가 적절한 상황에서 메인 서버로 자동 전송하는 시스템을 구축하였다. 본 시스템은 서로 다른 실험에서 수집되는 데이터를 수집 지역서버를 지정해 줌으로서 수집자가 원하는 특정 지역 서버에서 별도로 관리할 수 있도록 구성되어 있다. 시간, 위치의 제약 없이 인터넷이 연결된 장소에서는 음성을 수집할 수 있고, 웹상 ActiveX 프로그램을 제공함으로써 일관된 끝점처리 및 잡음처리 기능을 반영할 수 있다. 또한 다양한 응용에 적절한 수집기의 인터페이스를 관리자 모드에서 변경하여 사용할 수 있도록 함으로서 넓은 층에서의 활용도를 높였다. (중략)

  • PDF

Performance Comparison of Speech Recognition Using Body-conducted Signals in Noisy Environment (소음 환경에서 body-conducted 신호를 이용한 음성인식 성능 비교)

  • Choi Dae-Lim;Lee Kwang-Hyun;Lee Yong-Ju;Kim Chong-Kyo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.57-60
    • /
    • 2004
  • 본 논문에서는 음성정보기술산업지원센터(SiTEC)에서 현재 배포중인 고소음 환경 음성 DB를 이용하여 air-conducted 음성과 body-conducted 음성의 인식 성능을 비교 실험하였다. 소음 환경에서 일반적인 마이크로폰으로부터 수집된 air-conducted 음성은 잡음의 영향을 받기 쉬우며 이는 인식률을 저하시킨다. 반면에 진동 픽업 마이크로폰에서 수집된 body-conducted 음성은 소음에 보다 강인한 특성을 보인다. 이러한 특성에 근거하여 소음 환경에서 일반 다이나믹 마이크로폰 음성에 음질 개선 방법과 채널 보상 방법을 적용한 인식 결과와 3종류의 진동 픽업 마이크로폰에서 수집된 음성과의 인식 성능을 비교 분석하여 body-conducted 음성 인식 시스템의 환용 가능성을 살펴보았다.

  • PDF