• 제목/요약/키워드: Voice conversion

검색결과 66건 처리시간 0.029초

직교 벡터 공간 변환을 이용한 음성 개성 변환 (Voice personality transformation using an orthogonal vector space conversion)

  • 이기승;박군종;윤대희
    • 전자공학회논문지B
    • /
    • 제33B권1호
    • /
    • pp.96-107
    • /
    • 1996
  • 본 논문에서는 직교 벡터 공간 변환을 이용한 새로운 음성 개성 변환 알고리즘을 제안하였다. 음성 개성 변환이란 임의 환자(source)가 가지고 있는 몇 개의 특징 변수를 다른 화자(target)의 특징 변수로 변환하는 기법이다. 본 논문에서는 LPC 켑스트럼 계수와 여기 신호의 스펙트럼, 그리고 피치 궤적을 변환하여 음성 개성변환을 구현하였다. LPC 켑스트럼 계수의 변환을 위해 직교 벡터 공간 변환 기법이 제안되었다. 이 기법은 KL(Karhunen-Loeve)변환을 이용한 principle component의 분리와 최소 자승 오차를 갖는 선형 좌표 변환을 통해 LPC 켑스트럼의 변환을 수행한다. 또한, 화자간의 운율적인 특징을 변환하기 위해 피치 궤적 변환 기법이 제안되었다. 피치 궤적 변환을 위하여 먼저 두 화자간의 기준 피치 패턴의 작성하고 기준 패턴간의 대응 관계를 추정한 후 이를 이용하여 source 화자의 피치 패턴이 target 피치 패턴으로 변환되도록 하였다. 컴퓨터를 이용한 모의 실험 결과 제안된 알고리즘은 객관적인 평가와 주관적인 평가에 있어서 우수한 성능을 나타내었다.

  • PDF

최적 분류 변환을 이용한 음성 개성 변환 (Voice Personality Transformation Using an Optimum Classification and Transformation)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권5호
    • /
    • pp.400-409
    • /
    • 2004
  • 본 논문에서는 임의의 화자가 발성한 음성을 다른 화자가 발성한 음성처럼 들리도록 변환하는 음성 변환 알고리즘을 제안하였다. 개인이 지니고 있는 음성의 특성을 변환하기 위해 성도 전달 함수의 특성을 변환 변수로 사용하였으며, 기존의 기법과 비교하여 목표 화자의 음성과 주관적, 객관적으로 더욱 유사한 변환음을 얻기 위한 새로운 방법을 제안하였다. 성도 전달 함수의 변환은 전체 특징 벡터 공간을 분류 한 뒤, 각 구획에 대한 선형 변환식을 통해 구현된다. 특징 변수로서 LPC 켑스트럼을 사용하였으며, 벡터 공간의 분류와 선형 변환식의 추정을 동시에 최적화시키는 분류-변환 알고리즘이 새로이 제안되었다. 제안된 음성 변환 기법의 성능을 평가하기 위해 3명의 남성 화자와 1명의 여성 화자로부터 수집된 약 150개의 문장을 사용하여 변환 규칙을 생성하였으며, 이를 동일한 화자가 발성한 다른 150개의 문장에 대해 적용하여 객관적인 성능 평가와 주관적 청취 테스트를 수행하였다.

고령화 사회를 위한 음성 인식 챗봇 시스템 : 기술 개발과 맞춤형 UI/UX 설계 (Voice Recognition Chatbot System for an Aging Society: Technology Development and Customized UI/UX Design)

  • 정윤지;유민성;오주영;황현석;허원회
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권4호
    • /
    • pp.9-14
    • /
    • 2024
  • 본 연구는 고령화 사회의 노년층 우울증과 고독감 문제를 해결하기 위해 음성 인식 챗봇 시스템을 개발하였다. 이 시스템은 Whisper 모델, GPT 2.5, XTTS2를 활용하여 고성능 음성 인식과 자연어 처리, 텍스트-음성 변환 기능을 제공한다. 사용자는 이를 통해 감정과 상태를 표현하고 적절한 반응을 얻을 수 있으며, 지인의 목소리를 이용한 음성인식 기능으로 친숙함과 안정감을 느낄 수 있다. UX/UI는 스마트 시니어 세대의 인지 반응과 시력 저하, 운동 능력 제약 등을 고려하여 설계되었다. 명도와 선명도가 높은 색상, 가독성이 좋은 서체등을 활용하여 고령자의 사용 편의성을 높였다.이 연구는 음성 기반 인터페이스를 통해 노년층의 삶의 질 향상에 기여할 것으로 기대된다.

스텍트럼포명 수정법에 의한 한국어모음의 성질변환에 관한 연구 (A Study on Voice quality conversion for Korean vowels using spectrum envelope correction method)

  • 이기영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.314-317
    • /
    • 1994
  • 스펙트럼포락의 변경에 의해 음성의 개인성이 변환될 수 있다는데 착안하여 스펙트럼포락 수정법에 의한 성질변환에 관하여 연구하였다. 실험에서는 남성화자와 여성화자가 각각 발성한 한국어 모음을 대상으로 스펙트럼포락 수정법을 적용하여 스펙트로그램과 청취시험을 비교검토하므로써 성질변환의 성능을 확인하였다.

  • PDF

Intelligent Steering Control System Based on Voice Instructions

  • Seo, Ki-Yeol;Oh, Se-Woong;Suh, Sang-Hyun;Park, Gyei-Kark
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권5호
    • /
    • pp.539-546
    • /
    • 2007
  • The important field of research in ship operation is related to the high efficiency of transportation, the convenience of maneuvering ships and the safety of navigation. For these purposes, many intelligent technologies for ship automation have been required and studied. In this paper, we propose an intelligent voice instruction-based learning (VIBL) method and discuss the building of a ship's steering control system based on this method. The VIBL system concretely consists of two functions: a text conversion function where an instructor's inputted voice is recognized and converted to text, and a linguistic instruction based learning function where the text instruction is understood through a searching process of given meaning elements. As a study method, the fuzzy theory is adopted to build maneuvering models of steersmen and then the existing LIBL is improved and combined with the voice recognition technology to propose the VIBL. The ship steering control system combined with VIBL is tested in a ship maneuvering simulator and its validity is shown.

켑스트럼 기반 혼성영역 피치변경법의 처리시간 단축에 관한 연구 (On a Processing Time Reduction of Cepstrum-Based Pitch Alteration in Time-Frequency Hybrid Domain)

  • 조왕래;김종국;배명진
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.41-47
    • /
    • 2010
  • 음성변환을 위한 피치변경법은 시간영역법과 주파수영역법, 혼성영역법이 많이 사용되고 있으며 시간-주파수 혼성영역법은 스펙트럼 왜곡이 적고 명료성과 자연성이 우수하다는 장점이 있는 반면 영역변환을 위한 처리시간이 매우 길다는 단점을 가지고 있었다. 본 논문에서는 시간-주파수 혼성 영역 피치변경법의 처리시간을 단축하는 방법을 제안하였다. 음성신호를 켑스트럼으로 변경하는 과정에서 사용되는 FFT와 IFFT의 비트-재정렬 과정을 생략함으로써 처리시간을 단축하는 방법이다. 이를 적용함으로써 기존의 켑스트럼 피치변경법과 같은 음성품질을 유지하면서도 처리시간은 86.26%로 단축할 수 있었다.

이산 Wavelet 변환을 이용한 딥러닝 기반 잡음제거기 (Noise Canceler Based on Deep Learning Using Discrete Wavelet Transform)

  • 이행우
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1103-1108
    • /
    • 2023
  • 본 논문에서는 음향신호의 배경잡음을 감쇠하기 위한 새로운 알고리즘을 제안한다. 이 알고리즘은 이산 웨이블릿 변환(DWT: Discrete Wavelet Transform) 후 기존의 적응필터를 대신 FNN(: Full-connected Neural Network) 심층학습 알고리즘을 이용하여 잡음감쇠 성능을 개선하였다. 입력신호를 단시간 구간별로 웨이블릿 변환한 다음 1024-1024-512-neuron FNN 딥러닝 모델을 이용하여 잡음이 포함된 단일입력 음성신호로부터 잡음을 제거한다. 이는 시간영역 음성신호를 잡음특성이 잘 표현되도록 시간-주파수영역으로 변환하고 변환 파라미터에 대해 순수 음성신호의 변환 파라미터를 이용한 지도학습을 통하여 잡음환경에서 효과적으로 음성을 예측한다. 본 연구에서 제안한 잡음감쇠시스템의 성능을 검증하기 위하여 Tensorflow와 Keras 라이브러리를 사용한 시뮬레이션 프로그램을 작성하고 모의실험을 수행하였다. 실험 결과, 제안한 심층학습 알고리즘을 사용하면 기존의 적응필터를 사용하는 경우보다 30%, STFT(: Short-Time Fourier Transform) 변환을 사용하는 경우보다는 20%의 평균자승오차(MSE: Mean Square Error) 개선효과를 얻을 수 있었다.

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

빅데이터 기반의 융합 보이스피싱을 이용한사회공학적 공격 기법과 대응방안 (A Scheme of Social Engineering Attacks and Countermeasures Using Big Data based Conversion Voice Phishing)

  • 김정훈;고준영;이근호
    • 한국융합학회논문지
    • /
    • 제6권1호
    • /
    • pp.85-91
    • /
    • 2015
  • 최근 전자금융사기가 급증하여 정부에서 스미싱, 파밍, 피싱, 메모리 해킹에 대한 예방법, 대처 요령을 배포하고 전자금융거래법을 강화하였다. 이에 따라 전자금융사기 방법 또한 진화하고 대처하기 어렵게 변하고 있다. 과거의 무작위 대상로 보이스피싱이 아닌 공격 대상의 개인 정보를 알아내서, 공격대상의 개인정보를 빅데이터로 만들어 치밀하게 분석한다. 분석한 정보를 토대로 보이스피싱을 하는 신종 전자금융사기로 진화하였다. 빅데이터화된 개인정보를 융합한 보이스피싱의 공격 방법을 분석하고 앞으로 점점 더 진화하고 있는 전자금융사기의 대응방안을 제안한다. 메모리에 의미 없는 데이터를 저장하는 방법으로 공격자는 빅데이터 기반으로 개인정보를 획득한다해도 정확한 정보를 도출 시킬 수 없으며 보이스피싱 또한 제대로 할 수 없게 된다. 본 논문에서 새로운 사회공학적 공격을 알아보고 그에 따른 대응방안을 제안한다.

발성장애: 후두내시경 검사에서 놓치기 쉬운 성대점막질환 (Dysphonia : Vocal Fold Mucosal Lesions Easily Missed in Laryngoscopy)

  • 김한수
    • 대한후두음성언어의학회지
    • /
    • 제21권1호
    • /
    • pp.17-21
    • /
    • 2010
  • Dysphonia is a medical terminology for voice disorders characterized by hoarseness, harshness, weakness, or even loss of voice ; any impairment in ability to produce voice sounds using the vocal organs, larynx, The causes of dysphonia can be classified into two groups, organic and functional. Functional dysphonia includes spasmodic dysphonia, muscle tension dysphonia, mutational dysphonia and conversion dysphonia, etc, The findings of laryngoscopy in these dysphonia are almost normal. Therefore, physicians should diagnosis these diseases from careful history taking and abundant understandings about the phonation pattern, Organic dysphonia is caused by anatomical problems in the larynx, especially on the vocal fold, Some lesions, however, are not easily found because these lesions are too small, or located on the lower lip of vibrating vocal fold. Laryngopharyngeal reflux induced laryngitis, vascular lesions, sulcus vocalis, vocal atropy including presbylaryngis, and mucosal tears are common lesions easily missed in laryngoscopy, Therefore, a high index of suspicion is necessary to avoid missing vocal fold mucosal lesions, and the strobovideolaryngoscopy is indispensable in making the diagnosis,

  • PDF