• 제목/요약/키워드: voice conversion

검색결과 66건 처리시간 0.021초

초음파 도플러 신호를 이용한 음성 합성 (Speech synthesis using acoustic Doppler signal)

  • 이기승
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.134-142
    • /
    • 2016
  • 본 논문에서는 40 kHz 초음파 신호를 입 주변에 쏘고, 되돌아오는 초음파 신호를 이용해 음성신호를 합성하는 방법을 소개하고 성능을 평가하였다. 발성하고 있는 입주변에 초음파를 방사하게 되면, 입술, 턱, 뺨 등의 움직임으로 인한 변위로 도플러 현상이 발생하고, 이에 따라 반사 신호에는 본래의 주파수 성분과는 다른 도플러 주파수가 관찰되는데, 본 논문에서는 이러한 도플러 주파수를 이용하여 음성 파라메터를 추정하도록 하였다. 음성합성에 앞서서 초음파 도플러 신호와 음성 신호 간의 상관관계를 각 주파수 별로 분석하였으며, 이로부터 초음파 도플러 신호를 이용한 음성 신호의 합성 가능성을 살펴보았다. 변환에는 초음파 도플러의 정적, 동적 특성을 함께 반영한 특징 변수를 사용하였으며 결합-혼합 가우시안 기법을 이용하여 음성 파라메터로 변환하였다. 5명의 피 실험자를 이용한 음성 합성 실험에서 필터뱅크 에너지 값을 초음파신호의 특징변수로, LPC(Linear Predictive Coefficient) 켑스트럼 계수를 음성 변수로 사용하는 경우 가장 우수한 변환 성능을 나타내었다. 음성신호에서 추출한 여기신호를 이용하여 합성음을 생성하고, 이를 청취하였을 때 72.2 %의 평균 인식율이 얻어짐을 확인할 수 있었다.

기타 기능성 발성장애 및 신경성 발성장애 (Other Functional and Neurological Dysphonia)

  • 이승원
    • 대한후두음성언어의학회지
    • /
    • 제25권2호
    • /
    • pp.82-85
    • /
    • 2014
  • Functional dysphonia is a specific voice disorder refers to dysphonia without abnormal anatomical vocal fold findings at larynx. The proportions of this disorder are estimated up to 40% of dysphonia patients at ENT clinics. In this article, we will discuss about other functional dysphonia and neurological dysphonia except for muslce tension dysphonia and spasmodic dysphonia. For details, will describe about phonatory charateristics and treatment options about paradoxical vocal fold motion disorder, mutational dysphonia, essential vocal tremor, conversion dysphonia, and vocal tremor related with parkinson's disease.

  • PDF

The Use of Blackboard by Students During the COVID-19 Pandemic

  • Alghamdi, Deena
    • International Journal of Computer Science & Network Security
    • /
    • 제22권3호
    • /
    • pp.319-325
    • /
    • 2022
  • By using the Blackboard (BB) system in the education sector, the educational process for both academics and students is facilitated. Two data resources were used to evaluate the use of the BB system by students of Umm Al-Qura University: statistical reports issued by the university and an online questionnaire. A total of 989 students from all colleges and different programmes provided by the university responded to the questionnaire survey. According to our findings, most students did not use the BB before the pandemic. Therefore, the sudden conversion to the BB system required intensive training courses. After the data analysis, the relationship between the use of the BB system before the pandemic and the problems students faced during the lockdown was revealed. The most critical issues raised by the respondents were: (1) "The voice of the lecturer went on and off during BB collaborate class", (2) "internet connection of the lecturer went on and off during BB collaborate class" and (3) "High possibility of IT problems during exams".

E-PON 기반 TDM 신호 전송 시스템 (Transmission System of TDM signal based on E-PON)

  • 권정국;진걸;박천관;송한영;전병천;이상호
    • 대한전자공학회논문지TC
    • /
    • 제44권12호
    • /
    • pp.63-72
    • /
    • 2007
  • 본 논문은 기존의 E-PON 시스템에 TDM 의사회선 기능을 부가함으로써 데이터와 TDM 신호를 동시에 전달할 수 있는 시스템 개발에 관한 것이다. E-PON 기술은 FTTH를 구현할 수 여러 기술 중 하나이며, 저가의 이더넷 기술과 광 인프라를 결합한 차세대 액세스 네트워크 솔루션으로 대두되고 있다. TDM 의사회선 서비스는 패킷교환 네트워크를 통하여 기존의 TDM 회선교환 음성 및 데이터 트래픽을 전송할 수 있도록 해주는 새로운 음성/데이터 변환기술이다. 본 논문에서는 E-PON 시스템에 TDM 의사회선 서비스 모듈을 부가하고, QoS 제어 기능을 구현함으로써 QoS 손실 없이 데이터 및 TDM 서비스를 효율적으로 제공할 수 있다. 따라서 데이터와 TDM 신호가 동시에 전달될 수 있는 경쟁력 있는 시스템에 구축될 수 있다.

스펙트로그램을 이용한 CNN 음성인식 모델 (Speech Recognition Model Based on CNN using Spectrogram)

  • 정원석;이행우
    • 한국전자통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2024
  • 본 논문에서는 명령어 음성신호의 인식 성능을 개선하기 위한 새로운 합성곱 신경망(CNN: Convolutional Neural Network) 모델을 제안한다. 이 방법은 입력신호의 단구간 푸리에 변환(STFT: Short-Time Fourier Transform) 후 스펙트로그램 이미지를 구하고 CNN 모델을 이용한 지도학습을 통하여 명령어 인식 성능을 개선하였다. 입력신호를 단시간 구간별로 푸리에 변환한 다음 스펙트로그램 이미지를 구하고 CNN 딥러닝 모델을 이용하여 다중 분류 학습을 수행한다. 이는 시간영역 음성신호를 특성이 잘 표현되도록 주파수영역으로 변환하고 변환 파라미터에 대한 스펙트로그램 이미지를 이용하여 딥러닝 훈련을 수행함으로써 명령어를 효과적으로 분류한다. 본 연구에서 제안한 음성인식시스템의 성능을 검증하기 위하여 Tensorflow와 Keras 라이브러리를 사용한 시뮬레이션 프로그램을 작성하고 모의실험을 수행하였다. 실험 결과, 제안한 심층학습 알고리즘을 이용하면 92.5%의 정확도를 얻을 수 있는 것으로 확인되었다.

한국어 특성 기반의 STT 엔진 정확도를 위한 정량적 평가방법 연구 (A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics)

  • 민소연;이광형;이동선;류동엽
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.699-707
    • /
    • 2020
  • 딥러닝 기술의 발전으로 STT(Speech To Text), TTS(Text To Speech), 챗봇(ChatBOT), 인공지능 비서 등 다양한 분야에 음성처리 관련 기술이 적용되고 있다. 특히, STT는 음성 기반 관련 서비스의 기반이며, 인간의 언어를 텍스트로 변환시키기 때문에 IT관련 서비스에 대한 다양한 응용을 할 수 있다. 따라서 최근 일반 사기업, 공공기관 등 여러 수요처에서 관련 기술에 대한 도입을 시도하고 있다. 하지만 정량적으로 수준을 평가할 수 있는 일반적인 IT 솔루션과는 달리 STT엔진에 대한 정확성을 평가하는 기준과 방법이 모호하며 한국어의 특성을 고려하지 않기 때문에 정량적인 평가 기준 적용이 어렵다. 따라서 본 연구에서는 한국어의 특성에 기반한 STT엔진 변환 성능 평가에 대한 가이드를 제공함으로써 엔진제작사는 한국어 특성에 기반한 STT변환을 수행 할 수 있으며, 수요처에서는 더 정확한 평가를 수행할 수 있다. 실험 데이터에서 기존 방식에 비해 35% 더 정확한 평가를 수행할 수 있다.

NGN 기반환경 에서의 VoIP QoS 관리체계 모델 설계 (A Study on Designing Method of VoIP QoS Management Framework Model under NGN Infrastructure Environment)

  • 노시춘;방기천
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권1호
    • /
    • pp.85-94
    • /
    • 2011
  • QoS(Quality of Service)는 ITU-T Rec. E.800에 의해 서비스를 사용하는 형태, 특성 그리고 요구 수준에 따라 사용자의 요구에 부응하여 제공할 수 있는 네트워크 서비스의 성능지표로 표현된다. VoIP(Voice Over Internet Protocol) 서비스가 광범위하게 사용되고 있지만 QoS관련 문제점은 해결해야 할 현안 과제로 인식되고 있다. 본 연구는 NGN(Next Generation Network) 기반 환경에서 VoIP QoS 보증을 위해 어떤 체계하에서 품질이 관리 되어야 하는지를 도출하기 위해 VoIP 품질측정과 시험체계 모델을 제시 한다. 프레임워크는 VoIP 기술동향, 프로토콜 분석, 품질관리 항목 도출, 품질측정 기능개발, 프레임워크 설계, 프레임워크 검증 순서로 연구를 진행 한다. 이를 위해 QoS 측정 메트릭스, 측정구간과 측정계위, 측정도구와 측정장비, 측정방법 및 측정결과분석에 대한 일련의 프로세스와 관리체계를 모델화 하여 향후 VoIP QoS 보증활동에 응용토록 한다. 통신서비스 품질은 스스로 보장되지 않으며 끊임없이 측정되고 관리될 때 에만 목표 수준의 품질 확보가 가능하다. 특히 네트워크기술 패러다임 대 전환이 전개되고 있는 이 시기적인 중요성을 볼 때 VoIP QoS 관리에 대한 연구는 앞으로 활발하게 추진되어야 할 핵심 소재 이다. 본 연구를 통해 VoIP 품질관리 프레임워크를 적용 할 경우 품질관리가 가능함을 보여주고 있다.

PRS 전송 방식을 위한 디지털 변환다중장치의 설계 (Design of Digital Transmultiplexing System for PRS Transmission)

  • 오용선;강창언
    • 한국통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.423-434
    • /
    • 1989
  • 본 논문에서는 디지털 변환다중장치의 각 채널의 PRS 전송 방식을 적용하였을 때 나타나는 문제점들을 도출하고, 이들을 해결학기 위하여 단위펄스로 TMRCP를 사용한 PRS 전송 시스쳄을 제안하였으며, 이를 FFT 다위상 여파기를 이용한 변환다중장치의 개념에 적용하여 설계하는 기법을 제시 하였다. 4KHz로 대역 제한된 음성채널에 대하여 약 2.5KHz(Guard-band 포함)의 대역폭을 요구하는 TMRCP-PRS 신호를 24채널의 체계에 적용하므로서 전송로 상에서 나타나는 PRS 방식의 잇점을 그대로 유지하며, 채널간의 간섭 문제를 해결하고, 속도 융통성을 향상시키므로 체계의 호나경에 따르는 시간 오류는 물론 손실 전력을 감소 시킬 수 있는 안정된 시스템을 구성한다. 전체 시스템은 일반적인 변환다중장치의 전후에 TMRCP를 이용한 PCM-PRS, PRS-PCM 변환기를 첨가한 형태로 이루어진다.

  • PDF

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF

혜택/비용, 그림자 노동에 대한 부정적 태도, 반응행동 간 구조적 관계 (Linking Benefit/Cost, Negative Attitudes toward Shadow Work, and Consumer's Response Behavior)

  • ;고준
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제30권2호
    • /
    • pp.79-103
    • /
    • 2021
  • Purpose Based on consumers' economic, psychological, self-development and conversion costs, this study discusses the relationship between consumers' negative attitude to their shadow work during the course of using self-service in unmanned supermarkets and their behavior. Design/methodology/approach Along with the Hirschman(1970)'s EVLN(Exit, Voice, Loyalty, and Neglect) reviewed, the proposed model of this study is based on the S-O-R model(Mehrabian and Russel, 1974) and mental accounting theory(Thaler, 1999), having empirical validation. Findings In the process of visits and consumption in unmanned supermarkets, increasing economic and psychological benefits can effectively reduce consumers' negative attitudes towards shadow work. In addition, the increase in switching costs will also effectively reduce consumers' negative attitudes towards shadow work. When shadow work holds a negative attitude, all the three kinds of actions will occur. Unmanned supermarket operators use consumers to create value while giving a certain return to them, which is conducive to the sustainable development of unmanned supermarket enterprises.