• 제목/요약/키워드: Speech Signals

검색결과 499건 처리시간 0.026초

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.

DWT 기반 딥러닝 잡음소거기에서 웨이블릿 최적화 (Optimizing Wavelet in Noise Canceler by Deep Learning Based on DWT)

  • 정원석;이행우
    • 한국전자통신학회논문지
    • /
    • 제19권1호
    • /
    • pp.113-118
    • /
    • 2024
  • 본 논문에서는 음향신호의 배경잡음을 소거하기 위한 시스템에서 최적의 wavelet을 제안한다. 이 시스템은 기존의 단구간 푸리에변환(STFT: Short Time Fourier Transform) 대신 이산 웨이블릿변환(DWT: Discrete Wavelet Transform)을 수행한 후 심층학습과정을 통하여 잡음소거 성능을 개선하였다. DWT는 다해상도 대역통과필터 기능을 하며 각 레벨에서 모 웨이블릿을 시간 이동시키고 크기를 스케일링한 여러 웨이블릿을 이용하여 변환 파라미터를 구한다. 여기서 음성을 분석하는데 가장 적합한 모(mother) 웨이블릿을 선정하기 위해 여러 웨이블릿에 대한 잡음소거 성능을 실험하였다. 본 연구에서 여러 웨이블릿에 대한 잡음소거시스템의 성능을 검증하기 위하여 Tensorflow와 Keras 라이브러리를 사용한 시뮬레이션 프로그램을 작성하고 가장 많이 사용되는 4개의 wavelet에 대해 모의실험을 수행하였다. 실험 결과, Haar 또는 Daubechies 웨이블릿을 사용하는 경우가 가장 우수한 잡음소거 성능을 나타냈으며 타 웨이블릿을 사용하는 경우보다 평균자승오차(MSE: Mean Square Error)가 크게 개선되는 것을 볼 수 있었다.

WSOLA를 이용한 동영상 미세배속 재생 서비스에 대한 콘텐츠별 배속 선호도 분석 연구 (A Study about the Users's Preferred Playing Speeds on Categorized Video Content using WSOLA method)

  • 김이길
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.291-298
    • /
    • 2015
  • 빠르게 발전하는 IT환경 속에서 이제 동영상 콘텐츠는 TV를 통한 일방 시청이 아니라 언제 어디서든 다양한 단말에서 볼 수 있는 VOD (Video on Demand) 형태로 발전하고 있다. 이러한 동영상 시청형태의 변화는 디지털이란 특성 때문에 동영상의 재생 속도 또한 다양하게 조절할 수 있다는 부가적인 장점을 사용자에게 제공 한다. 지루하고 따분한 동영상 콘텐츠는 빠르게 돌려보고 흥미 있는 장면은 느리게 천천히 볼 수 있는 동영상 미세배속 재생 기능은 오늘날 다양한 동영상 플레이어에서 제공되고 있다. 동영상 미세배속 재생 시 동영상 콘텐츠 내용의 정확한 이해를 위해서는 시각정보 못지않게 음성정보 청취가 중요한데 정상속도 보다 빠르거나 느린 재생 시 발생하는 음성의 왜곡을 줄이기 위한 음성미세배속 기술들이 음성처리 분야에서 꾸준히 발전되어 왔다. 본 논문에서는 이중 WSOLA와 같은 우수한 음성미세배속 알고리즘에 대해 알아보고 동영상 시청 시 이러한 기능 제공이 실제 얼마나 사용자 니즈(needs)에 부합하는 지 분석해보고자 한다. 특히, 동영상 콘텐츠를 사용자의 콘텐츠 소비 목적에 따라 종류별로 구분하여 재생 배속의 선호도를 조사하고 그 결과를 분석해 봄으로써 동영상 미세배속 기능 제공시 콘텐츠별 소비 목적에 맞게 재생 배속을 제공하는 것이 필요하다는 것을 제안하고자 한다.

한국어 자음생성의 생리음성학적 특성 (Physiologic Phonetics for Korean Stop Production)

  • 홍기환;양윤수
    • 대한후두음성언어의학회지
    • /
    • 제17권2호
    • /
    • pp.89-97
    • /
    • 2006
  • The stop consonants in Korean are classified into three types according to the manner of articulation as unaspirated (UA), slightly aspirated (SA) and heavily aspirated (HA) stops. Both the UA and the HA types are always voiceless in any environment. Generally, the voice onset time (VOT) could be measured spectrographically from release of consonant burst to onset of following vowel. The VOT of the UA type is within 20 msec of the burst, and about 40-50 msec in the SA and 50-70 msec in the HA. There have been many efforts to clarify properties that differentiate these manner categories. Umeda, et $al^{1)}$ studied that the fundamental frequency at voice onset after both the UA and HA consonants was higher than that for the SA consonants, and the voice onset times were longest in the HA followed by the SA and UA. Han, et $al^{2)}$ reported in their speech synthesis and perception studies that the SA and UA stops differed primarily in terms of a gradual versus a relatively rapid intensity build-up of the following vowel after the stop release. Lee, et $al^{3)}$ measured both the intraoral and subglottal air pressure that the subglottal pressure was higher for the HA stop than for the other two stops. They also compared the dynamic pattern of the subglottal pressure slope for the three categories and found that the HA stop showed the most rapid increase in subglottal pressure in the time period immediately before the stop release. $Kagaya^{4)}$ reported fiberscopic and acoustic studies of the Korean stops. He mentioned that the UA type may be characterized by a completely adducted state of the vocal folds, stiffened vocal folds and the abrupt decreasing of the stiffness near the voice onset, while the HA type may be characterized by an extensively abducted state of the vocal folds and a heightened subglottal pressure. On the other hand, none of these positive gestures are observed for the SA type. Hong, et $al^{5)}$ studied electromyographic activity of the thyroarytenoid and posterior cricoarytenoid (PCA) muscles during stop production. He reported a marked and early activation of the PCA muscle associated with a steep reactivation of the thyroarytenoid muscle before voice onset in the production of the HA consonants. For the production of the UA consonants, little or no activation of the PCA muscle and earliest and most marked reactivation of the thyroarytenoid muscle were characteristic. For the SA consonants, he reported a more moderate activation of the PCA muscle than for the UA consonant, and the least and the latest reactivation of the thyroarytenoid muscle. Hong, et $al^{6)}$ studied the observation of the vibratory movements of vocal fold edges in terms of laryngeal gestures according to the different types of stop consonants. The movements of vocal fold edges were evaluated using high speed digital images. EGG signals and acoustic waveforms were also evaluated and related to the vibratory movements of vocal fold edges during stop production.

  • PDF

조작 방식에 따른 음성과 소리 피드백의 할당 방법 가전제품과의 상호작용을 중심으로 (An Arrangement Method of Voice and Sound Feedback According to the Operation : For Interaction of Domestic Appliance)

  • 홍은지;황해정;강연아
    • 한국HCI학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-22
    • /
    • 2016
  • 가전제품과 사용자와의 상호작용 방식이 다양해지고 있다. 사용자는 리모컨, 터치스크린 등으로 기기를 제어할 수 있고, 기기 역시 사운드, 음성, 시각적 신호 등 다양한 방식으로 사용자에게 피드백을 줄 수 있게 되었다. 그러나 사용자의 조작 방식에 따른 피드백 방식을 배정하는 원칙이나 기준이 없어 각 브랜드, 기기 별로 임의로 배정되어 있는 상황이다. 본 연구에서는 사용자가 가전제품을 음성 명령을 통해 조작할 때와 버튼으로 조작할 때 가전제품에서 주어지는 피드백의 방식으로 음성, 소리 중 어떤 방식이 적절한지 실험을 통해 알아보았다. 본 연구에서는 조작 방식(음성 인식, 버튼), 피드백 방식(음성 안내, 소리)의 조합으로 구성 된 총 4가지($2{\times}2$) 셀을 갖는 요인 설계 실험을 진행하였고, 조작 방식과 피드백 방식의 조합에 따라 피 실험자가 느끼는 사용성, 만족도, 선호도, 적합도가 달라지는지 살펴보았다. 그 결과 가전제품을 음성 인식으로 조작 하는 것이 사용 용이성, 조작 만족도가 높았다. 하지만 버튼으로 조작 했을 때는 피드백 방식의 종류에 따라 사용 용이성, 조작 만족도가 달라지는 것으로 나타나, 조작 방식과 피드백 방식의 상호작용 효과가 검정되었다. 조작 방식, 피드백 방식의 조합이 가전에 적절한지에 대해서는 피드백 방식의 주효과가 검정되었다. 결론적으로 음성 인식으로 조작 할 때는 피드백이 소리(earcons)로 제시되는 것이 만족도가 높았으나 이는 통계적으로 검정 되는 정도는 아니었으며, 버튼을 조작 할 때는 피드백이 음성 안내로 제시되는 것이 만족도가 높았으며 이는 통계적으로 검정 되었다. 또한 가전에 어떠한 조작 방법이나 피드백 방법이 적절한지에 대해서는 피드백 방법이 주로 영향을 미치는 것으로 나타났다.

원격 진료를 위한 실시간 생체 신호 취득, 전송 및 압축, 저장 시스템의 설계 및 구현 (Design and Implementation of a Real-time Bio-signal Obtaining, Transmitting, Compressing and Storing System for Telemedicine)

  • 정인교;김영준;박인수;이인성
    • 전자공학회논문지SC
    • /
    • 제45권4호
    • /
    • pp.42-50
    • /
    • 2008
  • 본 논문에서는 원격 의료 서비스를 위한 생체 신호 취득 및 전송 시스템의 실시간 신뢰성을 보장하기 위하여 ZigBee와 SIP/RTP를 기반으로 하는 실시간 생체 신호 전송 시스템의 성능 개선 방법을 제안하고 구현하였다. 기존의 시스템은 ZigBee기반의 유비쿼터스 센서 네트워크를 기반으로 사용자의 ECG 및 기타 생체 신호를 수집한다. 이 때 연속된 ECG 전송에 의하여 채널이 과다하게 점유되어 ECG 이외의 생체 신호를 전송할 때 패킷의 손실이 발생한다. 또한 하나의 RTP 세션을 통해 사용자의 음성과 ECG 및 기타 생체 신호를 순차적으로 전송하기 때문에 과중한 전송 스레드 부하와 지연이 발생한다. 따라서 본 논문에서는 ECG 전송 모듈의 채널 점유 문제를 해결하기 위해 Bluetooth를 보조 전송 수단으로 사용하고 복수의 RTP 세션과 전송 스레드를 사용하여 전송지연을 감소시키는 방법을 사용하였다. 또한 이산 웨이블릿 리프팅과 다단계 벡터 양자화 기반의 압축 방법을 적용하여 전송 및 저장되는 ECG를 압축하여 관리하는 구조를 제안하고 구현하였다. ECG의 압축은 데이터의 전송량을 감소시켜 시스템의 실시간 신뢰성을 향상시키며 데이터베이스의 저장 공간을 효율적으로 사용할 수 있도록 한다. 결과적으로 기존의 시스템에 대하여 유비쿼터스 센서 네트워크의 안정성을 확보할 수 있었고 실시간 전송 모듈의 프로세스 점유율을 약 20% 감소시킬 수 있었으며 실제 측정한 ECG를 압축한 결과 25.6:1의 압축률에서 약 3.25%의 PRD를 가지는 효율적인 ECG 관리가 이루어질 수 있었다.

불일치된 최적 라플라스 양자기의 신호대잡음비 점근식의 유도 (Derivation of Asymptotic Formulas for the Signal-to-Noise Ratio of Mismatched Optimal Laplacian Quantizers)

  • 나상신
    • 한국통신학회논문지
    • /
    • 제33권5C호
    • /
    • pp.413-421
    • /
    • 2008
  • 이 논문은 최소 평균제곱오차 라플라스 양자기가 평균이나 표준편차가 불일치된 신호에 적용될 때 야기되는 평균제곱오차 왜곡과 신호대 양자화 잡음비의 점근식을 유도한다. 이들 식은 양자점의 개수 N, 평균값의 변이량 $\mu$, 양자기 설계 기준으로 사용된 표준편차에 대해 적용되는 신호의 표준편차 비율 $\rho$로써 왜곡과 신호대잡음비의 직접적인 관계를 명확히 표시하고 있다. 수치 결과에 의하면, 논문의 주 근사식은, 요율 R=$log_2N$이 6 이상인 경우에, 상당히 넓은 $\mu$$\rho$에 대해 신호대잡음비 참값의 1% 이내의 값을 예측하여 정확도가 아주 높은 것으로 판단된다. 이 논문을 통해 새로 발견된 점은 첫째 ${\rho}>3/2$인 분산 강불일치의 경우에 신호대잡음비는 $9/\rho$ dB/bit 비율로 증가한다는 것과 둘째 최적 균일양자기는, 비록 최적으로 설계되었지만, 분산 임계불일치보다 조금 더 불일치된 것임을 밝힌 점이다. 또 $\mu$에 의한 신호대잡음비 손실은 비교적 크지 않은 것이 관찰되었다. 여기에 유도된 공식들은, 단구간 분산이 변하는 라플라스 분포로 잘 모형되는 음성이나 음악 신호를 하나의 양자기로 양자화하는 경우에 쓰임새가 있을 것으로 사료된다.

디지털 보청기 알고리즘 평가를 위한 감음신경성 난청의 모델링 (Modeling of Sensorineural Hearing Loss for the Evaluation of Digital Hearing Aid Algorithms)

  • 김동욱;박영철
    • 대한의용생체공학회:의공학회지
    • /
    • 제19권1호
    • /
    • pp.59-68
    • /
    • 1998
  • 디지털 보청기는 기존의 아날로그 보청기에 비하여 많은 장점이 있다. 디지털 신호처리 프로세서의 발달과 더불어 최근에 다양한 디지털 보청 알고리즘과 완전한 디지털 보청기가 선보였다. 디지털 보청기의 알고리즘을 개발하거나 디지털 보청기를 새로이 평가하려는 사람들에게 난청자를 대상으로 하는 임상연구는 필수적으로 거쳐야 하는 과정이다. 그러나 이러한 임상연구는 실제 난청자를 대상으로 하여야 하기 때문에 난청자와 검사자 간에 통상적으로 많은 시간과 노력이 필요하며 원활한 의사 소통이 때로는 어려울 수 있다. 왜냐하면 난청자들의 연령이 너무 어리거나 많아서 의사소통에 지장을 주거나 검사자가 필요로 하는 시간에 비슷한 난청 유형을 가진 대상자를 모으기 어렵다. 본고에서는 임상연구를 보조하여 디지털 보청기 또는 알고리즘이 개발되기까지 수행되어야 할 많은 임상연구의 결과를 예측하고 평가할 수 있는 디지털 난청 시뮬레이션 방법을 제안하고, 실제 환자의 데이터를 사용한 시뮬레이션과 그에 대한 임상 실험을 통하여 시스템의 성능을 평가하였다. 실험 결과, 정상인으로부터 모델링된 환자 데이터와 매우 유사한 측정 결과를 얻어냄으로써, 제안된 시스템이 목적하고자 하는 바를 이룰 수 있음을 검증하였다. 또한 난청 시뮬레이터의 목적인 디지털 보청기 알고리즘을 개발하기 위한 평가 툴로서, 개발 초기에 다양한 디지털 보청기용 알고리즘을 구현하여 실제 난청 시뮬레이터와 연계하여 실험함으로써 보청기 알고리즘의 평가 및 새로운 보청기 알고리즘을 개발하고 평가하거나 향후 난청자를 대상으로 하는 임상연구에서 사용할 수 있는 유용성을 입증하였다.로 우유 교육 프로그램이 향후보다 체계적이고 확대되어 지속적으로 실시된다면, 우유에 대한 의미는 물론 인식 그리고 지식 정도에 있어 효과적인 결과를 유도할 수 있을 것이다.니하였다. 6) Dibutyryl cyclic AMP 및 8-bromo cyclic GMP 모두 혈소판응집률(血小板凝集率)을 감소시켰고, 후자(後者)는 전자(前者)에 비(比)하여 월등(越等)히 현저(顯著)하였다. sodium nitroprusside에 의한 항응집률(抗凝集率)은 methylene blue 전처치(前處置)에 의하여 길항(拮抗)되었으나, bovine hemoglobin전처치에 의하여는 영향(影響)을 받지 아니하였다. 이상(以上)의 성적(成績)을 종합(綜合)하면, 뇌졸중증(腦卒中症)때, 특히 뇌혈전증(腦血栓症)의 응급치료시(應急治療時) sodium nitroprusside의 응용(應用)이 가능(可能)하다고 사료(思料)되며, 이에 대(對)하여 임상적(臨床的) 치료(治療)가 기대되는 바이다.다시 상승(上昇)하는 경향(傾向)이었다. 중성지질(中性脂質) 중(中) climacteric rise 및 숙도(熟度)와 관련하여 변화(變化)한 것은 diglyceride 및 sterol ester의 2종(種)이었으며 glyceride가 중성지질(中性脂質) 전량(全量)의 변화(變化)와 동일(同一)한 경향(傾向)인데 반(反)하여 sterol ester은 climactric onset까지 증가(增加)하다가 기후(其後) 감소(減少)하였다. 인지질(燐脂質)도 저장기간(貯藏期間) 중(中) 처리구(處理區)에 관계(關係)없이 다같이 감소(減少)되었는데, 그 정도(程度)

  • PDF