• Title/Summary/Keyword: 음성 품질 향상

Search Result 98, Processing Time 0.04 seconds

CycleGAN for Enhancement of Degraded Speech by Face Mask (마스크 착용에 의해 왜곡된 음성의 품질 향상을 위한 CycleGAN 기술)

  • Lim, Yujin;Yu, Jeongchan;Seo, Eunmi;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.63-64
    • /
    • 2022
  • 마스크 착용은 대화나 통화 등의 의사소통에 불편함을 초래하고 음성의 품질과 명료도를 떨어트린다. 이를 해결하기 위해 음성 향상 기술이 필요하며, 머신러닝 기반의 다양한 음성 향상 방법이 개발되었다. 지도 학습을 위해 마스크 착용 유무에 따라 일대일로 대응된 음성 데이터를 확보하는 것은 매우 어렵고, 따라서 일대일로 대응된 데이터가 필수적이지 않은 비지도 학습이 요구된다. 본 논문에서는 비지도 학습방식을 사용하면서 콘텍스트를 유지하며 특징을 변경할 수 있는 CycleGAN을 이용하여 마스크 착용에 의한 음성 왜곡을 복원 시키는 기술을 제안한다. 스펙트로그램 기반으로 마스크 착용에 의해 왜곡된 음성을 마스크 미착용 음성으로 변환하여 음성의 품질을 향상시켰다. 청취평가를 진행한 결과 품질이 향상된 음원의 선호도가 더 높음을 확인하였으며 스펙트로그램을 통해 3 kHz 이상의 고대역 에너지가 증가하는 것을 확인하였다. 이를 통해 CycleGAN을 이용한 비지도 학습으로 마스크 착용에 의해 왜곡된 음성의 품질을 향상시킬 수 있음을 확인하였다.

  • PDF

Service Mechanism for Enhanced Voice Traffic (음성 트래픽 향상을 위한 서비스 메커니즘)

  • 김성태;강현국
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.757-759
    • /
    • 2001
  • 인터넷의 확산 및 고속화로 인하여 사용자들이 급격하게 증가하고 있으며, 이에 따라 인터넷을 이용한 다양한 멀티미디어 서비스들이 전개되고 있다. 또한, 기존 PSTN 위주의 음성 통신이 인터넷을 이용한 음성통신으로 급속히 바뀌고 있으며, 이를 효율적으로 연동하고 제어하기 위한 다양한 표준들이 나타나고 있다. 본 논문에서는 급속하게 발전되고 있는 인터넷 텔레포니 기술 중 세션제어를 위한 기녈 프로토콜 표준인 SIP를 살펴보고, 서비스 품질 향상을 위한 RSVP를 이용하여 보다 향상된 음성통신을 위한 기존의 시그널링 메커니즘을 살펴보고, 음성 트래픽 서비스 품질 향상을 위한 가장 효율적인 새로운 메커니즘을 제시 하고자 한다.

  • PDF

A Dynamic Error Correction Technique in Audio Correction Technique in Audio Conference Systems (음성회의 시스템에서의 동적인 에러복구 기법)

  • 윤성덕;안종석
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.196-201
    • /
    • 1998
  • 최근 Mbone을 통한 다양한 회의 시스템들이 등장하고 있다. 이들 회의 시스템은 주로 영상회의 시스템과 음성회의 시스템으로 이루어져 있으며, 사람들은 영상보다 음성에 더 민감하기 때문에 음성품질이 영상품질보다 더 중요하다. 현재 인터넷은 QoS(Quality Of Service)를 제공하지 않기 때문에, 인터넷을 사용하는 음성 회의 시스템들도 근본적으로 품질을 보장할 수 없다. 따라서 음성품질을 향상시키기 위한 다양한 방법들이 연구되었고, 대표적인 기법으로 중복정보(redundant information) 복구기법이 있다. 본 논문에서는 기존의 중복정보 복구기법을 개선한 동적 중복정보 복구기법을 제안한다. 이 기법은 네트워크의 상태에 따라 중복정보의 양을 조절하기 때문에 중복정보의 효율을 향상시킬 수 있다. 실제 인터넷을 통한 실험에서 평균 9%의 성능향상이 있었다.

  • PDF

인터넷 전화에서 통화품질 향상을 위한 묵음 처리 기법

  • 황인환;최대석;이정태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.222-224
    • /
    • 2000
  • 본 연구에서는 인터넷전화에서 전체 음성 트래픽의 56% 이상을 차지하는 묵음을 제거해줌으로써 네트워크 트래픽을 줄여 통화품질을 향상시키기 위한 방안을 제안하고 그 성능을 분석하였다. 묵음을 검출하기 위해서 평균 에너지 값을 이용하는 방법을 사용하였으며, 묵음을 제거함으로써 발생하는 음성과 묵음간의 부자연스러움에 대한 해결 방안 및 음성이면서 묵음구간에 포함되어 제거되는 프레임에 대한 보상기법을 제안하였다.

  • PDF

Robust speech quality enhancement method against background noise and packet loss at voice-over-IP receiver (배경잡음 및 패킷손실에 강인한 voice-over-IP 수신단 기반 음질향상 기법)

  • Kim, Gee Yeun;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.37 no.6
    • /
    • pp.512-517
    • /
    • 2018
  • Improving voice quality is a major concern in telecommunications. In this paper, we propose a robust speech quality enhancement against background noise and packet loss at VoIP (Voice-over-IP) receiver. The proposed method combines network jitter estimation based on hybrid Markov chain, adaptive playout scheduling using the estimated jitter, and speech enhancement based on restoration of amplitude and phase to enhance the quality of the speech signal arriving at the VoIP receiver over IP network. The experimental results show that the proposed method removes the background noise added to the speech signal before encoding at the sender side and provides the enhanced speech quality in an unstable network environment.

A study on speech enhancement using complex-valued spectrum employing Feature map Dependent attention gate (특징 맵 중요도 기반 어텐션을 적용한 복소 스펙트럼 기반 음성 향상에 관한 연구)

  • Jaehee Jung;Wooil Kim
    • The Journal of the Acoustical Society of Korea
    • /
    • v.42 no.6
    • /
    • pp.544-551
    • /
    • 2023
  • Speech enhancement used to improve the perceptual quality and intelligibility of noise speech has been studied as a method using a complex-valued spectrum that can improve both magnitude and phase in a method using a magnitude spectrum. In this paper, a study was conducted on how to apply attention mechanism to complex-valued spectrum-based speech enhancement systems to further improve the intelligibility and quality of noise speech. The attention is performed based on additive attention and allows the attention weight to be calculated in consideration of the complex-valued spectrum. In addition, the global average pooling was used to consider the importance of the feature map. Complex-valued spectrum-based speech enhancement was performed based on the Deep Complex U-Net (DCUNET) model, and additive attention was conducted based on the proposed method in the Attention U-Net model. The results of the experiments on noise speech in a living room environment showed that the proposed method is improved performance over the baseline model according to evaluation metrics such as Source to Distortion Ratio (SDR), Perceptual Evaluation of Speech Quality (PESQ), and Short Time Object Intelligence (STOI), and consistently improved performance across various background noise environments and low Signal-to-Noise Ratio (SNR) conditions. Through this, the proposed speech enhancement system demonstrated its effectiveness in improving the intelligibility and quality of noisy speech.

Korean Sentence Symbol Preprocess System for the Improvement of Speech Synthesis Quality (음성 합성 시스템의 품질 향상을 위한 한국어 문장 기호 전처리 시스템)

  • Lee, Ho-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.2
    • /
    • pp.149-156
    • /
    • 2015
  • In this paper, we propose a Korean sentence symbol preprocessor for a SSML (speech synthesis markup language) supported speech synthesis system in order to improve the quality of the synthesized result. After the analysis of Korean Wikipedia documents, we propose 8 categories for the meaning of sentence symbols and 11 regular expression for the classification of each category. After the development of a Korean sentence symbol preprocess system we archived 56% of precision and 71.45% of recall ratio for 63,000 sentences.

Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition (문법성 품질 예측에 기반한 음성 인식 오류 교정)

  • Mintaek Seo;Seung-Hoon Na;Minsoo Na;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF

The Study of Performance Improvement of Dejitter Algorithm applying Time Series Model for VoicePlatform Security Data (음성 플랫폼 보안 데이터 성능 개선을 위해 시계열 모델을 적용한 디지터 알고리즘의 성능 향상 연구)

  • Min, Sun-Ho;Seo, Chang-Ho
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.23 no.5
    • /
    • pp.963-968
    • /
    • 2013
  • In this paper, a major factor in determining voice quality that corresponds to the jitter and dejitter algorithm for removing jitter will be described. We analyze legacy dejitter algorithm and propose the study applying Time Series Model to improve performance of the dejitter algorithm.

음성통신을 위한 잡음처리 기술

  • Sin, Jong-Won;Jang, Jun-Hyeok;Kim, Nam-Su
    • Information and Communications Magazine
    • /
    • v.24 no.4
    • /
    • pp.27-35
    • /
    • 2007
  • 음성 통신을 할 때 배경 잡음이 존재하게 되면 일반적으로 음질이 저하된다. 이것은 잡음 자체가 듣기 싫다거나 음성을 더 작게 들리게 만들기 때문이기도 하고 음성 코덱이 잡음이 섞이지 않은 깨끗한 음성에 최적화되어 있어서 잡음이 섞인 음성에 대한 코딩 효율이 떨어지기 때문이기도 하다. 이 논문에서는 잡음에 의한 음성 통신의 품질 저하를 막기 위한 방법으로서 음성 향상(speech enhancement) 기술과 음성 강화(speech reinforcement) 기술에 대해 소개한다. 음성 향상 기술이란 전송부의 마이크에서 녹음된 잡음과 음성이 섞인 입력 음성으로부터 깨끗한 음성을 추정하는 기술을 말한다. 음성 향상 기술은 상당히 오랜 기간 동안 연구되어 온 기술이며, 최근에는 각 파라미터의 분포에 의존하는 방법보다 확률 모델에 기반한 방법이 각광을 받고 있으며 인간의 청각 특성을 고려한 음성 향상 방법도 제안되고 있다. 음성 강화 기술이란 수신단에서 주변 잡음에 따라 전송되어 온 음성을 주파수별로 증폭하여 더 잘 들리도록 만드는 기술이다. 음성 향상이 내 주위의 잡음이 상대방에게 들리는 음성에 미치는 영향 혹은 상대방 주변의 잡음이 나에게 들리는 소리에 미치는 영향을 줄여주는 기술이라면 음성 강화는 내 주위의 잡음이 나에게 들리는 음성에 미치는 영향을 상쇄해 주는 기술이다. 이 경우 주변 잡음은 어떤 전자 시스템도 거치지 않고 귀로 직접 들어오기 때문에 잡음 자체를 줄여 주는 것은 힘들고 전송되어 온 음성을 적절히 증폭 혹은 변형함으로써 귀에 들리는 음질 또는 명료성을 개선하게 된다. 이 논문에서는 통계 모델을 기반으로 한 음성 향상 기법과 인간의 청각 특성을 고려한 음성 향상 기법, 그리고 음성 강화 기법에 대해 설명한다.을 시도한 결과 안정적이고 반복 가능한 급성 심부전 모델을 얻을 수 있었다. bench scale실험결과와 같이 AOC는 배수관망에서의 박테리아 증식과 크게 상관관계를 갖고 있는 것으로 밝혀졌다.)', 'have a headache (2.10±0.79)', 'poor memory (2.09±0.83)', 'no appetite (1.99±0.85)', As for the correlation between iron parameter and clinical symptoms related to anemia, the hematocrit rate was negatively correlated with 'get a cold easily', 'pale face', 'feeling blue', 'difficult digestion' (p<0.05). The level of iron was negatively correlated with 'tired out easily', 'get a cold easily' (p<0.05) and TS (%) were negatively correlated with 'tired out easily (p<0.05)', 'get a cold easily (p<0.01). Our study resulted that the prevalence of a iron deficiency of a middle school girl is very high, therefore the guidelines for iron supplementation and nutritional education to improve their iron status should be provided.한 질소제거를 N-balance로부터