• Title/Summary/Keyword: speech enhancement

Search Result 340, Processing Time 0.041 seconds

Speech Enhancement based on human auditory system characteristics (청각 시스템의 특징을 이용한 음성 명료도 향상)

  • Lee, Sang-Hoon;Jeong, Hong
    • Proceedings of the IEEK Conference
    • /
    • 2007.07a
    • /
    • pp.411-412
    • /
    • 2007
  • 본 논문에서는 인간 청각 시스템의 특징을 이용한 음성명료도 향상 알고리즘을 제안한다. 기존의 연구들은 음성과 잡음이 같이 섞여 있는 Single-Channel에서의 명료도 향상의 대해 주로 다루었다. 하지만 잡음에 섞이기 전의 깨끗한 음성과 주변 잡음이 분리된 Dual-Channel에서의 명료도 향상에 관한 연구는 거의 다루어지지 않았다. 본 논문에서 음성을 잡음이 섞이기 전에 미리 강화시켜 나중에 잡음에 섞였을 때 명료도가 강화되도록 하는 방법을 제안한다. 인간 청각 시스템의 마스킹 효과를 적절히 이용하여 음성을 강화시키는 방법을 사용하였다. 실험 결과 이 방법은 단순히 볼륨만을 높이는 방법에 비해 명료도가 더 향상되는 것으로 나타났다.

  • PDF

Speech Enhancement using Adaptive Matched Filter Microphone Array (적응 정합 필터 마이크로폰 어레이를 이용한 음질 향상)

  • Lee Oe-Hyung;Choi Young-Keun;Kim Ki-Man;Park Kyu-Sik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.205-208
    • /
    • 2002
  • 최근 영상 회의 시스템에서 화자 위치 추정 및 음질 향상 기술이 연구되고 있다. 이 시스템에서는 마이크로폰 어레이를 이용하여, 화자의 위치를 파악하여 화자의 방향으로 카메라를 자동으로 조정해 주고 그 방향으로부터 입사되는 신호만을 수신할 수 있도록 한다. 이를 위해 마이크로폰 어레이가 연구되어져 왔다. 덜 연구에서는 시간에 따라 변화하는 음향 환경에 적응하는 적응 정합 필터 마이크로폰 어레이를 제안하고, 실험을 통해 그 성능을 고찰하였다.

  • PDF

Speech Enhancement by Reconstruction of Cosine Table for LSE Roots According to the Voiced/Unvoiced Decision (유무성음 판정에 따른 LSF 코사인테이블 재구성에 의한 음질향상)

  • Choi SeongYoung;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.3-6
    • /
    • 2000
  • CELP 계열 보코더중 인터넷 폰 및 화상회의를 목적으로 개발된 G.723.1 보코더에서는 LPC를 LSP로 변환하기 위해 LPC 계수를 이용한 다항식을 구성한 다음 근을 검색하는 방법을 사용하고 있다. 근 검색시에는 256/pi의 범위 안에서 동일한 간격을 갖는 코사인 테이블을 구성하여 순차적으로 검색하게 된다. LSF의 근들은 포만트가 존재하는 대역에서 근들이 나타나게 되므로 유성음의 경우 저주파수 대역에서 무성음의 경우 고주파수 대역에서 많이 분포하게 된다. 하지만 G.723.1에서 사용하는 코사인 테이블은 음성신호의 특성을 고려하지 않고 균등한 간격을 갖는 값들을 사용함으로 음질을 저해할 수 있는 요소를 갖고 있다. 따라서 본 논문에서는 음성의 특성을 고려한 코사인 테이블을 재구성함으로써 음질을 향상시킬 수 있었으며 주관적 음질평가인 MOS 시험결과 평균 1.8 정도의 음질향상을 가져올 수 있었다

  • PDF

Speech Enhancement for DMB Voice commander in Car environment (차량환경에서 DMB용 음성명령어기 사용을 위한 음성개선방법)

  • Beack Seung Kwon;Hahn Minsoo;Nam Seung Hyon;Kang Kyung Ook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.233-236
    • /
    • 2003
  • 본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다. 특히 DMB 사용환경에서 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단인 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman Filter를 이용하여 시간상 단구간 정적 잡음을 제거한다. 본 논문의 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다

  • PDF

Enhancement of Source Localization Performance using Clustering Ranging Method (클러스터링 기법을 이용한 음원의 위치추정 성능향상)

  • Lee, Ho Jin;Yoon, Kyung Sik;Lee, Kyun Kyung
    • Journal of the Korea Institute of Military Science and Technology
    • /
    • v.19 no.1
    • /
    • pp.9-15
    • /
    • 2016
  • Source localization has developed in various fields of signal processing including radar, sonar, and wireless communication, etc. Source localization can be found by estimating the time difference of arrival between the each of sensors. Several methods like the NLS(Nonlinear Least Square) cost function have been proposed in order to improve the performance of time delay estimation. In this paper, we propose a clustering method using the four sensors with the same aperture as previous methods of using the three sensors. Clustering method can be improved the source localization performance by grouping similar estimated values. The performance of source localization using clustering method is evaluated by Monte Carlo simulation.

Speech Enhancement System by Discrete Fourier Transform Using Back-propagation Algorithm (오차역전파알고리즘을 사용한 이산푸리에변환에 의한 음성강조 시스템)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.254-257
    • /
    • 2010
  • 본 논문에서는 신경회로망을 사용하여 이산푸리에변환에 의한 진폭성분과 위상성분을 복원하는 음성강조 시스템을 제안한다. 본 시스템은 신경회로망이 잡음이 부가된 음성신호의 이산푸리에변환의 진폭성분과 위상성분을 사용하여 학습된 후, 제안한 시스템은 배경잡음에 의하여 열화된 잡음이 부가된 음성신호를 강조한다. 배경잡음에 의하여 열화된 음성신호는 신경회로망을 사용하여 제안된 시스템에 의하여 강조되는 것을 실험결과로 증명하며, 제안한 시스템이 스펙트럼 왜곡율의 평가법을 사용하여 배경잡음에 의하여 열화된 음성신호에 대하여 효과적인 것을 실험으로 확인한다.

  • PDF

Abnormal Detection of Railway Point-Machine Under Noise Conditions (잡음 환경에서 선로 전환기 이상 상황 탐지)

  • Choi, Yongju;Lee, Jonguk;Park, Daihee;Chung, Yongwha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.394-397
    • /
    • 2019
  • 센서 및 정보 통신 기술의 발전은 산업 현장에서 취득한 정보를 기반으로 다양한 연구를 수행할 수 있는 토대가 되었다. 본 연구에서는 철도의 진로 방향을 전환하는 선로 전환기 주변에 설치한 소리 센서에서 수집한 소리를 기반으로 선로 전환기의 이상 상황을 탐지하고자 한다. 이와 같은 소리 데이터 기반의 이상 상황 탐지 시스템을 실제 산업 현장에서 성공적으로 운용되기 위해서는 소리 취득 시 발생하는 다양한 잡음 환경에서도 이상 상황을 식별할 수 있는 강인함이 보장되어야 한다. 본 논문에서는 소리 음질을 향상시키기 위하여 SEGAN(Speech Enhancement Generative Adversarial Network)을 활용하며, CNN(Convolutional Neural Network)을 기반으로 선로 전환기의 이상 상황을 식별하는 시스템을 제안한다. 수집된 소리 데이터를 기반으로 제안한 시스템을 실험적으로 검증한 바 잡음에 강인한 성능을 확인하였다.

Artificial Intelligence Applications on Mobile Telecommunication Systems (AI의 이동통신시스템 적용)

  • Yeh, C.I.;Chang, K.S.;Ko, Y.J.
    • Electronics and Telecommunications Trends
    • /
    • v.37 no.4
    • /
    • pp.60-69
    • /
    • 2022
  • So far, artificial intelligence (AI)/machine learning (ML) has produced impressive results in speech recognition, computer vision, and natural language processing. AI/ML has recently begun to show promise as a viable means for improving the performance of 5G mobile telecommunication systems. This paper investigates standardization activities in 3GPP and O-RAN Alliance regarding AI/ML applications on mobile telecommunication system. Future trends in AI/ML technologies are also summarized. As an overarching technology in 6G, there appears to be no doubt that AI/ML could contribute to every part of mobile systems, including core, RAN, and air-interface, in terms of performance enhancement, automation, cost reduction, and energy consumption reduction.

Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired (청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화)

  • Choi, Mi-Ae;Kim, Seung-Hyun;Jo, Min-Ae;Park, Dong-young;Kim, Yong-Ho;Yoon, Jong-hoo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

CycleGAN for Enhancement of Degraded Speech by Face Mask (마스크 착용에 의해 왜곡된 음성의 품질 향상을 위한 CycleGAN 기술)

  • Lim, Yujin;Yu, Jeongchan;Seo, Eunmi;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.63-64
    • /
    • 2022
  • 마스크 착용은 대화나 통화 등의 의사소통에 불편함을 초래하고 음성의 품질과 명료도를 떨어트린다. 이를 해결하기 위해 음성 향상 기술이 필요하며, 머신러닝 기반의 다양한 음성 향상 방법이 개발되었다. 지도 학습을 위해 마스크 착용 유무에 따라 일대일로 대응된 음성 데이터를 확보하는 것은 매우 어렵고, 따라서 일대일로 대응된 데이터가 필수적이지 않은 비지도 학습이 요구된다. 본 논문에서는 비지도 학습방식을 사용하면서 콘텍스트를 유지하며 특징을 변경할 수 있는 CycleGAN을 이용하여 마스크 착용에 의한 음성 왜곡을 복원 시키는 기술을 제안한다. 스펙트로그램 기반으로 마스크 착용에 의해 왜곡된 음성을 마스크 미착용 음성으로 변환하여 음성의 품질을 향상시켰다. 청취평가를 진행한 결과 품질이 향상된 음원의 선호도가 더 높음을 확인하였으며 스펙트로그램을 통해 3 kHz 이상의 고대역 에너지가 증가하는 것을 확인하였다. 이를 통해 CycleGAN을 이용한 비지도 학습으로 마스크 착용에 의해 왜곡된 음성의 품질을 향상시킬 수 있음을 확인하였다.

  • PDF