Search | Korea Science

Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments (잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합)

Yoon, Sung-Wook;Kwon, Oh-Wook
- The Journal of the Acoustical Society of Korea
- /
- v.40 no.5
- /
- pp.439-451
- /
- 2021
We propose a deep learning-based beamformer combined with spectral subtraction for continuous speech recognition operating in noisy environments. Conventional beamforming systems were mostly evaluated by using pre-segmented audio signals which were typically generated by mixing speech and noise continuously on a computer. However, since speech utterances are sparsely uttered along the time axis in real environments, conventional beamforming systems degrade in case when noise-only signals without speech are input. To alleviate this drawback, we combine online beamforming algorithm and spectral subtraction. We construct a Continuous Speech Enhancement (CSE) evaluation set to evaluate the online beamforming algorithm in noisy environments. The evaluation set is built by mixing sparsely-occurring speech utterances of the CHiME3 evaluation set and continuously-played CHiME3 background noise and background music of MUSDB. Using a Kaldi-based toolkit and Google web speech recognizer as a speech recognition back-end, we confirm that the proposed online beamforming algorithm with spectral subtraction shows better performance than the baseline online algorithm.
https://doi.org/10.7776/ASK.2021.40.5.439 인용 PDF KSCI

Implementation of Automatic Test System for Voice Recognition (음성인식 자동시험장치 개발)

김희경
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06e
- /
- pp.219-222
- /
- 1998
음성인식시험은 다양한 사용자의 음성을 입력으로 음성인식을 수행하고 그 결과를 이용하여 시스팀의 성능을 평가하거나, 음성의 특징을 파악하기 위한 중요한 기능으로 음성인식 서비스의 질을 향상시키기 위한 필수적인 요소이다. 본 논문에서 제시하는 음성인식 자동시험장치는 음성인식의 결과를 DTMF 신호로 처리하도록 하여 사람의 개입 없이 빠르고 정확한 결과를 통해 인식율, 인식속도 등 인식기술과 관련된 중요한 정보를 얻을 수 있도록 하였다. 본 논문에서는 한국통신의 기업체 음성다이얼서비스의 음성인식시험을 중심으로 음성인식 자동시험장치의 구성 및 기능에 대해서 설명한다.
PDF

Implementation of A REal-time Endpoint Detection Algorithm Using TMS320C30 (TMS320C30을 이용한 실시간 음성부 검출 알고리즘 구현)

이항섭
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1993.06a
- /
- pp.229-232
- /
- 1993
이 논문은 최근에 개발된 실시간 음성부 검출 알고리즘[1]을 TMS320C30 System board와 IBM PC486을 이용한 implementation에 관한 논문이다. 음성부 검출 알고리즘은 Energy와 LCR(Level Crossing Rate)를 이용하여 각 frame을 음성/묵음으로 분류하는 방법을 사용하였고 DSP 보드를 사용하여 한 frame이 입력되면 다음 frame이 입력되기 전에 그 frame에 대한 음성/묵음 분류를 하여 음성입력이 끝남과 동시에 음성이라고 판단되는 부분만을 DPS moemory상에 저장하므로 불필요한 memory의 낭비를 중이고 다음 단계의 음성처리를 위한 시간을 절약하였다. 이 알고리즘의 성능 평가를 위하여 Rabiner와 Sambur의 알고리즘과 한민수의 알고리즘과를 전문가가 수작업으로 찾아낸 결과와 비교 평가하였다. 알고리즘의 오차는 평균 남성 4.925ms, 여성 5.85ms로 1 frame 이내의 오차를 보였다.
PDF

Utterance display system for speech data acquisition (음성데이터 수집을 위한 발성내용 제시시스팀)

김경태;이용주;정유현
- The Journal of the Acoustical Society of Korea
- /
- v.12 no.1
- /
- pp.5-11
- /
- 1993
본 논문은 발성자의 자연스러운 음성데이터를 수집하기 위한 발성내용 제시시스팀의 구현에 대하여 기술한다. 대량의 음성정보의 수집 및 처리를 위해서는 이와같은 시스팀이 필수적이다. 왜냐하면, 음성정보처리의 성능 평가는 음성데이터와 발성방법에 따라 죄우되므로 실제의 환경에서 사용되는 자연스러운 음성으로 평가되어야만 객관적인 결과를 얻을 수 있기 때문이다. 따라서 이러한 음성데이터를 효율적으로 수집하기 위한 방법으로써 발성내용 제시시스팀에 관하여 기술하고자 한다. 특히, 본 논문에서는 발성해야 할 데이터를 제시하기 위한 방법으로써 발성내용 제시 시스팀에 관하여 기술하고자 한다. 특히, 본 논문에서는 발성해야 할 데이터를 제시하기 위한 요구사항, 기능, PC에 의한 구현에 대하여 기술한다. 본 시스팀은 음성수집 단계뿐만아니라 수집 후의 편집 작업의 편리성을 고려하여 구현하였으며, 4연속 숫자음 등 96명이 발성한 63,840개의 단어를 수집하는데 적용하였고 수집 과정에서 종래의 리스트를 보고 발성하는 방법에 비해 훨씬 효율적이고 자연스러운 발성을 유도할 수 있었다.
PDF

An Efficient Transcoding Algorithm Between G. 723.1 And G. 729A Speech Coders (G.723. 1 음성부호화기의 G.729A 음성부호화기의 상호 부호화 알고리듬)

윤성완;정성교;박영철;최용수;윤대희
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.26 no.4B
- /
- pp.457-462
- /
- 2001
유/무선 통신 시스템에서는 통신망보다 서로 다른 음성 부호화기를 사용하므로 음성신호는 두 번의 부/복호화과정을 거치게 되어 음질저하, 연산량 증가, 그리고 전달 지연 증가 등의 문제가 발생된다. 본 논문에서는 위의 문제점들을 개선하기 위하여 유/무선 음성통신에 사용되는 음성 부호화기의 상호 부호화 알고리듬을 제안하고, 5.3 kbps G. 723.1의 패킷과 8 kbit/s G.729.A 패킷을 서로 변환하는 방법을 제안한다. 여러 가지 음성 상호 대해 객관적 음질 평가와 주관적 선호도 평가를 수행한 결과, 제안된 상호 부호화 알고리듬이 이중 부/복호화보다 짧은 전달 지연 시간과 26-37% 적은 연산량으로 동등한 음질의 음성신호를 복호화함을 확인하였다.
PDF

Performance Evaluation of HM-Net Speech Recognition System using Korea Large Vocabulary Speech DB (한국어 대어휘 음성DB를 이용한 HM-Net 음성인식 시스템의 성능평가)

오세진;김광동;노덕규;송민규;김범국;황철준;정현열
- Proceedings of the IEEK Conference
- /
- 2003.07e
- /
- pp.2443-2446
- /
- 2003
본 논문에서는 한국전자통신연구원에서 제공된 대어휘 음성DB를 이용하여 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다 HM-Net은 PDT-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행한다. 이러한 상태분할을 수행하여 파라미터를 공유하게 되며 최적인 모델 네트워크를 작성하게 된다. 대어휘 음성데이터를 이용하여 음향모델을 작성하고 인식실험을 수행한 결과, 100명의 100단어와 60문장에 대해 평균 97.5％, 96.7％의 인식률을 보였다.
PDF

A Comparison study on the relationship between the Self-reported Voice Problem and Body Mass Index (자가 음성평가와 체질량지수의 특성 비교)

Lee, Inae;Hwang, Young-Jin
- Journal of the Korea Academia-Industrial cooperation Society
- /
- v.14 no.3
- /
- pp.1330-1334
- /
- 2013
The purpose of this study was to analyze the association between self-reported voice problem and body mass index. Data were collected from the 5th Korea National Health and Nutritional Examination Survey (2010) from 5,811 subjects(2,503 men and 3,308 women) aged 19 years and olders. chi-square, t-test and multi-nominal logistic regression analysis were used that to compare self-reported voice problem and variable(age, sex, hight, weight, waist measurement, body mass index). body mass index(OR=1.028, 95% CI: 1.003-1.056) was independently associated with self-reported voice problem(p<0.031). also over weight-two step obesity (OR=1.765, 95% CI: 1.036-3.006) were independently associated with self-reported voice problem(p<0.036). The results of comparison verified that body mass index are valuable self-reported voice problem of risk factor. when the evaluation were conducted, what was considered body mass index is needed.
https://doi.org/10.5762/KAIS.2013.14.3.1330 인용 PDF KSCI

음성 데이터베이스의 연구동향

Jeong, Yu-Hyeon
- Electronics and Telecommunications Trends
- /
- v.7 no.3
- /
- pp.1-11
- /
- 1992
음성정보처리 연구에 있어서 기본적인 연구 도구인 동시에 개발 내용의 객관적인 평가 기준이 되는 음성 데이터베이스에 관하여 음성 데이터베이스의 개요, 국내외 연구동향, 연구 과제 등에 관하여 기술하였다.
https://doi.org/10.22648/ETRI.1992.J.070301 인용 PDF

천식환자에서의 음성의 질 평가

Han, Myeong-Wol;Nam, Sun-Yeol
- Proceedings of the KSLP Conference
- /
- 2009.03a
- /
- pp.23-23
- /
- 2009
PDF

갑상선 수술 후 주관적 음성평가를 위한 설문지 유형 비교

Yun, Yeong-Seon;Son, Yeong-Ik
- Proceedings of the KSLP Conference
- /
- 2011.03a
- /
- pp.22-22
- /
- 2011
PDF

Search Result 1,646, Processing Time 0.026 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)