통합 검색 | Korea Science

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

오상엽
- 융합정보논문지
- /
- 제11권6호
- /
- pp.1-6
- /
- 2021
음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.
https://doi.org/10.22156/CS4SMB.2021.11.06.001 인용 PDF KSCI

TMS320C6413 DSP프로세서를 이용한 적응 음질개선 시스템의 구현에 관한 연구 (Implementation of adaptive speech enhancement system using TMS320C6413 DSP processor)

이영일;이순려;신윤기;최홍섭
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
- /
- pp.101-104
- /
- 2004
본 논문에서는 보상기를 채용하여 안정성을 확보한 적응순환필터인 ACHARF(Adaptive Compensated Hyperstable Adaptive Recursive Filter)를 사용하여 잡음제거를 통한 음성의 음질개선을 DSP 프로세서를 통하여 구현하였다. 실험에서는 TI사의 최신 DSP 프로세서인 TMS320C6413와 스테레오 오디오 코덱인 TLV320AIC23을 탑재한 Evaluation board를 사용하였다. 2개의 입력마이크를 이용하여 음성신호와 기준 잡음신호를 별도로 수집하여 알고리즘을 수행하였으며, 실험 결과로 음질개선 효과를 확인할 수 있었다. 본 연구를 통해서 시스템의 성능개선의 핵심은 입력으로 들어오는 음성신호와의 상관도가 가능한 적은 잡음신호를 수집하는 방법이라 생각되며 앞으로 이에 대한 연구가 필요하겠다.
PDF

성대에어로빅치료법이 음성장애환자의 음성개선에 미치는 효과 (Effects of vocal aerobic treatment on voice improvement in patients with voice disorders)

박준희;유재연;이하나
- 말소리와 음성과학
- /
- 제11권3호
- /
- pp.69-76
- /
- 2019
본 연구는 성대에어로빅치료법(vocal aerobic treatment, VAT)이 음성장애 환자의 음성 개선에 미치는 효과에 대해 알아보았다. 연구대상은 후두스트로보스코피, 음성검사 상 음성장애로 진단된 20명(남 13명, 여 7명)이었다. 음향학적 평가는 CSL(computerized speech lab)의 MDVP(Multi-Dimensional Voice Program)와 VRP(Voice Range Profile)를 통해 평가하였다. 공기역학적 평가는 PAS(Phonatory Aerodynamic System)를 통해 평가하였다. MDVP를 통해 치료 전 후 기본주파수(Fo), 주파수변동률(Jitter), 진폭변동률(Shimmer), 소음대배음비(NHR)의 변화를 측정하였고, VRP에서는 치료 전 후 주파수 범위(Fo range), 강도범위(Energy range)를 측정하였다. PAS에서는 치료 전 후 폐활량(FVC), 최대연장발성시간(PHOT), 평균호기류율(MEAF), 성문하압(MPAP), 음성효율성(AEFF)의 변화를 알아보았다. 후두스트로보스코피에서는 치료 전 후 양측 성대의 규칙성, 대칭성, 점막파동, 진폭 변화 소견을 알아보았다. 음성치료는 총체적 음성치료 접근법 중 하나인 VAT 프로그램을 환자별로 주 1회 실시하였다. 환자별 평균 치료 회기는 6.5회였다. 연구결과, MDVP에서는 Jitter, Shimmer, NHR이 통계적으로 유의하게 감소하였다(p<.001, p<.01, p<.05). VRP 결과, 주파수 범위에서 Hz와 Semitones이 치료 후 유의미하게 향상하였다(p<.01, p<.05). PAS 결과, FVC, PHOT에서 유의미한 향상이 나타났다(p<.01, p<.001). 후두스트로보스코피 결과 치료 후 기능적 음성장애, 인후두역류질환, 양성성대점막질환군에서 성대소견이 정상범주에 해당하였다. 따라서 VAT 프로그램은 음성장애환자의 음향학적 공기역학적 후두스트로보스코피 측면에서의 음성 개선에 효과적인 것으로 나타났다. 차후 연구에서는 동일 집단의 음성장애 환자에게 VAT 적용 연구가 필요하다고 생각된다. 또한 객관적인 음성 개선뿐만 아니라 주관적 음성 개선을 알아볼 필요가 있다. 나아가 직업적 음성사용자를 대상으로 VAT 효과에 대한 적용연구가 필요가 있다.
https://doi.org/10.13064/KSSS.2019.11.3.069 인용 PDF KSCI

음성스펙트럼의 클러스터링을 이용한 음성검출기법 개선 (Speech Detection using Speech Spectrum Clustering)

김태영;김남수;김태정
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
- /
- pp.149-152
- /
- 2000
본 연구에서는 기존의 통계 이론에 근거한 음성 검출 기법을 제안하는 음성 스펙트럼 모형화기법을 통해 개선시키고자 한다 기존의 방법과는 달리 음성을 하나의 단일 모형이 아닌 여러 클래스(class) 모형의 결합체로 간주한다. 각 클래스 모형의 추정을 위해 신호원 부호화(source coding)의 클러스터링(clustering)과 유사한 기법을 제안하고, 이를 이용한 두 가지의 검출 기법을 제안한다. 하나는 각각의 클래스에 대해 LRT(likelihood ratio test)를 수행하고, 이를 최종적으로 통합하는 기법이고 다른 하나는 각 클래스의 모형으로부터 혼합모형(mixture model)을 구하여 이를 이용하여 LRT를 수행하는 방법이다. 제안한 두 가지 방법 모두 비교적 적은 연산량 증가에도 불구하고 실험 결과 기존 방법에 비해 매우 우수한 성능을 보였다.
PDF

Context 정보를 이용한 명령어 음성인식의 성능향상 (Performance improvement of Command Speech recognition using Context Information)

김영주;김은주;김명원
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
- /
- pp.718-720
- /
- 2005
이동 단말기의 대중화로 사용자는 시간과 공간의 제약 없이 필요한 다양한 정보 서비스를 쉽게 접할 수 있게 되었다. 그러나 사용자 인터페이스에 있어 이동 단말기는 제약사항이 않음으로 적시적소에 원하는 정보를 접근하기가 어렵기 때문에 음성인식을 통한 인터페이스 연구가 진행되고 있으며, 특히 잡음환경에서 강인한 음성인식 처리를 위한 연구가 활발히 진행되고 있다. 지금까지 잡음환경을 위한 음성인식 접근 방법으로는 언어모델의 개선과 음향모델 개선으로 크게 구분할 수 있다. 그러나 이러한 접근 방법들은 적용하는데 있어 많은 시간과 비용이 요구됨으로 효율성이 떨어진다. 따라서 본 논문에서는 이러한 효율성 문제를 보완하기 위해 음성인식기로부터 인식되어 나오는 결과를 문맥정보와 융합하여 정보를 추출하고 이 정보를 이용한 후처리 모듈을 이용하여 인식시에 발생하는 오류를 적은 비용과 시간으로 수정하여 이동 단말기에 이용할 수 있도록 한다.
PDF

한소리 : 무제한 음성합성시스팀 (HanSoRi : an Unlimited Synthesis System)

김응인
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
- /
- pp.342-345
- /
- 1994
본 논문에서는 무제한단어 음성합성 시스템인 한소리에 대해서 간략히 기술하고 청취실험을 통한 성능평가에 대해 논한다. 음성합성시스템의 음질을 결정하는 주요 요소들은 합성의 기본단위, 합성방법, 음운학적 전처리방법 및 운율조절방법이다. 한소리 합성시스템은 반음소를 음성합성의 기본단위로 하고, 형식형태소를 이용 음성학적 전처리를 실행하며, 개선된 한국어 운율조절방법이 적용되고, 음성단편조합방식을 합성방식을 사용한다. 청취실험결과 매우 한소리 합성시스템의 합성음이 자연스러움을 알 수 있다.
PDF

신경망을 이용한 음성인식의 안내 (Introduction to Speech Recognition using Neural Networks)

정홍
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 1992년도 하계학술대회 논문집 A
- /
- pp.43-45
- /
- 1992
한국의 HAN 인공지능(人工知能)컴퓨터과제나 일본의 NIPT나 성사를 가름할 수 있는 기술 중의 하나가 컴퓨터에 의한 음성인식(音聲認識)의 성공여부이다. 그러나 자동음성인식은 화자독립(話者獨立), 연속음성(連續音聲) 무제한(無制限) 어휘(語彙) 처리라는 세가지 난관을 아직 극복하고 있다. 현재 DTW나 HMM 시스팀은 계속 개선되고있으나 근본적으로 한계가 있다고 보인다. 이와같은 이유로 신경망을 이용한 음성인식연구가 급속히 확산되고 있다. 이와 같은 추세에 따라 본 심포지움에서는 신경망을 이용한 음성인식에 대해 소개한다.
PDF

SPHINX : Hidden Markov Model 기반 음성인식 시스템

김명원;이영직;전인흥
- 전자통신동향분석
- /
- 제5권2호
- /
- pp.63-77
- /
- 1990
HMM(Hidden Markov Model)은 음성을 기술하는데 적합한 model이다. 본 고는 최근 CMU에서 개발한 HMM에 기반을 둔 화자독립, 연속음성 system인 SPIHNX에 대하여 기술한다. SPHINX는 단순한 음소의 HMM model을 적용한 baseline SPHINX로부터 시작하여 새로운 지식의 추가 및 음성단위의 조정 등을 통하여 지속적으로 그 성능이 개선되어 왔다. SPHINX의 최종 version은 어휘 약 1000단어 정도의 재원 관리에 관한 질문 형태의 문장을 인식하는데 96%의 높은 인식율을 보인다. SPHINX는 가장 발전된 음성인식 시스템의 하나이며 이는 화자독립, 대용량어휘의 연속음성 인식 시스템의 실현 가능성을 제시한다.
https://doi.org/10.22648/ETRI.1990.J.050205 인용 PDF

한국어 음성데이터를 이용한 일본어 음향모델 성능 개선 (An Enhancement of Japanese Acoustic Model using Korean Speech Database)

이민규;김상훈
- 한국음향학회지
- /
- 제32권5호
- /
- pp.438-445
- /
- 2013
본 논문은 일본어 음성인식기 신규 개발을 위해 초기에 부족한 일본어 음성데이터를 보완하는 방법이다. 일본어 발음과 한국어 발음이 유사한 특성을 근거로 한국어 음성 데이터를 이용한 일본어 음향모델 성능개선 방법에 대하여 기술하였다. 이종언어 간 음성 데이터를 섞어서 훈련하는 방법인 Cross-Language Transfer, Cross-Language Adaptation, Data Pooling Approach등 방법을 설명하고, 각 방법들의 시뮬레이션을 통해 현재 보유하고 있는 일본어 음성데이터 양에 적절한 방법을 선정하였다. 기존의 방법들은 훈련용 음성데이터가 크게 부족한 환경에서의 효과는 검증되었으나, 목적 언어의 데이터가 어느 정도 확보된 상태에서는 성능 개선 효과가 미비하였다. 그러나 Data Pooling Approach의 훈련과정 중 Tyied-List를 목적 언어로만으로 구성 하였을 때, ERR(Error Reduction Rate)이 12.8 %로 성능이 향상됨을 확인하였다.
https://doi.org/10.7776/ASK.2013.32.5.438 인용 PDF KSCI

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

정은석;최의선;이철희
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 1998년도 학술대회
- /
- pp.95-98
- /
- 1998
본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.
PDF

검색결과 1,025건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)