• 제목/요약/키워드: Acoustic model adaptation

검색결과 21건 처리시간 0.022초

공구파손검출을 위한 시스템인식에 관한 연구 (A Study on the System Identification for Detection of Tool Breakage)

  • 사승윤
    • 한국생산제조학회지
    • /
    • 제9권5호
    • /
    • pp.144-149
    • /
    • 2000
  • The demands for robotic and automatic system are continually increasing in manufacturing fields. There have been many studies to monitor and predict the system, but they have mainly focused upon measuring cutting force, and current of motor spindle, and upon using acoustic sensor, etc. In this study, time series sequence of cutting force was acquired by taking advantage of piezoelectric type tool dynamometer. Radial cutting force was obtained from it and was available for useful observation data. The parameter was estimated using PAA(parameter adaptation algorithm) from observation data. ARMA(auto regressive moving average) model was selected for system model and second order was decided according to parameter estimation. Uncorrelation test was also carried out to verify convergence of parameter.

  • PDF

선삭가공에서 공구파손 검출 시스템 인식에 관한 연구 (A Study on the System Identification of Tool Breakage Detection in Turning)

  • 사승윤
    • 한국공작기계학회:학술대회논문집
    • /
    • 한국공작기계학회 1999년도 추계학술대회 논문집 - 한국공작기계학회
    • /
    • pp.40-45
    • /
    • 1999
  • The demands for robotic and automatic system are continually increasing in manufacturing fields. There have been many studies to monitor and predict the system, but they have mainly focused upon measuring cutting force, and current of motor spindle, and upon using acoustic sensor, etc.In this study, time series sequence of cutting force was acquired by taking advantage of piezoelectric type tool dynamometer. Radial cutting force was obtained from it and was available for useful observation data. The parameter was estimated using PAA (parameter adaptation algorithm) from observation data. ARMA(auto regressive moving average) model was selected for system model and second order was decided according to parameter estimation. Uncorrelation test was also carried out to verify convergence of parameter.

  • PDF

시스템인식을 이용한 공구파손 검출 (Tool Fracture Detection Using System Identification)

  • 사승윤
    • 한국공작기계학회:학술대회논문집
    • /
    • 한국공작기계학회 1996년도 춘계학술대회 논문집
    • /
    • pp.119-123
    • /
    • 1996
  • The demands for robotic and automatic system are continually increasing in manufacturing fields. There were so many studies to monitor and predict system, but it were mainly relied upon measuring of cutting force, current of motor spindle and using acoustic sensor, etc. In this study digital image of time series sequence was acquired taking advantage of optical technique. Then, mean square error was obtained from it and was available for useful observation data. The parameter was estimated using PAA(parameter adaptation algorithm) from observation data. AR model was selected for system model, fifth order was decided according to parameter estimation. Uncorrelation test was also carried out to verify convergence of parameter. Through the proceedings, we found there was a system stability.

  • PDF

SNR 매핑을 이용한 환경적응 기반 음성인식 (Speech Recognition based on Environment Adaptation using SNR Mapping)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.543-548
    • /
    • 2014
  • 다 모델 기반의 음성인식기는 음성인식에서 매우 성공적임이 알려져 있다. 그것은 다양한 신호-대-잡음비(SNR)와 잡음종류에 해당하는 다수의 HMM을 사용함으로서 선택된 음향모델이 인식잡음음성에 매우 근접한 일치성을 가질 수 있기 때문이다. 그러나 실제 사용시에 HMM의 개수가 제한됨에 따라서 음향모델의 불일치는 여전히 문제로 남아 있다. 본 논문에서는 인식잡음음성과 HMM 간의 SNR 불일치를 줄이고자 이들 간의 최적의 SNR 매핑 (mapping)을 실험적으로 결정하였다. 인식잡음음성으로 부터 추정된 SNR 값을 사용하는 대신 제안된 SNR 매핑을 사용함으로서 향상된 인식결과를 얻을 수 있었다. 다 모델 기반인식기에 제안된 방법을 적용하여 Aurora 2 데이터베이스에 대해서 인식 실험한 결과 기존의 MTR 이나 다 모델 기반 음성인식기에 비해서 6.3%와 9.4%의 상대적 단어 오인식율 감소를 이룰 수 있었다.

A Korean Flight Reservation System Using Continuous Speech Recognition

  • Choi, Jong-Ryong;Kim, Bum-Koog;Chung, Hyun-Yeol;Nakagawa, Seiichi
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권3E호
    • /
    • pp.60-65
    • /
    • 1996
  • This paper describes on the Korean continuous speech recognition system for flight reservation. It adopts a frame-synchronous One-Pass DP search algorithm driven by syntactic constraints of context free grammar(CFG). For recognition, 48 phoneme-like units(PLU) were defined and used as basic units for acoustic modeling of Korean. This modeling was conducted using a HMM technique, where each model has 4-states 3-continuous output probability distributions and 3-discrete-duration distributions. Language modeling by CFG was also applied to the task domain of flight reservation, which consisted of 346 words and 422 rewriting rules. In the tests, the sentence recognition rate of 62.6% was obtained after speaker adaptation.

  • PDF

구개인두부전증 환자와 모의 음성의 모음과 자음 분석 (Analysis on Vowel and Consonant Sounds of Patent's Speech with Velopharyngeal Insufficiency (VPI) and Simulated Speech)

  • 성미영;김희진;권택균;성명훈;김우일
    • 한국정보통신학회논문지
    • /
    • 제18권7호
    • /
    • pp.1740-1748
    • /
    • 2014
  • 본 논문에서는 구개인두부전증 (VPI) 환자 발음과 정상인의 모의 발음에 대한 듣기 평가와 음향 분석을 실시한다. 본 연구를 위해 음성 데이터 수집을 위해 50개의 단어, 모음 및 단음절로 이루어진 발음 목록을 설정한다. 듣기 평가실험의 편의를 위해 웹 기반의 듣기 평가 시스템을 구축한다. 듣기 평가 결과는 실제 VPI 환자의 발음에 대한 오인식 경향과 모의 발음의 오인식 경향이 유사함을 나타낸다. 이러한 유사성은 모음의 포먼트 위치와 자음의 스펙트럼의 비교를 통해서도 확인할 수 있다. 실험 결과는 본 연구에서 사용한 정상인의 VPI 모의 발화 기법이 실제 환자의 음성을 비교적 효과적으로 모의하는 것을 반영하는 결과이다. 향후 VPI 환자의 음성 인식 과정에서 정상인의 모의 발화음성 데이터를 음향 모델의 적응 기법과 같은 분야에 유용하게 사용할 수 있을 것으로 기대한다.

시스템인식을 이용한 공구파손검출 알고리듬에 관한 연구 (A Study on the Tool Fracture Detection Algorithm Using System Identification)

  • 사승윤;유은이;유봉환
    • 대한기계학회논문집A
    • /
    • 제21권6호
    • /
    • pp.988-994
    • /
    • 1997
  • The demands for robotic and automatic system are continually increasing in manufacturing fields. There have been many studies to monitor and predict the system, but they have mainly focused upon measuring cutting force, and current of motor spindle, and upon using acoustic sensor, etc. In this study, digital image of time series sequence was acquired by taking advantage of optical technique. Mean square error was obtained from it and was available for useful observation data. The parameter was estimated using PAA(parameter adaptation algorithm) from observation data. AR(auto regressive) model was selected for system model and fifth order was decided according to parameter estimation. Uncorrelation test was also carried out to verify convergence of parameter. Through the proceedings, it was found that there was a system stability.

DSR 환경에서의 다 모델 음성 인식시스템의 성능 향상 방법에 관한 연구 (A Study on Performance Improvement Method for the Multi-Model Speech Recognition System in the DSR Environment)

  • 장현백;정용주
    • 융합신호처리학회논문지
    • /
    • 제11권2호
    • /
    • pp.137-142
    • /
    • 2010
  • 다 모델 음성인식기는 잡음환경에서 매우 우수한 성능을 보이는 것으로 평가되고 있다. 그러나 지금까지 다 모델 기반인식기의 성능시험에는 잡음에 대한 적응을 고려하지 않은 일반적인 전처리 방식이 주로 활용하였다. 본 논문에서는 보다 정확한 다 모델 기반인식기에 대한 성능 평가를 위해서 잡음에 대한 강인성이 충분히 고려된 전처리 방식을 채택하였다. 채택된 전처리 알고리듬은 ETSI (European Telecommunications Standards Institute)에서 DSR (Distributed Speech Recognition) 잡음환경을 위해서 제안된 AFE (Advanced Front-End) 방식이며 성능비교를 위해서 DSR 환경에서 좋은 성능을 나타낸 것으로 알려진 MTR (Multi-Style Training)을 사용하였다. 또한, 본 논문에서는 다 모델 기반인식기의 구조를 개선하여 인식성능의 향상을 이루고자 하였다. 기존의 방식과 달리 잡음음성과 가장 가까운 N개의 기준 HMM을 사용하여 기준 HMM의 선택시에 발생할 수 있는 오류 및 잡음신호의 변이에 대한 대비를 하도록 하였으며 각각의 기준 HMM을 훈련을 위해서 다수의 SNR 값을 이용함으로서 구축된 음향모델의 강인성을 높일 수 있도록 하였다. Aurora 2 데이터베이스에 대한 인식실험결과 개선된 다 모델기반인식기는 기존의 방식에 비해서 보다 향상된 인식성능을 보임을 알 수 있었다.

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.