• 제목/요약/키워드: 음성기반

검색결과 2,238건 처리시간 0.035초

퍼지추론에 의한 지능형 음성지시 조타기 제어 시스템의 구축 (Building of an Intelligent Ship's Steering Control System Based on Voice Instruction Gear Using Fuzzy Inference)

  • 서기열;박계각
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1809-1815
    • /
    • 2003
  • 최근 선박 운항의 고효율화 및 안전성 확보를 위하여 지능형 선박 시스템에 관한 연구가 활발하게 진행되고 있다. 전문가의 지식과 경험 정보가 데이터베이스로 구축된 전문가 시스템의 지식 정보를 이용하여 안전하고 효율적인 선박 운항이 가능한 항해 지원 시스템에 관한 연구도 활발하다. 따라서, 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로 퍼지 추론과 휴먼 인터페이스의 하나인 음성 인식 기술을 적용하여 선박 운항자의 부담 경감 및 인원 절감 등의 효과를 가져 올 수 있는 지능형 선박 조종 시스템을 구축한다. 구체적인 연구방법으로는 먼저, 음성 인식 기술과 지능형 학습 기법을 기반으로 음성 지시 기반 학습 시스템을 구현하고, 다음으로 퍼지 추론에 의한 조타수 조작 모델을 구성하여 PC기반 원격 제어 시스템을 구축하였다. 마지막으로 구현된 음성 지시 조타 제어 시스템을 모형 선박 시스템에 적용하여 그 효용성을 확인하였다.

중첩 U-Net 기반 음성 향상을 위한 다중 레벨 Skip Connection (Multi-level Skip Connection for Nested U-Net-based Speech Enhancement)

  • 황서림;변준;허준영;차재빈;박영철
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.840-847
    • /
    • 2022
  • 심층 신경망(Deep Neural Network) 기반 음성 향상에서 입력 음성의 글로벌 정보와 로컬 정보를 활용하는 것은 모델의 성능과 밀접한 연관성을 갖는다. 최근에는 다중 스케일을 사용하여 입력 데이터의 글로벌 정보와 로컬 정보를 활용하는 중첩 U-Net 구조가 제안되었으며, 이러한 중첩 U-Net은 음성 향상 분야에도 적용되어 매우 우수한 성능을 보였다. 그러나 중첩 U-Net에서 사용되는 단일 skip connection은 중첩된 구조에 알맞게 변형되어야 할 필요성이 있다. 본 논문은 중첩 U-Net 기반 음성 향상 알고리즘의 성능을 최적화하기 위하여 다중 레벨 skip connection(multi-level skip connection, MLS)을 제안하였다. 실험 결과, 제안된 MLS는 기존의 skip connection과 비교하여 다양한 객관적 평가 지표에서 큰 성능 향상을 보이며 이를 통해 MLS가 중첩 U-Net 기반 음성 향상 알고리즘의 성능을 최적화시킬 수 있음을 확인하였다. 또한, 최종 제안 모델은 다른 심층 신경망 기반 음성 향상 모델과 비교하여서도 매우 우수한 성능을 보인다.

DSP기반의 잡음환경에 강인한 화자 독립 음성 인식기 구현 (Implementation of Speaker Independent Speech Recognizer in Noise Environment based on DSP)

  • 박진영;권호민;박정원;김창근;허강인
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 범용 DSP를 이용한 잡음환경에 강인한 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 DSP인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 Codec과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 또한, 기존의 음성 인식 시스템에 사용한 파라메터에 대한 고찰과 ICA를 이용하여 잡음 환경에 강인한 음성 특징 파라메터를 제안하고 성능 비교 실험을 하였다. 제안된 ICA 파라메터를 적용하여 음성인식 시스템을 구현하였다. 그리고, 독립적으로 동작 가능한 음성인식 시스템의 응용 예로 무선자동차에 적용시켜 실험했다.

  • PDF

음성정보 서비스를 위한 VoiceXML 저작도구 설계 (Design of VoiceXML authoring tool for Voice Information Service)

  • 김성범;홍현술;한성국
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.172-174
    • /
    • 2002
  • 음성정보 기술의 발달은 음성 마크업 언어인 VoiceXML1.0의 등장으로 인하여 기존의 음성 정보 기술은 보다 많은 발전 기회를 가지게 되었다. 그러나 현재 음성정보 서비스를 위한 기술은 많이 발전된 반면 이를 위한 마크업 언어인 음성 마크업 언어의 활용에 대한 연구는 부족한 실정이다. 이에 본 논문에서는 음성연구의 한 분야의 VoiceXML의 필요성과 기반 기술에 대하여 알아보고. 이를 활용하여 음성 정보 서비스를 위해 설계 요구사항을 정립하여, 저작도구의 구성요소를 기능별로 설계하였고 프로토타입으로 검증하였다.

  • PDF

장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발 (Development of medical/electrical convergence software for classification between normal and pathological voices)

  • 문지혜;이지연
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.187-192
    • /
    • 2015
  • 장애음성을 판별할 수 있는 소프트웨어가 개발 될 경우, 원격의료와 언어치료 등 여러 융복합 분야에서의 활용도가 매우 높다. 본 논문은 성대 진동에 대한 변화율을 나타내는 의료정보인 음향학적 파라미터와 신호처리 기반 고차 통계량에 기반을 둔 파라미터를 융합하여, CART(Classification And Regression Trees) 분석을 통해서 정상/장애음성 판별 프로그램을 구현하였다. 사용된 음향학적 파라미터는 Jitter(%)와 shimmer(%)이다. 그리고 본 연구에서 제안된 고차통계량 기반 파라미터는 왜도(Skewness)와 첨도(Kurtosis)의 평균과 분산이다. Kay Elemetrics의 데이터베이스에서 무작위로 발췌된 정상음성 53명, 장애 음성 173명의 /아/ 발화를 이용하여 결정트리(Decision tree) 기반장애음성 판별을 위해 평균적으로 83.15%의 성능을 보이는 알고리즘을 구현하였다. 그 결과를 바탕으로 추후 상용화를 고려하여 사용자 친화적인 프레임 워크에 의해 컨텐츠를 생성하는 융복합형 기능이 포함된 장애음성 판별 프로그램을 개발하였다.

SNR 매핑을 이용한 환경적응 기반 음성인식 (Speech Recognition based on Environment Adaptation using SNR Mapping)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.543-548
    • /
    • 2014
  • 다 모델 기반의 음성인식기는 음성인식에서 매우 성공적임이 알려져 있다. 그것은 다양한 신호-대-잡음비(SNR)와 잡음종류에 해당하는 다수의 HMM을 사용함으로서 선택된 음향모델이 인식잡음음성에 매우 근접한 일치성을 가질 수 있기 때문이다. 그러나 실제 사용시에 HMM의 개수가 제한됨에 따라서 음향모델의 불일치는 여전히 문제로 남아 있다. 본 논문에서는 인식잡음음성과 HMM 간의 SNR 불일치를 줄이고자 이들 간의 최적의 SNR 매핑 (mapping)을 실험적으로 결정하였다. 인식잡음음성으로 부터 추정된 SNR 값을 사용하는 대신 제안된 SNR 매핑을 사용함으로서 향상된 인식결과를 얻을 수 있었다. 다 모델 기반인식기에 제안된 방법을 적용하여 Aurora 2 데이터베이스에 대해서 인식 실험한 결과 기존의 MTR 이나 다 모델 기반 음성인식기에 비해서 6.3%와 9.4%의 상대적 단어 오인식율 감소를 이룰 수 있었다.

시변 잡음에 대처하기 위한 다중 모델을 이용한 PCMM 기반 특징 보상 기법 (PCMM-Based Feature Compensation Method Using Multiple Model to Cope with Time-Varying Noise)

  • 김우일;고한석
    • 한국음향학회지
    • /
    • 제23권6호
    • /
    • pp.473-480
    • /
    • 2004
  • 본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 음성 모델을 기반으로 하는 효과적인 특징 보상 기법을 제안한다. 제안하는 특징 보상 기법은 병렬 결합된 혼합 모델 (PCMM)을 기반으로 한다. 기존의 PCMM 기반의 기법은 시간에 따라 변하는 잡음 환경을 반영하기 위하여 매 음성 입력마다 복잡한 과정의 혼합 모델 결합이 필요하다. 제안하는 기법에서는 다중의 혼합 모델을 보간하는 방법을 채용함으로써 시간에 따라 변하는 배경 잡음에 대응할 수 있다. 보다 신뢰성 있는 혼합 모델 생성을 위하여 데이터 유도 기반의 방법을 도입하고, 실시간 처리를 위하여 프레임에 동기화된 환경 사후 확률 예측 과정을 제안한다. 다중 모델로 인한 연산량 증가를 막기 위하여 혼합 모델을 공유하는 기법을 제안한다. 가우시안 혼합 모델 사이에 통계학적으로 유사한 요소들을 선택하여 공유에 필요한 공통 모델을 생성한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과로부터 제안한 기법이 모의 환경과 실제 잡음 환경에서 강인한 음성 인식 성능을 가져오고 연산량 감소에 효과적임을 확인한다.

가변위치 고음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 관한 연구 (A Study on the Realization of Wireless Home Network System Using High-performance Speech Recognition in Variable Position)

  • 윤준철;최상방;박찬섭;김세영;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.991-998
    • /
    • 2010
  • 실내 환경에서 음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 있어, 잡음과 실내 잔향음은 시스템 성능 저하의 주요 원인이다. 본 연구에서는 실내 인식환경에서 스펙트럼 엔트로피(Spectral entropy) 기반의 음성 구간검출법을 이용하여 잔향음(reverberation) 및 실내잡음에 강인한 음성인식 홈 네트워크 시스템을 구현하고자 한다. 스펙트럼 차감법(Spectral Subtraction)은 잔향으로 인해 왜곡된 신호를 스펙트럼 상에서 제거하여 잔향의 효과를 줄일 수 있고 음성신호와 독립적인 잡음을 제거 할 수 있다. 효과적인 스펙트럼 차감을 위해서는 음성과 비음성 구간의 정확한 구분이 수반되어야 하며 이를 위해서 엔트로피 기반의 음성 구간 검출법을 적용하여 성능을 향상시킨다. 모의 및 실내환경 실험 결과 Spectral entropy 기반의 음성 구간 검출법을 이용할 경우 실내 잔향 및 잡음환경에서 명령어 인식률의 향상이 증명되었다.

잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합 (Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments)

  • 윤성욱;권오욱
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.439-451
    • /
    • 2021
  • 본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 음성과 잡음을 완전히 겹친 방식으로 혼합하여 생성된 사전 분할 오디오 신호를 사용하여 대부분 평가되었다. 하지만 실제 환경에서는 시간 축으로 음성 발화가 띄엄띄엄 발성되기 때문에, 음성이 없는 잡음 신호가 시스템에 입력되면 기존 빔포밍 알고리듬의 성능이 저하된다. 이러한 효과를 경감하기 위하여, 심층 학습 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합하였다. 잡음 환경에서 온라인 빔포밍 알고리듬을 평가하기 위해 연속 음성 강화 세트를 구성하였다. 평가 세트는 CHiME3 평가 세트에서 추출한 음성 발화와 CHiME3 배경 잡음 및 MUSDB에서 추출한 연속 재생되는 배경음악을 혼합하여 구성되었다. 음성인식기로는 Kaldi 기반 툴킷 및 구글 웹 음성인식기를 사용하였다. 제안한 온라인 빔포밍 알고리듬 과 스펙트럼 감산이 베이스라인 빔포밍 알고리듬에 비해 성능 향상을 보임을 확인하였다.

잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법 (Speech enhancement method based on feature compensation gain for effective speech recognition in noisy environments)

  • 배아라;김우일
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.51-55
    • /
    • 2019
  • 본 논문에서는 잡음 환경에 강인한 음성 인식 성능을 위해 특징 보상 이득을 이용한 음성 향상 기법을 제안한다. 본 논문에서는 변분모델 생성 기법을 채용한 병렬 결합된 가우스 혼합 모델(Parallel Combined Gaussian Mixture Model, PCGMM) 기반의 특징 보상 기법으로부터 계산할 수 있는 특징 보상 이득을 이용하는 음성 향상 기술을 제안한다. 불일치 환경 음성 인식 시스템 적용 환경에서 본 논문에서 제안하는 기법이 실험 결과에서 기존의 전처리 기법 및 이전 연구에서 제안된 특징 보상 기반의 음성 향상 기법에 비해 다양한 잡음 및 SNR(Signal to Noise Ratio) 조건에서 월등한 인식 성능을 나타내는 것을 확인한다. 또한 잡음 모델 선택 기법을 적용함으로써 음성 인식 성능을 유사한 수준으로 유지하면서 계산량을 대폭적으로 감축할 수 있다.