• 제목/요약/키워드: 자동 음성인식

검색결과 247건 처리시간 0.023초

음성 인식을 통한 항공기 제어 시스템의 구현 (Implementation of the Aircraft Control System with Voice Recognition)

  • 박명철;차현준;김태형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.171-172
    • /
    • 2021
  • 현재까지 항공기에 적용되는 기술들은 수많이 발전해왔다. 조종사의 편의성을 위한 기술들 또한 많이 발전해왔다. 자동운항 등 많은 기술들이 조종사를 보조하며 편의성을 위해 사용되고 있다. 하지만 비행기가 처음 만들어 졌을 때부터 바뀌지 않은 조종의 방식과 항공기의 국제성이 가지는 장시간의 비행은 여전히 조종사에게는 큰 피로를 안겨주고 있다. 본 논문은 조종사들의 피로를 경감 시켜 피로로 인해 발생 할 수 있는 사고들을 예방하기 위해 음성인식을 적용하여 새로운 조종의 방식인 '음성인식을 통한 항공기 조종면의 제어' 기술을 제안한다. 기존의 손을 사용한 조종방식이 아닌 컴퓨터와 조종사의 대화를 통해 데이터를 처리하고 즉각적인 피드백을 받으며 조종사의 편의성을 증가시켜 나아가 피로를 경감 시킬 수 있다.

  • PDF

주행중인 자동차 환경에서의 고립단어 음성인식 연구 (A Study on Isolated Words Speech Recognition in a Running Automobile)

  • 유봉근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.381-384
    • /
    • 1998
  • 본 논문은 주행중인 자동차 환경에서 운전자의 안전성 및 편의성의 동시 확보를 위하여, 보조적인 스위치 조작없이 상시 음성의 입, 출력이 가능하도록 한다. 이때 잡음에 강인한 threshold 값을 구하기 위하여, 일정한 시간마다 기준 에너지와 영교차율(Zero Crossing Rate)을 변경하며, 밴드패스 필터(bandpass filter)를 이용하여 1차, 2차로 나누어 실시간 상태에서 자동으로, 정확하게 끝점검출(End Point Detection)을 처리한다. 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)을 사용하며, 화자의 변별력을 높이기 위하여 2개의 모델사용을 제안한다. 또한 주행중인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누며 차량의 가변잡음 크기에 따라 자동으로 선택하도록 한다. 음성의 특징 벡터와 인식 알고리즘은 PLP 13차와 One-Stage Dynamic Programming (OSDP)를 이용한다. 실험결과, 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시속 80Km/h 이상)에서 화자독립 89.75%, 화자종속 90.08%의 인식율을 구하였으며, 경부 고속도로에서는 화자독립 92.29%, 화자종속 92.42%의 인식율을 구하였다. 그리고 저속 주행중인 자동차 환경(80km/h 이내, 시멘트, 아스팔트 등의 서울시내 및 시외독립)에서는 화자독립 92.89%, 화자종속 94.44% 인식율을 구하였다.

  • PDF

후처리를 이용한 음성 다이얼링 시스템의 성능향상 (Performance Improvement of Voice Dialing System using Post-Processing)

  • 김원구
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.9-12
    • /
    • 2000
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템 보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어당 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

스마트 폰 음성 인식 서비스의 상황별 만족도 조사 (Study on the Situational satisfaction survey of Smart Phone based on voice recognition technology)

  • 이윤정;김승인
    • 디지털융복합연구
    • /
    • 제15권8호
    • /
    • pp.351-357
    • /
    • 2017
  • 본 연구는 스마트 폰 음성인식 서비스를 분석하고 음성인식 서비스의 상황별 만족도 조사를 통하여 사용자들의 기대요구와 만족도 간의 관련성을 분석하여 더 나은 음성인식 서비스 발전을 모색하고자 하였다. 1차로 문헌연구를 통하여 음성인식 서비스의 개념과 현황을 알아보고, 2차로 육하원칙을 기조로 한 설문지를 통해 설문 조사를 진행하였다. 그 결과, 사용자는 스마트 폰 음성인식 서비스를 전화를 걸 때에 가장 많이 사용하며, 주로 혼자 있을 때 사용하며 시간대는 대체로 평이하지만, 저녁 시간이 가장 많았다. 또한, 해당 서비스는 집에서 가장 많이 사용하며 손을 사용할 수 없을 때 서비스를 가장 많이 사용하는 것으로 나타났다. 이러한 상황별 다양한 결과를 통해 개인화 서비스, 조건 인식 기능, 위급 상황 자동인식, 음성으로 잠금 해제 등 다양한 방안을 도출할 수 있었다. 본 연구를 바탕으로 추후 국내 스마트 폰 음성인식 서비스 개선과 웨어러블 디바이스 개발을 위해 효과적으로 활용할 수 있을 것으로 기대한다.

대화형 음성 지원을 통한 지능형 검색 시스템 (Intelligent Retrieval System with Interactive Voice Support)

  • 문규진;우요섭
    • 재활복지공학회논문지
    • /
    • 제9권1호
    • /
    • pp.29-35
    • /
    • 2015
  • 본 논문에서는 음성인식을 통해 상품검색을 도와주는 지능형 검색 시스템을 제안한다. 제안하는 시스템은 음성인식과정에서 잘못 인식된 어휘를 자동으로 수정하기 위해 어휘간의 관계를 이용한다. 본 연구에서는 제안하는 시스템의 유용성을 확인하기 위해 시스템을 시뮬레이션 할 수 있는 어플리케이션을 구현하였다. 실험 결과 간단한 유저 인터페이스를 통해 음성인식이 잘못된 어휘를 바로잡아 상품검색에 도움을 주는 것을 확인할 수 있었다.

  • PDF

WIPI기반 음성 웹브라우저 구현 방안 (Strategy for Implementing A Voice Web Browser Based WIPI)

  • 유세영;김병기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.501-504
    • /
    • 2006
  • 인터넷 및 휴대폰들이 일반화되고 음성처리 기술이 실용화 단계로 발전함에 따라 음성 응용분야가 새로운 이슈로 떠오르고 있다. 음성처리 기술은 사람의 말을 알아들을 수 있는 귀와 사람에게 말을 할 수 있는 입을 마련해주는 새로운 분야다. 그리고, 음성으로 웹의 컨텐츠를 개발하기 위한 표준 언어인 VoiceXML, SALT가 빠르게 보급되고 있다. 음성인식과 음성합성 기술이 꾸준히 발전하여 음성 포털 서비스나 자동 음성 안내 시스템 등에 음성인식과 음성합성 기술이 채택되는 등 상용화 수준에 이르렀다. 사람에게 가장 편리한 정보 습득 방법은 음성이고 이러한 음성을 적용한 음성 웹 브라우저를 현재 유선 상에서 사용하고 있다. 하지만 아직까지 무선 플랫폼에 적용하여 사용하는 브라우저는 개발되지 않고 있다. 사용자에게 친숙한 무선인터넷 환경을 제공하고자 무선 음성 웹 브라우저를 구현방안을 제시하고자 한다.

  • PDF

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

치매노인을 위한 자동대화시스템 (Automatic Dialog System for the Elderly with Dementia)

  • Kim, Sung-ill;Joo, Chang-bok;Shin, Wee-jae
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.137-140
    • /
    • 2003
  • 본 연구는 치매노인환자의 생활의 질을 향상시키기 위한 대화시스템의 개발에 목표를 둔다. 제안된 시스템은 주로 세 가지 모듈, 즉, 음성인식, 시간테이블에 의해 구분된 대화 데이터베이스의 자동검색, 그리고 간호사의 녹음음성에 의한 응답 등으로 구성되어 있다. 우선 치매환자가 요양시설에서 자주 발화하는 대화의 내용을 조사하고, 그들의 발화 음성을 인식하고 적절히 응답하도록 구성하였다. 시스템의 평가를 위해서 시스템이 도입되었을 때와 도입되지 않았을 때를 비교, 조사하였다. 시스템이 도입되지 않았을 때는 간호사가 자유로이 케어서비스를 행할 수 있도록 하였다. 비디오 촬영을 통해서 대상자의 행동 및 반응을 조사한 결과, 치매환자의 요구를 충족시키는데 있어서 대화 시스템이 간호사들보다 더 응답적이었다는 것을 알 수 있었다. 게다가, 제안된 시스템은 상호 대화에 있어서 환자가 더 많이 말하도록 유도함을 알 수 있었다.

  • PDF

음성의 유성음 특성을 이용한 음성/비음성 판별 방법 (A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech)

  • 이성주;정호영;이윤근;김형순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.411-412
    • /
    • 2007
  • 자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.

ETRI의 음성데이타베이스 구축현황 (Current Status of Speech Database at ETRI)

  • 이영직
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.265-271
    • /
    • 1995
  • 한국전자통신연구소의 음성 데이터베이스 구축 현황을 기술한다. 현재 한국전자통신연구소에서는 음성인식 연구를 위해 단어음성, 정형 문장 음성 등의 데이터베이스를 구축, 보유하고 있다. 음성인식용 데이터베이스는 정해진 단어, 분장을 20명 내지 100명이 발성한 것으로, 일부는 음소 단위까지 레이블링이 되어 있다. 또 음성합성 연구를 위해 합성단위 및 운율데이타베이스를 가지고 있는데 이는 한 명 혹은 남녀 각각 3명이 발성한 것으로, 일부는 피치 등이 수록되어 있다. 문장 데이터베이스는 언어 정보처리를 위해 교재, 문학, 경제, 과학 분야의 문장을 총 480만 어절 가지고 있으며, 이 중 일부에 품사 정보를 추가하였다. 한국전자통신연구소는 국내 음성 연구의 발전에 기여하고자 음성 연구의 기반 자료가 되는 음성 데이터베이스를 국내 대학 및 산업체에 배포하고 있다 음성 데이터베이스는 음성 연구의 기반이 되는 자료임에도 불구하고 많은 비용과 노력이 들어 일반 대학에서는 쉽게 만들 수 없었다. 이에 ETRI는 한국통신이 출연한 "자동통역 요소기술개발" 과제으 LQNTKSANF인 여러 종류의 음성 데이터베이스와 관련 프로그램을 공급하여 국내 음성 연구의 기반 확립에 기여하고자 한다. 기여하고자 한다.

  • PDF