• 제목/요약/키워드: Voice Recognition Technology

검색결과 212건 처리시간 0.038초

음성지시 기반 항공기 이륙 시스템의 구현 (Realization of Aircraft Takeoff Systems Based on Voice Instructions)

  • 양청일;전병규;임상석
    • 한국항행학회논문지
    • /
    • 제12권6호
    • /
    • pp.559-566
    • /
    • 2008
  • 본 논문에서는 UAV를 포함한 모든 항공기를 위한 음성지시기반의 새로운 이륙시스템의 구현을 제안한다. 본 이륙제어 시스템은 음성인식, 환경결정, 명령수행으로 구성된다. 음성인식기술을 도입함으로써 제안된 이륙시스템은 조종사에게 단순화된 이륙과정과 더욱 신뢰할 수 있는 편리한 이륙제어 수단을 제공한다. 이 새로 제안된 음성인식기반 이륙 시스템은 이륙과정에서 발행할 수 있는 조종사 실수나 출발지연과 같은 문제를 감소시킴으로써 사고를 예방할 수 있고 궁극적으로는 항공안전에 크게 기여할 수 있다는 장점을 갖는다.

  • PDF

음성패턴인식 인터랙티브 콘텐츠 개발 (Interactive content development of voice pattern recognition)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제16권5호
    • /
    • pp.864-870
    • /
    • 2012
  • 언어 학습 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 패턴인식기술을 적용하여 기존의 문제점을 해결하였다. 언어 학습 콘텐츠의 첫 번째 문제점은 온라인 학습 자세이다. 수업 진행은 되었지만 다른 웹 페이지를 열어 게임을 하는 등 학생들의 집중력은 떨어졌다. 두 번 째 문제점은 Speaking 학습 과정을 만들었지만 실제로 따라 읽는지 판단할 수가 없었다. 세 번 째 문제점은 학습 관리 시스템에 의한 기계적 진행이 아니라 선생님들의 평가에 의해 잘하는 학생들과 못하는 학생간의 학습 진행에 차이를 둘 필요가 생겼다. 마지막으로 가장 큰 문제는 기존에 만들어 놓은 콘텐츠들은 그대로 유지되면서 위의 문제들을 해결할 수 있어야 했다. 이러한 배경 하에 음성 패턴인식기술은 말하기 학습 전용 학습 프로그램으로 학습 진행을 위한 음성인식은 물론 학습 자체를 위한 음성인식 기능들을 모두 가지고 있으며 인식 절차에 사용된 학습자의 발화 데이터를 원하는 형태의 오디오 파일로 변경하여 서버의 특정 위치로 전송하거나 SQL서버에 등록할 수도 있으며, 또한 컴포넌트이기 때문에 그 어떠한 시스템이나 프로그램이라도 모두 적용 가능하고 이미 만들어진 콘텐츠 전체를 손상시키지 않고 쉽게 삽입하여 새로운 기능들을 사용할 수 있었다. 본 논문으로 교육 방식을 보다 인터렉티브하게 바꾸어 적극적인 수업참여가 되도록 기여하였다.

IEEE 802.15.4 비컨 가용 방식에 의한 실시간 음성 트래픽 성능 평가 (Performance Evaluation of Real-time Voice Traffic over IEEE 802.15.4 Beacon-enabled Mode)

  • 허윤강;김유진;허재두
    • 대한임베디드공학회논문지
    • /
    • 제2권1호
    • /
    • pp.43-52
    • /
    • 2007
  • IEEE 802.15.4 specification which defines low-rate wireless personal area network(LR-WPAN) has application to home or building automation, remote control and sensing, intelligent management, environmental monitoring, and so on. Recently, it has been considered as an alternative technology to provide multimedia services such as automation via voice recognition, wireless headset and wireless camera for surveillance. In order to evaluate capability of voice traffic on the IEEE 802.15.4 LR-WPAN, we supposed two scenarios, voice traffic only and coexistence of voice and sensing traffic. For both cases we examined delay and packet loss rate in case of with and without acknowledgement, and various beacon period varying with beacon and superframe order values. In LR-WPAN with voice devices only, total 5 voice devices could be applicable and in the other case, i.e., coexisted cases of voice and sensor devices, a voice device was able to coexist with about 60 sensor devices.

  • PDF

VoiceXML VUI Browser 설계/구현 (Design and Implementation of VoiceXML VUI Browser)

  • 장민석;예상후
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 추계종합학술대회
    • /
    • pp.788-791
    • /
    • 2002
  • 현재의 웹 환경은 HTML로 구성이 되어있으며 이로 인해 하이퍼링크를 따라가기 위해 마우스 클릭을 통해 작업하는 GUI 환경이 주를 이룬다. 하지만 이러한 방법은 인간이 가장 손쉽게 사용하는 음성과 비교해 볼 때 상당히 불편한 축에 속한다. 본 논문에서는 이를 해결하기 위해 현재 무르익은 음성인식/합성 기술과 전화기를 통해 정보를 제공하고자 하는 XML의 파생언어인 VoiceXML을 이용하여, 현재의 HTML주축인 GUI 웹 환경을 VoiceXML을 이용하여 VUI(Voice User Interface) 환경으로 전환해 주는 VoiceXML VUI Browser를 설계/구현하였다.

  • PDF

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

오피니언 마이닝 알고리즘 기반 음성인식 인터뷰 모델의 설계 및 구현 (Design And Implementation of a Speech Recognition Interview Model based-on Opinion Mining Algorithm)

  • 김규호;김희민;이기영;임명재;김정래
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.225-230
    • /
    • 2012
  • 오피니언 마이닝은 기존의 데이터 마이닝 기술을 활용하여 웹 상에 개재된 블로그, 상품평등에 나타난 저자의 의견을 추출하는 분야로써 텍스트의 주제를 판단하는 것이 아닌 주제에 대한 저자의 태도를 판단하는 기술이다. 본 논문에서는 오피니언 마이닝 알고리즘과 공개된 음성인식 API을 사용하여 텍스트가 아닌 음성의 대한 데이터의 감정을 판단하기 위해 제안했다. 이 시스템은 공개된 Google Voice Recognition API와 주제어와 관련된 순위화 알고리즘, 개선된 극성 판단 알고리즘을 통하여 설계하고, 이를 바탕으로 음성인식 인터뷰 모델을 구현한다.

전투기용 음성명령 시스템에 대한 연구 (A Study on Cockpit Voice Command System for Fighter Aircraft)

  • 김성우;서민기;오영환;김봉규
    • 한국항공우주학회지
    • /
    • 제41권12호
    • /
    • pp.1011-1017
    • /
    • 2013
  • 음성은 사람의 가장 자연스러운 정보 전달 수단이며, 음성인식 기술은 사람이 기계를 사용하는데 있어 편의성을 높이기 위해 필요성이 점차 증대되고 있다. 현대 전투기의 조종석은 디지털 기술의 발달로 인하여 항공전자 장비의 기능이 다양하고 복잡해지고 있으며, 전투기를 조종하여 공격 임무를 수행해야 하는 조종사에게 항공전자 장비의 운용으로 인한 임무 부하량이 증대되기 마련이다. 따라서 음성인식 기술을 이용하여 항공전자장비를 운용하게 되면, 조종사는 공격 임무에 더 많은 시간과 노력을 할애할 수 있게 된다. 본 연구는 전투기 조종석에 적용 가능한 음성명령 시스템을 개발하고, 검증환경을 구축하여 음성명령 시스템의 기능 및 성능을 검증한 것이다.

Emotion Recognition Implementation with Multimodalities of Face, Voice and EEG

  • Udurume, Miracle;Caliwag, Angela;Lim, Wansu;Kim, Gwigon
    • Journal of information and communication convergence engineering
    • /
    • 제20권3호
    • /
    • pp.174-180
    • /
    • 2022
  • Emotion recognition is an essential component of complete interaction between human and machine. The issues related to emotion recognition are a result of the different types of emotions expressed in several forms such as visual, sound, and physiological signal. Recent advancements in the field show that combined modalities, such as visual, voice and electroencephalography signals, lead to better result compared to the use of single modalities separately. Previous studies have explored the use of multiple modalities for accurate predictions of emotion; however the number of studies regarding real-time implementation is limited because of the difficulty in simultaneously implementing multiple modalities of emotion recognition. In this study, we proposed an emotion recognition system for real-time emotion recognition implementation. Our model was built with a multithreading block that enables the implementation of each modality using separate threads for continuous synchronization. First, we separately achieved emotion recognition for each modality before enabling the use of the multithreaded system. To verify the correctness of the results, we compared the performance accuracy of unimodal and multimodal emotion recognitions in real-time. The experimental results showed real-time user emotion recognition of the proposed model. In addition, the effectiveness of the multimodalities for emotion recognition was observed. Our multimodal model was able to obtain an accuracy of 80.1% as compared to the unimodality, which obtained accuracies of 70.9, 54.3, and 63.1%.

구글, 네이버, 다음 카카오 API 활용앱의 표준어 및 방언 음성인식 기초 성능평가 (A Basic Performance Evaluation of the Speech Recognition APP of Standard Language and Dialect using Google, Naver, and Daum KAKAO APIs)

  • 노희경;이강희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권12호
    • /
    • pp.819-829
    • /
    • 2017
  • 본 논문에서는 음성인식 기술의 현황을 소개하고 기본적인 음성인식 기술과 알고리즘을 먼저 알아본 뒤에, 음성인식 기술에 필요한 API의 코드 흐름에 대해 설명을 할 것이다. 음성인식 API중에 가장 유명한 검색엔진을 가진 구글, 네이버 다음 카카오 각각의 Application Programming Interface(API)를 안드로이드 스튜디오 툴을 이용하여 음성인식이 가능한 앱을 만든다. 그런 뒤 성별, 나이별, 지역별에 따라 사람들의 표준어, 방언에 대한 음성인식 실험을 하여 음성 인식 정확도를 표로 정리한다. 방언에 대한 실험 지역으로는 방언의 정도가 심한 경상도, 충청도, 전라도 방언에 대해 실험하였고, 표준화된 방언를 기준으로 비교 실험을 진행하였다. 결과적으로 나온 문장에 따라 띄어쓰기, 받침, 조사, 단어를 기반으로 문장의 정확성을 확인하여 각각의 오류의 개수를 숫자로 표현하였다. 결과적으로 방언과 표준어의 음성 인식률에 따라 각각의 API의 장점에 대해서 소개하고, 어떤 상황에서 가장 효율적으로 사용할지에 대해 기본적인 틀을 마련하고자 한다.

헬스케어 로봇으로의 응용을 위한 음색기반의 감정인식 알고리즘 구현 (Implementation of the Timbre-based Emotion Recognition Algorithm for a Healthcare Robot Application)

  • 공정식;권오상;이응혁
    • 전기전자학회논문지
    • /
    • 제13권4호
    • /
    • pp.43-46
    • /
    • 2009
  • 음성신호는 화자에 대한 고유한 정보와 주변의 음향환경에 대한 정보는 물론 감정과 피로도 등 다양한 정보가 포함되어 있다. 이에 음성신호를 이용한 연구분야에서 감정 상태를 파악하기 위한 연구가 지속되어 왔다. 이에 본 논문에서는 화자의 감정을 인식하기 위해 ETSI의 3GPP2 표준코덱인 Selectable Mode Vocoder(SMV)를 분석한다. 이를 기반으로 감정 인식에 효과적인 특징들을 제안한다. 이후 선정된 특징 벡터를 이용하여 Gaussian Mixture Model(GMM) 기반의 감정 인식 알고리즘을 개발하고 Mixture component 개수를 변화시키면서 성능을 검증한다.

  • PDF