• 제목/요약/키워드: voice commands

검색결과 47건 처리시간 0.026초

Speaker Detection and Recognition for a Welfare Robot

  • Sugisaka, Masanori;Fan, Xinjian
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.835-838
    • /
    • 2003
  • Computer vision and natural-language dialogue play an important role in friendly human-machine interfaces for service robots. In this paper we describe an integrated face detection and face recognition system for a welfare robot, which has also been combined with the robot's speech interface. Our approach to face detection is to combine neural network (NN) and genetic algorithm (GA): ANN serves as a face filter while GA is used to search the image efficiently. When the face is detected, embedded Hidden Markov Model (EMM) is used to determine its identity. A real-time system has been created by combining the face detection and recognition techniques. When motivated by the speaker's voice commands, it takes an image from the camera, finds the face inside the image and recognizes it. Experiments on an indoor environment with complex backgrounds showed that a recognition rate of more than 88% can be achieved.

  • PDF

비전을 활용한 사람을 따라다니는 로봇의 실내측위에 관한 연구 (The Study on Indoor Localization for Robots following Human using Vision Applications)

  • 전봉기
    • 한국정보통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.1370-1374
    • /
    • 2013
  • 주인을 스스로 따라다니는 로봇 캐리어가 등장하여 화제가 되었다. 최근에는 사람을 따라다니는 청소기가 로봇청소기가 출시되었다. 로봇 휠체어 등 주인이나 빛을 인식하여 따라다니는 로봇들이 다양한 응용에서 사용되고 있다. 본 연구에서는 로봇이 물건을 싣고 주인을 따라다니는 로봇을 개발하는 과정에서 로봇의 귀환문제를 다루고자 한다. 이 논문에서는 영상처리기술을 이용하여 로봇의 위치를 파악할 수 있는 실내 측위 방법을 제안한다.

비전을 활용한 사람을 따라다니는 로봇의 실내측위에 관한 연구 (The study of indoor localization for Robot following human using vision application)

  • 전봉기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.340-342
    • /
    • 2013
  • 주인을 스스로 따라다니는 로봇 캐리어가 등장하여 화제가 되었다. 최근에는 사람을 따라다니는 청소기가 로봇청소기가 출시되었다. 로봇 휠체어 등 주인이나 빛을 인식하여 따라다니는 로봇들이 다양한 응용에서 사용되고 있다. 본 연구에서는 로봇이 물건을 싣고 주인을 따라다니는 로봇을 개발하는 과정에서 로봇의 귀환문제를 다루고자 한다.

  • PDF

크로스 링크 기구를 적용한 소형 식사지원 로봇 (Compact Robotic Arm to Assist with Eating using a Closed Link Mechanism)

  • 강철웅;임종환
    • 한국정밀공학회지
    • /
    • 제20권3호
    • /
    • pp.202-209
    • /
    • 2003
  • We succeeded to build a cost effective assistance robotic arm with a compact and lightweight body. The robotic arm has three joints, and the tip of robotic arm to install tools consists of a closed link mechanism, which consisted of two actuators and several links. The robotic arm has been made possible by the use of actuators typically used in radio control devices. The controller of the robotic arm consists of a single chip PIC only. The robotic arm has a friendly user interface, as the operators are aged and disabled in most cases. The operator can manipulate the robotic arm by voice commands or by pressing a push button. The robotic arm has been successfully prototyped and tested on an elderly patient to assist with eating. The results of field test were satisfactory.

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

Implementation of Speech Recognition and Flight Controller Based on Deep Learning for Control to Primary Control Surface of Aircraft

  • Hur, Hwa-La;Kim, Tae-Sun;Park, Myeong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권9호
    • /
    • pp.57-64
    • /
    • 2021
  • 본 논문에서는 음성 명령을 인식하여 비행기의 1차 조종면을 제어할 수 있는 장치를 제안한다. 음성 명령어는 19개의 명령어로 구성되며 총 2,500개의 데이터셋을 근간으로 학습 모델을 구성한다. 학습 모델은 TensorFlow 기반의 Keras 모델의 Sequential 라이브러리를 이용하여 CNN 모델로 구성되며, 학습에 사용되는 음성 파일은 MFCC 알고리즘을 이용하여 특징을 추출한다. 특징을 인식하기 위한 2단계의 Convolution layer 와 분류를 위한 Fully Connected layer는 2개의 dense 층으로 구성하였다. 검증 데이터셋의 정확도는 98.4%이며 테스트 데이터셋의 성능평가에서는 97.6%의 정확도를 보였다. 또한, 라즈베리 파이 기반의 제어장치를 설계 및 구현하여 동작이 정상적으로 이루어짐을 확인하였다. 향후, 음성인식 자동 비행 및 항공정비 분야의 가상 훈련환경으로 활용될 수 있을 것이다.

음성인식을 이용한 상황정보 기반의 스마트 흠 개인화 서비스 (Smart Home Personalization Service based on Context Information using Speech)

  • 김종훈;송창우;김주현;정경용;임기욱;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.80-89
    • /
    • 2009
  • 유비쿼터스 컴퓨팅이 발전하면서, 스마트 홈 환경에서 개인화 서비스의 중요성이 부각되고 있다. 본 논문에서는 음성인식을 이용한 상황정보 기반의 스마트 홈 개인화 서비스를 제안한다. 제안된 서비스에서는 OSGi 프레임워크 기반의 서비스 이동 관리자, 서비스 관리자, 음성인식 관리자, 위치 관리자로 구성된다. 스마트 홈 공간을 정의하고 정의된 공간에서 가장 많이 사용하는 유닛의 명령어 및 센서 정보, 사용자 정보를 상황정보로 구성하였다. 특히, 본 서비스는 음성인식의 훈련모델과 패턴매칭 분석을 통하여 RFID로 구별하기 어려운 동일한 공간의 사용자들을 구별하고 상황 및 개인 정보를 사용하여 스마트 홈 어플리케이션의 개인화 서비스를 지원한다. 실험 결과, 동일 공간에서 사용자 확인을 통한 OSGi 기반의 자동화되고 개인화 된 서비스가 가능함을 확인하였다.

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF

Soar (State Operator and Result)와 ROS 연계를 통해 거절가능 HRI 태스크의 휴머노이드로봇 구현 (Implementation of a Refusable Human-Robot Interaction Task with Humanoid Robot by Connecting Soar and ROS)

  • 당반치엔;트란트렁틴;팜쑤언쭝;길기종;신용빈;김종욱
    • 로봇학회논문지
    • /
    • 제12권1호
    • /
    • pp.55-64
    • /
    • 2017
  • This paper proposes combination of a cognitive agent architecture named Soar (State, operator, and result) and ROS (Robot Operating System), which can be a basic framework for a robot agent to interact and cope with its environment more intelligently and appropriately. The proposed Soar-ROS human-robot interaction (HRI) agent understands a set of human's commands by voice recognition and chooses to properly react to the command according to the symbol detected by image recognition, implemented on a humanoid robot. The robotic agent is allowed to refuse to follow an inappropriate command like "go" after it has seen the symbol 'X' which represents that an abnormal or immoral situation has occurred. This simple but meaningful HRI task is successfully experimented on the proposed Soar-ROS platform with a small humanoid robot, which implies that extending the present hybrid platform to artificial moral agent is possible.

디지털 개인비서 동향과 미래 (Trends and Future of Digital Personal Assistant)

  • 권오욱;이기영;이요한;노윤형;조민수;황금하;임수종;최승권;김영길
    • 전자통신동향분석
    • /
    • 제36권1호
    • /
    • pp.1-11
    • /
    • 2021
  • In this study, we introduce trends in and the future of digital personal assistants. Recently, digital personal assistants have begun to handle many tasks like humans by communicating with users in human language on smart devices such as smart phones, smart speakers, and smart cars. Their capabilities range from simple voice commands and chitchat to complex tasks such as device control, reservation, ordering, and scheduling. The digital personal assistants of the future will certainly speak like a person, have a person-like personality, see, hear, and analyze situations like a person, and become more human. Dialogue processing technology that makes them more human-like has developed into an end-to-end learning model based on deep neural networks in recent years. In addition, language models pre-trained from a large corpus make dialogue processing more natural and better understood. Advances in artificial intelligence such as dialogue processing technology will enable digital personal assistants to serve with more familiar and better performance in various areas.