• 제목/요약/키워드: voice command

검색결과 96건 처리시간 0.028초

Interface Modeling for Digital Device Control According to Disability Type in Web

  • Park, Joo Hyun;Lee, Jongwoo;Lim, Soon-Bum
    • Journal of Multimedia Information System
    • /
    • 제7권4호
    • /
    • pp.249-256
    • /
    • 2020
  • Learning methods using various assistive and smart devices have been developed to enable independent learning of the disabled. Pointer control is the most important consideration for the disabled when controlling a device and the contents of an existing graphical user interface (GUI) environment; however, difficulties can be encountered when using a pointer, depending on the disability type; Although there are individual differences depending on the blind, low vision, and upper limb disability, problems arise in the accuracy of object selection and execution in common. A multimodal interface pilot solution is presented that enables people with various disability types to control web interactions more easily. First, we classify web interaction types using digital devices and derive essential web interactions among them. Second, to solve problems that occur when performing web interactions considering the disability type, the necessary technology according to the characteristics of each disability type is presented. Finally, a pilot solution for the multimodal interface for each disability type is proposed. We identified three disability types and developed solutions for each type. We developed a remote-control operation voice interface for blind people and a voice output interface applying the selective focusing technique for low-vision people. Finally, we developed a gaze-tracking and voice-command interface for GUI operations for people with upper-limb disability.

기존 전술 무전기를 이용한 전술 데이터 통신 성능 실험 (The Performance Experiments on the Tactical Data Communication over the Legacy Radio Systems)

  • 심동섭;강경성;김기형
    • 한국군사과학기술학회지
    • /
    • 제13권2호
    • /
    • pp.243-251
    • /
    • 2010
  • The military has been putting great efforts into applying data communication on existing voice communication systems being used in NCW(Network Centric Warfare). Data communication will be an effective choice in one of many effort to yield a minimum kill chain, comparing to legacy voice communications, when tactical units conduct their missions. However, the required budget will be enormous, in case of the replacement of a lot of legacy communication systems with new one. As a cost-effective alternative, the tactical data communication systems using the conventional radio systems instead of the development of new radio systems has been proposed. It is mandatory, though, to ensure QoS while maintaining data communication by making use of legacy radio systems already in use. This paper focuses on the performance issues experimented and analyzed for tactical data communication through the legacy radio systems as the first step towards guaranteed QoS. We have conducted various experiments such as the transmission error rate on certain tactical messages, performance evaluation of redundant transfers, the relationship between the transmission frame size and rate of error, the identification of error points in the transmission frame, and techniques to reduce the errors in both hopping and non-hopping modes. As a result of the performance experiments, The adaptive communication module which decides the redundant transmission or the Forward Error Correction(FEC) technique by analyzing channel status and current transmission status(hopping/non-hopping) of the legacy radio should be designed. the FEC technique in non-hopping, and the redundant transmission technique in hopping mode was recommended from the result of experiment with the frame size is 20bytes in non-hopping and 10Bytes frame size in hopping mode.

Human-Computer Interaction Based Only on Auditory and Visual Information

  • Sha, Hui;Agah, Arvin
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제2권4호
    • /
    • pp.285-297
    • /
    • 2000
  • One of the research objectives in the area of multimedia human-computer interaction is the application of artificial intelligence and robotics technologies to the development of computer interfaces. This involves utilizing many forms of media, integrating speed input, natural language, graphics, hand pointing gestures, and other methods for interactive dialogues. Although current human-computer communication methods include computer keyboards, mice, and other traditional devices, the two basic ways by which people communicate with each other are voice and gesture. This paper reports on research focusing on the development of an intelligent multimedia interface system modeled based on the manner in which people communicate. This work explores the interaction between humans and computers based only on the processing of speech(Work uttered by the person) and processing of images(hand pointing gestures). The purpose of the interface is to control a pan/tilt camera to point it to a location specified by the user through utterance of words and pointing of the hand, The systems utilizes another stationary camera to capture images of the users hand and a microphone to capture the users words. Upon processing of the images and sounds, the systems responds by pointing the camera. Initially, the interface uses hand pointing to locate the general position which user is referring to and then the interface uses voice command provided by user to fine-the location, and change the zooming of the camera, if requested. The image of the location is captured by the pan/tilt camera and sent to a color TV monitor to be displayed. This type of system has applications in tele-conferencing and other rmote operations, where the system must respond to users command, in a manner similar to how the user would communicate with another person. The advantage of this approach is the elimination of the traditional input devices that the user must utilize in order to control a pan/tillt camera, replacing them with more "natural" means of interaction. A number of experiments were performed to evaluate the interface system with respect to its accuracy, efficiency, reliability, and limitation.

  • PDF

스펙트로그램을 이용한 CNN 음성인식 모델 (Speech Recognition Model Based on CNN using Spectrogram)

  • 정원석;이행우
    • 한국전자통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2024
  • 본 논문에서는 명령어 음성신호의 인식 성능을 개선하기 위한 새로운 합성곱 신경망(CNN: Convolutional Neural Network) 모델을 제안한다. 이 방법은 입력신호의 단구간 푸리에 변환(STFT: Short-Time Fourier Transform) 후 스펙트로그램 이미지를 구하고 CNN 모델을 이용한 지도학습을 통하여 명령어 인식 성능을 개선하였다. 입력신호를 단시간 구간별로 푸리에 변환한 다음 스펙트로그램 이미지를 구하고 CNN 딥러닝 모델을 이용하여 다중 분류 학습을 수행한다. 이는 시간영역 음성신호를 특성이 잘 표현되도록 주파수영역으로 변환하고 변환 파라미터에 대한 스펙트로그램 이미지를 이용하여 딥러닝 훈련을 수행함으로써 명령어를 효과적으로 분류한다. 본 연구에서 제안한 음성인식시스템의 성능을 검증하기 위하여 Tensorflow와 Keras 라이브러리를 사용한 시뮬레이션 프로그램을 작성하고 모의실험을 수행하였다. 실험 결과, 제안한 심층학습 알고리즘을 이용하면 92.5%의 정확도를 얻을 수 있는 것으로 확인되었다.

무선 셀룰라 시스템의 통합된 서비스를 수용하기 위한 적응 및 고정 스텝 크기 전력제어 방법의 성능분석 (Performance Of Adaptive and Fixed Step Size Power Control Schemes Accommodating Integrated Voice/Video/Data in Wireless Cellular Systems)

  • 김정호
    • 한국통신학회논문지
    • /
    • 제29권1A호
    • /
    • pp.9-17
    • /
    • 2004
  • 본 논문에서는 음성, 비디오, 데이터를 수용하는 적응 및 고정 스텝 크기 전력제어(PC; Power control) 방법을 각각 두 가지 (기존 IS-95와 W-CDMA방법) 전력제어 명령 갱신율에 따른 성능을 평가하고, 통합된 음성/비디오/데이터 트래픽들 사이에 상호 미치는 영향을 분석하기 위하여 요구되는 최소 전력제어 문턱 값을 유도하고, 전력제어 에러가 채널 품질에 미치는 영향에 대해서 살펴보았다. 고속의 낮은 에러율을 갖는 서비스는 타 트래픽의 무선 링크 품질에 상당한 영향을 미칠 수 있으므로 음성/비디오/데이터 트래픽에 적응적 스텝 크기 전력제어 방법을 적용하면 고정 스텝 크기 전력제어 방법에 비해 증가된 용량을 얻을 수 있다. 또한 주어진 무선 링크 outage 확률을 만족시키기 위하여 고정 스텝 크기 방법보다 적은 전력의 증가가 요구되기 때문에 타 트래픽의 무선 채널에 보다 낮은 간섭전력을 발생시키게 된다.

스마트 거울의 제작을 통해 이루어진 공학 교육 실천 방법론에 관한 연구 (A Study on the Practical Methodology of Engineering Education through the Making of Smart Mirror)

  • 서명덕;권지영;장은영
    • 실천공학교육논문지
    • /
    • 제10권1호
    • /
    • pp.9-15
    • /
    • 2018
  • 음성 인식 기반 API를 이용하여 디지털 사이니지(Digital Signage)를 구성하고, 상용화된 다른 제품들과 차별되도록 사용자의 음성 명령으로 날씨, 지도, 운동 정보, 일정, 영상 등의 정보를 얻는 VRSM(Voice Recognition Smart Mirror)을 제안하여, 독자적인 졸업인증제의 결과물로 평가받는 과정을 통해, 공학교육의 효과적인 실천 방안을 제시한다. 전공에서 2인 1조로 3학기동안 진행되는 작품 설계 및 제작 기회를 경험하였다. 종합설계를 통해 공학적 접근 방법과 창의적 사고 기회를 경험하였으며, 그 중간 결과에 대해 본 학회의 학술대회에 참가하여 우수 학술상을 수상하였고, 기타 학회의 논문 경진대회에서도 입상의 결과를 얻었다. 이 과정을 통해 얻어진 실무 능력의 향상이 자신감과 취업 기회 획득에 유리함을 실제 취업들을 통해 입증하였다.

스마트 스피커 대상 가청 주파수 대역을 활용한 적대적 명령어 공격 방법 제안 (Proposal of Hostile Command Attack Method Using Audible Frequency Band for Smart Speaker)

  • 박태준;문종섭
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.1-9
    • /
    • 2022
  • 최근 스마트 스피커의 기능이 다양해지면서 스마트 스피커의 보급률이 증가하고 있다. 보급이 증가함에 따라 스마트 스피커에 대해 비정상적인 행위를 발생시키는 기법이 제안되고 있으며 여러 가지 공격 중 Voice Controllable System(VCS)에 대해 비정상적인 행위를 발생시키는 DolphinAttack은 초음파(f>20kHz)를 이용하여 사용자의 인식 없이 VCS를 제3자가 제어하는 방법이다. 하지만 기존의 제어 방법은 초음파 대역을 사용하기 때문에 초음파 신호를 출력할 수 있는 초음파 스피커나 초음파 전용 장비의 설치가 필요했다. 본 논문에서는 추가적인 장비, 즉, 초음파 장비의 설치 없이 사람의 가청 주파수 대역이지만 노화에 의해 듣기 힘든 주파수(18k~20kHz)로 변조된 음성신호를 출력하여, 스마트 스피커를 제어하는 방법을 제안한다. 스마트 스피커의 경우 마이크가 내장되어 있어, 변조된 음성신호를 수신할 수 있다. 본 논문에서 제안한 방법으로 수행한 결과, 가청 대역임에도 불구하고 사람은 음성명령을 인식하지 못하였으며, 스마트 스피커에 대해 82~96%의 확률로 제어가 가능했다.

인공지능 스피커를 활용한 주문결제 시스템의 설계 및 구현 (Design and Implementation of Order Settlement System Using Artificial Intelligence Speaker)

  • 김동현;최병현;반재훈
    • 한국전자통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1181-1186
    • /
    • 2019
  • 최근에 패스트푸드점, 개인이 운영하는 소규모 식당이나 카페 등에서도 키오스크를 이용하여 주문하고 결제하는 모습들을 흔하게 볼 수 있다. 팔을 사용하는데 불편한 장애인과 휠체어에 앉아 있는 장애인들은 그래픽 버튼을 눌러 사용하기가 어렵고, 노인들은 나이가 많아질수록 새로운 정보를 받아들이는 인지능력이 떨어져 사용하기에 불편함을 느낀다. 본 논문에서는 이러한 문제점을 보완하기 위해 사용자가 키오스크와 상호작용을 할 때 기본적으로 제공되는 시각적인 명령요소에 인공지능 스피커의 음성적 명령요소를 추가하여 키오스크에서 음성으로 명령을 수행할 수 있는 주문결제 시스템을 설계하고 구현한다.

GUI 어플리케이션 제어를 위한 제스처 인터페이스 모델 설계 (Design of Gesture based Interfaces for Controlling GUI Applications)

  • 박기창;서성채;정승문;강임철;김병기
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.55-63
    • /
    • 2013
  • 사용자 인터페이스 기술은 CLI(Command Line Interfaces), GUI(Graphical User Interfaces)를 거쳐 NUI(Natural User Interfaces)로 발전하고 있다. NUI는 멀티터치, 모션 트래킹, 음성, 스타일러스 등 다양한 입력형식을 사용한다. 기존 GUI 어플리케이션에 NUI를 적용하기 위해서는 이러한 장치관련 라이브러리 추가, 관련 코드 수정, 디버그 등의 과정이 필요하다. 본 논문에서는 기존 이벤트 기반 GUI 어플리케이션의 수정 없이 제스처 기반 인터페이스를 적용할 수 있는 모델을 제안한다. 또한 제안한 모델을 명세하기 위한 XML 스키마를 제시하고, 3D 제스처와 마우스 제스처 프로토타입 개발을 통해 제안모델의 활용방안을 보인다.

Soar (State Operator and Result)와 ROS 연계를 통해 거절가능 HRI 태스크의 휴머노이드로봇 구현 (Implementation of a Refusable Human-Robot Interaction Task with Humanoid Robot by Connecting Soar and ROS)

  • 당반치엔;트란트렁틴;팜쑤언쭝;길기종;신용빈;김종욱
    • 로봇학회논문지
    • /
    • 제12권1호
    • /
    • pp.55-64
    • /
    • 2017
  • This paper proposes combination of a cognitive agent architecture named Soar (State, operator, and result) and ROS (Robot Operating System), which can be a basic framework for a robot agent to interact and cope with its environment more intelligently and appropriately. The proposed Soar-ROS human-robot interaction (HRI) agent understands a set of human's commands by voice recognition and chooses to properly react to the command according to the symbol detected by image recognition, implemented on a humanoid robot. The robotic agent is allowed to refuse to follow an inappropriate command like "go" after it has seen the symbol 'X' which represents that an abnormal or immoral situation has occurred. This simple but meaningful HRI task is successfully experimented on the proposed Soar-ROS platform with a small humanoid robot, which implies that extending the present hybrid platform to artificial moral agent is possible.