• 제목/요약/키워드: Voice interface

검색결과 298건 처리시간 0.024초

음성인식기술의 노인간병 적용을 위한 정책연구 (A policy study for the voice recognition technology based on elderly health care)

  • 조병철;전수영;김갑년;육현승
    • 디지털융복합연구
    • /
    • 제16권2호
    • /
    • pp.9-17
    • /
    • 2018
  • 본 연구는 음성인식기술이 급격한 고령화를 맞고 있는 우리 사회의 노인문제 해결을 위해 어떻게 활용될 수 있는지를 목표로 삼았다. 국내에서도 본격적으로 고령자들을 위한 공공지원서비스나 민간간병 서비스 등이 확대될 것으로 예상된다. 이 때 음성인식기술은 미디어인터페이스에 익숙하지 못한 노인들에게 다양하게 활용될 수 있다. 이를 위해 본 연구진은 국내의 음성인식기술의 활용가능성과 일본 방문시 노인 간병에서 음성인식기술을 통해 이룬 성과를 조사했다. 특히 간병인들이 보고서를 작성할 때 음성인식기술을 이용해 수기로 작성하던 보고를 대체하여 업무시간을 크게 축소한 바 있는데, 이러한 방법은 국내에서도 쉽게 정책적으로 실행될 수 있다고 판단했으며, 음성인식기술이 탑재된 로봇의 개발을 통해 노인부양의 사회적 비용을 줄여야 한다는 결론 역시 도달했다. 아울러 음성인식기술이 다양한 정서인식기능의 인공지능기반 프로그램과 결합을 통한 다양한 정책이 도모되어야 한다는 사실 역시 제안할 수 있게 되었다.

Red5와 Node.js를 활용한 실시간 음성 및 영상 시스템의 설계 및 구현 (Design and Implementation of Real-time Audio and Video System Using Red5 and Node.js)

  • 김혁진;곽우영
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.159-168
    • /
    • 2014
  • 웹은 문서를 공유하고 전달하는 방식이다. 그러나 현재는 음성/영상 데이터를 실시간으로 전달이 가능하며, 더욱 발전하여 사물과 연동되는 사물 인터넷으로 발전이 되고 있다. 기존의 음성/영상 데이터를 전달하는 프로그램의 경우 이기종 시스템과의 인터페이스, 확장성, 비용에서 많은 제약이 따른다. 본 논문에서는 음성/영상 전달 시스템이 이기종 운영체제의 제약을 개선하며, 기존 ERP 시스템과 호환성 및 확장성이 좋은 오픈소스 기반 시스템을 연구하여 개발한다. 프로그램은 이기종 시스템과의 인터페이스, 확장성을 고려한 방법론으로 프로그램을 설계 및 개발 하며, 시스템 구성 또한 오픈소스 기반의 비용절감과 확장성을 고려한 시스템으로 구성한다. 그러므로 연구 개발된 시스템은 확장성 및 인터페이스에서 우수함을 보이며, 시스템의 설계 및 개발 방법론은 영상회의, 영상채팅, 실시간 HMI(Human Machine Interface), 영상 SNS 등 여러 분야에서 활용이 가능하다.

Human-Computer Interaction Based Only on Auditory and Visual Information

  • Sha, Hui;Agah, Arvin
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제2권4호
    • /
    • pp.285-297
    • /
    • 2000
  • One of the research objectives in the area of multimedia human-computer interaction is the application of artificial intelligence and robotics technologies to the development of computer interfaces. This involves utilizing many forms of media, integrating speed input, natural language, graphics, hand pointing gestures, and other methods for interactive dialogues. Although current human-computer communication methods include computer keyboards, mice, and other traditional devices, the two basic ways by which people communicate with each other are voice and gesture. This paper reports on research focusing on the development of an intelligent multimedia interface system modeled based on the manner in which people communicate. This work explores the interaction between humans and computers based only on the processing of speech(Work uttered by the person) and processing of images(hand pointing gestures). The purpose of the interface is to control a pan/tilt camera to point it to a location specified by the user through utterance of words and pointing of the hand, The systems utilizes another stationary camera to capture images of the users hand and a microphone to capture the users words. Upon processing of the images and sounds, the systems responds by pointing the camera. Initially, the interface uses hand pointing to locate the general position which user is referring to and then the interface uses voice command provided by user to fine-the location, and change the zooming of the camera, if requested. The image of the location is captured by the pan/tilt camera and sent to a color TV monitor to be displayed. This type of system has applications in tele-conferencing and other rmote operations, where the system must respond to users command, in a manner similar to how the user would communicate with another person. The advantage of this approach is the elimination of the traditional input devices that the user must utilize in order to control a pan/tillt camera, replacing them with more "natural" means of interaction. A number of experiments were performed to evaluate the interface system with respect to its accuracy, efficiency, reliability, and limitation.

  • PDF

SALT 기반 음성 브라우저의 설계 및 구현 (Design and Implementation of SALT-based Voice Browser)

  • 이용희;이동우;신희숙;최은정;박준석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.574-576
    • /
    • 2005
  • 정보통신 기기의 발전하면서 소형화, 경량화와 함께 이동성을 갖춘 다양한 차세대 PC 기기들이 나타나고 있다. 기존의 마우스나 키보드를 통한 인터페이스뿐만 아니라 음성, 펜, 제스처 등을 이용한 멀티모달 인터페이스에 대한 요구가 증대되면서 이에 대한 연구가 활발히 이루어지고 있다. 또한 최근의 음성 처리 기술이 발전하고 단말기의 성능이 개선되면서 음성을 이용한 인터페이스에 대한 연구가 활발히 이루어지고 있다. 본 논문에서는 브라우저에서 음성 지원을 위해 제안된 SALT를 기반으로 하여 사용자와 음성 인터페이스가 가능한 음성 브라우저를 설계하고 구현한다.

  • PDF

Three Dimensional Networked Virtual Reailty Architecture Enabling Flexible Configuration Based on Function Distribution

  • Yasuyuki-KIYOSUE;Shohei-SUGAWARA;Shigeki-MASAKI;Susumu-ICHINOSE
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 KOBA 방송기술 워크샵 KOBA Broadcasting Technology Workshop
    • /
    • pp.23.1-28
    • /
    • 1999
  • InterSpaceTM is an advanced networked virtual reality system that presents shared three-dimensional computer graphics (CG) worlds via the Internet where multiple users can enjoy synchronous communications with voice, video and text. Users can control their avatars as a surrogate interface. In InterSpace users can walk around and interact with other people and interact with contents. In this paper, we describe the function-distributed architecture used in InterSpace. The architecture enables flexible configuration of server functions and load distribution. It also allows users to select media and client PCs to switch servers dynamically.

Directional Filter와 Harmonic Filter 기반 화자 분리 (Speaker Separation Based on Directional Filter and Harmonic Filter)

  • 백승은;김진영;나승유;최승호
    • 음성과학
    • /
    • 제12권3호
    • /
    • pp.125-136
    • /
    • 2005
  • Automatic speech recognition is much more difficult in real world. Speech recognition according to SIR (Signal to Interface Ratio) is difficult in situations in which noise of surrounding environment and multi-speaker exists. Therefore, study on main speaker's voice extractions a very important field in speech signal processing in binaural sound. In this paper, we used directional filter and harmonic filter among other existing methods to extract the main speaker's information in binaural sound. The main speaker's voice was extracted using directional filter, and other remaining speaker's information was removed using harmonic filter through main speaker's pitch detection. As a result, voice of the main speaker was enhanced.

  • PDF

AN ANALYSIS OF MMPP/D1, D2/1/B QUEUE FOR TRAFFIC SHAPING OF VOICE IN ATM NETWORK

  • CHOI, DOO IL
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제3권2호
    • /
    • pp.69-80
    • /
    • 1999
  • Recently in telecommunication, BISDN ( Broadband Integrated Service Digital Network ) has received considerable attention for its capability of providing a common interface for future communication needs including voice, data and video. Since all information in BISDN are statistically multiplexed and are transported in high speed by means of discrete units of 53-octet ATM ( asynchronous Transfer Mode ) cells, appropriate traffic control needs. For traffic shaping of voice, the output cell discarding scheme has been proposed. We analyze the scheme with a MMPP/$D_1$, $D_2$/1/B queueing system to obtain performance measures such as loss probability and waiting time distribution.

  • PDF

Reliable and Secure Voice Encryption over GSM Voice Channel

  • Lee, Hoon-Jae;Jang, Won-Tae;Kim, Tae-Yong
    • Journal of information and communication convergence engineering
    • /
    • 제8권1호
    • /
    • pp.64-70
    • /
    • 2010
  • In this paper, we study and develope a special secure Dongle to be adapted in GSM SmartPhone for secure voice communication to the serial 20-pin connector in SmartPhone. We design and implement the Dongle module hardware, firmware, and software including cipher crypto-synchronization and cipher algorithm. Also we study and emulate the SmartPhone GUI software interface including communication software module to the Dongle. Finally, we analyze the performances of crypto-synchronization in some noisy environment and also we test the secure Dongle module.

발성장애아동을 위한 발성훈련시스템 설계 및 구현 (Design and Implementation of Speech-Training System for Voice Disorders)

  • 정은순;김봉완;양옥렬;이용주
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.97-106
    • /
    • 2001
  • 본 논문에서는 발성장애아의 음성적 특징을 중심으로 컴퓨터 기반 발성훈련시스템을 설계 및 구현하였다. 본 발성훈련시스템은 선행훈련, 발성인지훈련, 발성강화훈련 단계로 구성되어 있으며, 발성장애 아동의 발성의 상황과 레벨을 분석하고 반복학습 및 개별학습이 가능하도록 하였다. 컴퓨터를 기반으로 발성장애아의 음성을 디지털 신호처리하기 위해 음성적 파라미터 즉, 음성의 강도, 음성의 고저, 유 무성음을 추출하였다. 추출된 음성적 파라미터는 이동체의 움직임 벡터 값으로 변환하여 이미지, 애니메이션, 게임적 요소와 같이 시각적으로 피드백 할 수 있도록 하였다.

  • PDF

실시간 음성인식 다이얼링 시스템 개발 (Development of a Real-time Voice Recognition Dialing System;)

  • 이세웅;최승호;이미숙;김흥국;오광철;김기철;이황수
    • 정보와 통신
    • /
    • 제10권10호
    • /
    • pp.22-29
    • /
    • 1993
  • This paper describes development of a real-time voice recognition dialing system which can recognize around one hundred word vocabularies in speaker independent mode. The voice recognition algorithm is implemented on a DSP board with a telephone interface plugged in an IBM PC AT/486. In the DSP board, procedures for feature extraction, vector quantization(VQ), and end-point detection are performed simultaneously in every 10msec frame interval to satisfy real-time constraints after the word starting point detection. In addition, we optimize the VQ codebook size and the end-point detection procedure to reduce recognition time and memory requirement. The demonstration system is being displayed in MOBILAB of Korea Mobile Telecom at the Taejon EXPO '93.

  • PDF