• 제목/요약/키워드: Speech Interface

검색결과 251건 처리시간 0.029초

텔레메틱스 단말기 내의 오디오/비디오 명령처리를 위한 임베디드용 음성인식 시스템의 구현 (Implementation of Embedded Speech Recognition System for Supporting Voice Commander to Control an Audio and a Video on Telematics Terminals)

  • 권오일;이흥규
    • 대한전자공학회논문지TC
    • /
    • 제42권11호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 논문에서는 차량 내에서 음성인식 인터페이스를 이용한 오비오, 비디오와 같은 응용서비스 처리를 위해 임베디드형 음성인식 시스템을 구현한다. 임베디드형 음성인식 시스템은 DSP 보드로 제작 포팅된다. 이는 음성 인식률이 마이크, 음성 코덱 등의 H/W의 영향을 받기 때문이다. 또한 차량 내 잡음을 효율적으로 제거하기 위한 최적의 환경을 구축하고, 이에 따른 테스트 환경을 최적화한다. 본 논문에서 제안된 시스템은 차량 내에서의 신뢰적인 음성인식을 위해 잡음제거 및 특징보상 기술을 적용하고 임베디드 환경에서의 속도 및 성능 향상을 위한 문맥 종속 믹스쳐 공유 음향 모델링을 적용한다. 성능평가는 일반 실험실 환경에서의 인식률과 실제 차량 내에서의 실차 테스트를 통해 검증되었다.

DSK50을 이용한 16kbps ADPCM 구현 (Implementation of 16Kpbs ADPCM by DSK50)

  • 조윤석;한경호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1996년도 하계학술대회 논문집 B
    • /
    • pp.1295-1297
    • /
    • 1996
  • CCITT G.721, G.723 standard ADPCM algorithm is implemented by using TI's fixed point DSP start kit (DSK). ADPCM can be implemented on a various rates, such as 16K, 24K, 32K and 40K. The ADPCM is sample based compression technique and its complexity is not so high as the other speech compression techniques such as CELP, VSELP and GSM, etc. ADPCM is widely applicable to most of the low cost speech compression application and they are tapeless answering machine, simultaneous voice and fax modem, digital phone, etc. TMS320C50 DSP is a low cost fixed point DSP chip and C50 DSK system has an AIC (analog interface chip) which operates as a single chip A/D and D/A converter with 14 bit resolution, C50 DSP chip with on-chip memory of 10K and RS232C interface module. ADPCM C code is compiled by TI C50 C-compiler and implemented on the DSK on-chip memory. Speech signal input is converted into 14 bit linear PCM data and encoded into ADPCM data and the data is sent to PC through RS232C. The ADPCM data on PC is received by the DSK through RS232C and then decoded to generate the 14 bit linear PCM data and converted into the speech signal. The DSK system has audio in/out jack and we can input and out the speech signal.

  • PDF

음성기술을 이용한 십자말 게임 (Crossword Game Using Speech Technology)

  • 유일수;김동주;홍광석
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.213-218
    • /
    • 2003
  • 본 논문에서는 음성으로 동작하는 십자말 게임을 구현하였다. 십자말 게임에 사용되는 문제의 배열은 본 논문에서 제안한 CAA(Cross Array Algorithm)에 의해 생성된다. CAA는 영역별 사전을 이용하여 십자말 배열을 매번 랜덤하게 자동으로 생성한다. CAA에 의한 배열 생성을 위해 본 논문에서는 7개 영역에 대한 사전을 구축하였다. 구현된 십자말 게임은 마우스나 키보드뿐만 아니라 음성으로 동작하도록 설계되었다. 음성에 의한 인터페이스는 음성인식 및 합성 기술이 사용되었으며, 사용자에게 보다 편리한 기능을 제공한다. CAA의 성능평가는 십자말 배열을 생성하는데 소요되는 연산시간의 측정과, 십자말 배열의 단어 생성율을 측정함으로써 수행되었다. CAA의 성능 평가 결과, 모든 창에 대하여 연산시간은 약 10ms 내외였으며, 단어 생성율은 약 50%를 보였다. 또한, 음성인식 실험 결과는 각 창의 크기가 "$7{\times}7$, "$9{\times}9$", "$11{\times}11$"일 때, 각각 98.5%, 97.6%, 96.2%의 인식률을 보였다., 97.6%, 96.2%의 인식률을 보였다.

제스처 및 음성 인식을 이용한 윈도우 시스템 제어에 관한 연구 (Study about Windows System Control Using Gesture and Speech Recognition)

  • 김주홍;진성일이남호이용범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1289-1292
    • /
    • 1998
  • HCI(human computer interface) technologies have been often implemented using mouse, keyboard and joystick. Because mouse and keyboard are used only in limited situation, More natural HCI methods such as speech based method and gesture based method recently attract wide attention. In this paper, we present multi-modal input system to control Windows system for practical use of multi-media computer. Our multi-modal input system consists of three parts. First one is virtual-hand mouse part. This part is to replace mouse control with a set of gestures. Second one is Windows control system using speech recognition. Third one is Windows control system using gesture recognition. We introduce neural network and HMM methods to recognize speeches and gestures. The results of three parts interface directly to CPU and through Windows.

  • PDF

키넥트를 사용한 NUI 설계 및 구현 (A Design and Implementation of Natural User Interface System Using Kinect)

  • 이새봄;정일홍
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.473-480
    • /
    • 2014
  • 오늘날 컴퓨터의 사용이 대중화 되면서 키보드나 마우스와 같은 기존의 사용자 인터페이스에 비해 보다 편리하고 자연스러운 인터페이스에 대한 연구가 활발히 진행되면서, 최근 마이크로소프트의 동작 인식 모듈인 키넥트에 대한 관심이 높아지고 있다. 키넥트는 내장된 센서를 통해 신체의 주요 관절의 움직임 및 깊이 정보를 인식할 수 있으며 내장 마이크를 통해 간단한 음성인식도 가능하다. 본 논문에서는 OpenCV 라이브러리를 키넥트에 접목하여, 키넥트의 깊이 데이터, skeleton tracking, labeling 알고리즘으로 손 영역 추출 및 움직임의 정보를 인식하여 가상 마우스와 가상 키보드를 구현하고, 음성인식을 통해 기존 입력 장치의 기능을 구현하는 것을 목표로 한다.

휴대용 어음청력검사 시스템 구현 (Development of Ambulatory Speech Audiometric System)

  • 신승원;김경섭;이상민;임원진;이정환;김동준
    • 전기학회논문지
    • /
    • 제58권3호
    • /
    • pp.645-654
    • /
    • 2009
  • In this study, we present an efficient ambulatory speech audiometric system to detect one's hearing problems at an earlier stage as possible without his or her visit to the audiometric testing facility such in a hospital or a clinic. To estimate a person's hearing threshold level in terms of speech sound response in his or her local environment, a digital assistant(PDA) device is used to generate the speech sound with implementing audiometric Graphic User Interface(GUI) system. Furthermore, a supra-aural earphone is used to measure a subject's hearing threshold level in terms of speech sound by the compensating the transducer's gain by adopting speech sound calibration system.

원거리 음성인식을 위한 MLLR적응기법 적용 (MLLR-Based Environment Adaptation for Distant-Talking Speech Recognition)

  • 권석봉;지미경;김회린;이용주
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.119-127
    • /
    • 2005
  • Speech recognition is one of the user interface technologies in commanding and controlling any terminal such as a TV, PC, cellular phone etc. in a ubiquitous environment. In controlling a terminal, the mismatch between training and testing causes rapid performance degradation. That is, the mismatch decreases not only the performance of the recognition system but also the reliability of that. Therefore, the performance degradation due to the mismatch caused by the change of the environment should be necessarily compensated. Whenever the environment changes, environment adaptation is performed using the user's speech and the background noise of the changed environment and the performance is increased by employing the models appropriately transformed to the changed environment. So far, the research on the environment compensation has been done actively. However, the compensation method for the effect of distant-talking speech has not been developed yet. Thus, in this paper we apply MLLR-based environment adaptation to compensate for the effect of distant-talking speech and the performance is improved.

  • PDF

발성장애아동을 위한 발성훈련시스템 설계 및 구현 (Design and Implementation of Speech-Training System for Voice Disorders)

  • 정은순;김봉완;양옥렬;이용주
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.97-106
    • /
    • 2001
  • 본 논문에서는 발성장애아의 음성적 특징을 중심으로 컴퓨터 기반 발성훈련시스템을 설계 및 구현하였다. 본 발성훈련시스템은 선행훈련, 발성인지훈련, 발성강화훈련 단계로 구성되어 있으며, 발성장애 아동의 발성의 상황과 레벨을 분석하고 반복학습 및 개별학습이 가능하도록 하였다. 컴퓨터를 기반으로 발성장애아의 음성을 디지털 신호처리하기 위해 음성적 파라미터 즉, 음성의 강도, 음성의 고저, 유 무성음을 추출하였다. 추출된 음성적 파라미터는 이동체의 움직임 벡터 값으로 변환하여 이미지, 애니메이션, 게임적 요소와 같이 시각적으로 피드백 할 수 있도록 하였다.

  • PDF

자율이동로봇의 명령 교시를 위한 HMM 기반 음성인식시스템의 구현 (Implementation of Hidden Markov Model based Speech Recognition System for Teaching Autonomous Mobile Robot)

  • 조현수;박민규;이민철
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.281-281
    • /
    • 2000
  • This paper presents an implementation of speech recognition system for teaching an autonomous mobile robot. The use of human speech as the teaching method provides more convenient user-interface for the mobile robot. In this study, for easily teaching the mobile robot, a study on the autonomous mobile robot with the function of speech recognition is tried. In speech recognition system, a speech recognition algorithm using HMM(Hidden Markov Model) is presented to recognize Korean word. Filter-bank analysis model is used to extract of features as the spectral analysis method. A recognized word is converted to command for the control of robot navigation.

  • PDF

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF