• 제목/요약/키워드: Voice interface

검색결과 298건 처리시간 0.025초

미들웨어 기반의 텔레매틱스용 멀티모달 인터페이스 (A Multimodal Interface for Telematics based on Multimodal middleware)

  • 박성찬;안세열;박성수;구명완
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.41-44
    • /
    • 2007
  • In this paper, we introduce a system in which car navigation scenario is plugged multimodal interface based on multimodal middleware. In map-based system, the combination of speech and pen input/output modalities can offer users better expressive power. To be able to achieve multimodal task in car environments, we have chosen SCXML(State Chart XML), a multimodal authoring language of W3C standard, to control modality components as XHTML, VoiceXML and GPS. In Network Manager, GPS signals from navigation software are converted to EMMA meta language, sent to MultiModal Interaction Runtime Framework(MMI). Not only does MMI handles GPS signals and a user's multimodal I/Os but also it combines them with information of device, user preference and reasoned RDF to give the user intelligent or personalized services. The self-simulation test has shown that middleware accomplish a navigational multimodal task over multiple users in car environments.

  • PDF

중국어 학습을 위한 스마트폰 기능성 어플리케이션 설계 및 프로토타입 구현 (Design and Prototype Implementation of a Smartphone Functional Application for Learning Chinese Language)

  • 맹수연;이은령
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권4호
    • /
    • pp.265-272
    • /
    • 2016
  • 중국어 학습에 대한 사회적 관심과 시장이 확대되고 스마트폰 어플리케이션을 기반으로 한 스마트러닝이 교육의 새로운 패러다임으로 자리 잡으면서 중국어 교육을 위한 어플리케이션의 연구와 개발도 활발해지고 있다. 본 논문에서는 스마트폰의 멀티미디어 구현 특성과 사용자 인터렉션 기능을 활용하여 기초적인 중국어 한자를 학습할 수 있는 '중국어 교육용 기능성 어플리케이션'을 설계하고 프로토타입을 구현하여 제시하였다. 중국어 한자 표현, 발음 청취, 음성 녹음 및 비교 청취, 관련 내용 학습, 테스트 등의 기능을 간편한 사용자 인터페이스로 구현하였다. 향후 연구에서는 중국어 회화에 적용될 수 있는 사용자 인터페이스와 학습자 개인별 평가 지수 등을 통해 추가적인 도구 없이도 효과적인 학습이 가능한 프로토타입을 개발할 것이다.

GUI 어플리케이션 제어를 위한 제스처 인터페이스 모델 설계 (Design of Gesture based Interfaces for Controlling GUI Applications)

  • 박기창;서성채;정승문;강임철;김병기
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.55-63
    • /
    • 2013
  • 사용자 인터페이스 기술은 CLI(Command Line Interfaces), GUI(Graphical User Interfaces)를 거쳐 NUI(Natural User Interfaces)로 발전하고 있다. NUI는 멀티터치, 모션 트래킹, 음성, 스타일러스 등 다양한 입력형식을 사용한다. 기존 GUI 어플리케이션에 NUI를 적용하기 위해서는 이러한 장치관련 라이브러리 추가, 관련 코드 수정, 디버그 등의 과정이 필요하다. 본 논문에서는 기존 이벤트 기반 GUI 어플리케이션의 수정 없이 제스처 기반 인터페이스를 적용할 수 있는 모델을 제안한다. 또한 제안한 모델을 명세하기 위한 XML 스키마를 제시하고, 3D 제스처와 마우스 제스처 프로토타입 개발을 통해 제안모델의 활용방안을 보인다.

멀티미디어 인터페이스 기술을 이용한 유아 대상의 체감형 게임 설계 : 신체 놀이 활동 중심 (Interactive Game Designed for Early Child using Multimedia Interface : Physical Activities)

  • 원혜민;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.116-127
    • /
    • 2011
  • 본 논문에서는 유아를 위한 체감형 게임 개발에 필요한 요소로 콘텐츠, 디자인, 음향, 동작인식, 음성인식 기술을 제안하였다. 유아용 체감형 게임은 유아의 감성에 맞춘 교육적 요구가 반영된 콘텐츠와 밝고 친근감 있으면서 사용이 편리한 디자인 요소들이 반영되어야 하고 유아가 친숙하고도 쉽게 게임을 할 수 있게 유도할 수 있는 배경음악과 설명 대사가 사용되는 것이 좋다. 만약 동작 인식과 음성인식 시스템을 유아용 체감형 게임에 사용할 경우 게임 사용자의 연령에 맞는 동작 데이터와 음성 데이터를 사용해 인식률을 높여야 한다. 특히, 본 논문에서는 피부색과 유아 신체 모델을 사용하여 유아의 얼굴과 손을 인식한 후 그 위치를 고려하여 유아의 동작을 인식하였고 유아의 음성 데이터를 수집해 신경망을 이용한 음성인식 기술을 게임에 적용해 신체 놀이 중심 활동의 줄넘기 게임인 '신나게 폴짝'을 개발하였다.

자동차 환경내의 음성인식 자동 평가 플랫폼 연구 (A Study of Automatic Evaluation Platform for Speech Recognition Engine in the Vehicle Environment)

  • 이성재;강선미
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.538-543
    • /
    • 2012
  • 주행 중 차량내의 음성인터페이스 에서 음성인식기의 성능은 가장 중요한 부분이다. 본 논문은 차량내 음성인식기의 성능 평가를 자동화하기 위한 플랫폼의 개발에 대한 것이다. 개발된 플랫폼은 주 프로그램, 중계 프로그램 데이터베이스 관리, 통계산출 모듈로 구성된다. 성능 평가에 있어 실제 차량의 주행 조건을 고려한 시뮬레이션 환경이 구축되었고, 미리 녹음된 주행 노이즈와 발화자의 목소리를 마이크를 통해 입력하여 실험하였다. 실험 결과 제안하는 플랫폼에서 얻어진 음성인식 결과의 유효성이 입증되었다. 제안한 플랫폼으로 사용자는 음성인식의 자동화와 인식결과의 효율적인 관리 및 통계산출을 함으로서 차량 음성인식기의 평가를 효과적으로 진행할 수 있다.

전사텍스트를 이용한 반자동 레이블링 구현 (Implement of Semi-automatic Labeling Using Transcripts Text)

  • 원동진;장문수;강선미
    • 한국지능시스템학회논문지
    • /
    • 제25권6호
    • /
    • pp.585-591
    • /
    • 2015
  • 구어 연구를 위한 전사 과정에서 문자로 표현된 발화를 녹음 음성에 연결해주는 작업을 레이블링이라고 한다. 기존 레이블링 도구들은 대부분 수동으로 작업이 이루어진다. 제안하는 반자동 레이블링은 자동화 모듈과 수동 조정 모듈로 구성된다. 자동화 모듈은 G.Saha 알고리즘을 활용하여 음성구간을 추출하고, 기구축된 발화텍스트의 발화 수와 발화의 길이 정보를 이용하여 발화구간을 예측한다. 본 논문에서는 기존 수동 도구의 정확성을 유지하기 위하여 자동 레이블링된 발화구간을 보정하기 위한 수동 조정 사용자 인터페이스를 제공한다. 제안하는 반자동 레이블링 알고리즘으로 구현한 도구는 기존 수동 레이블링 도구와 비교하여 작업 속도가 평균 27% 향상되었다.

DSK50을 이용한 16kbps ADPCM 구현 (Implementation of 16Kpbs ADPCM by DSK50)

  • 조윤석;한경호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1996년도 하계학술대회 논문집 B
    • /
    • pp.1295-1297
    • /
    • 1996
  • CCITT G.721, G.723 standard ADPCM algorithm is implemented by using TI's fixed point DSP start kit (DSK). ADPCM can be implemented on a various rates, such as 16K, 24K, 32K and 40K. The ADPCM is sample based compression technique and its complexity is not so high as the other speech compression techniques such as CELP, VSELP and GSM, etc. ADPCM is widely applicable to most of the low cost speech compression application and they are tapeless answering machine, simultaneous voice and fax modem, digital phone, etc. TMS320C50 DSP is a low cost fixed point DSP chip and C50 DSK system has an AIC (analog interface chip) which operates as a single chip A/D and D/A converter with 14 bit resolution, C50 DSP chip with on-chip memory of 10K and RS232C interface module. ADPCM C code is compiled by TI C50 C-compiler and implemented on the DSK on-chip memory. Speech signal input is converted into 14 bit linear PCM data and encoded into ADPCM data and the data is sent to PC through RS232C. The ADPCM data on PC is received by the DSK through RS232C and then decoded to generate the 14 bit linear PCM data and converted into the speech signal. The DSK system has audio in/out jack and we can input and out the speech signal.

  • PDF

다음색 감정 음성합성 응용을 위한 감정 SSML 처리기 (An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications)

  • 유세희;조희;이주현;홍기형
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.523-529
    • /
    • 2021
  • 본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML(Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

Network human-robot interface at service level

  • Nguyen, To Dong;Oh, Sang-Rok;You, Bum-Jae
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1938-1943
    • /
    • 2005
  • Network human-robot interface is an important research topic. In home application, users access the robotic system directly via voice, gestures or through the network. Users explore a system by using the services provided by this system and to some extend users are enable to participate in a service as partners. A service may be provided by a robot, a group of robots or robots and other network connected systems (distributed sensors, information systems, etc). All these services are done in the network environment, where uncertainty such as the unstable network connection, the availability of the partners in a service, exists. Moreover, these services are controlled by several users, accessing at different time by different methods. Our research aimed at solving this problem to provide a high available level, flexible coordination system. In this paper, a multi-agent framework is proposed. This framework is validated by using our new concept of slave agents, a responsive multi-agent environment, a virtual directory facilitator (VDF), and a task allocation system using contract net protocol. Our system uses a mixed model between distributed and centralized model. It uses a centralized agent management system (AMS) to control the overall system. However, the partners and users may be distributed agents connected to the center through agent communication or centralized at the AMS container using the slave agents to represent the physical agents. The system is able to determine the task allocation for a group of robot working as a team to provide a service. A number of experiments have been conducted successfully in our lab environment using Issac robot, a PDA for user agent and a wireless network system, operated under our multi agent framework control. The experiments show that this framework works well and provides some advantages to existing systems.

  • PDF

DMA 인터페이스를 갖는 블루투스 기저대역 모듈의 설계 및 구현 (Design and Implementation of a Bluetooth Baseband Module with DMA Interface)

  • 천익재;오종환;임지숙;김보관;박인철
    • 대한전자공학회논문지SD
    • /
    • 제39권3호
    • /
    • pp.98-109
    • /
    • 2002
  • 블루투스 무선 기술은 음성 및 데이터 전송을 위한 단거리 일대다중 무선 주파수 통신을 위해 제안된 범용적으로 사용 가능한 무선통신 기술이다. 블루투스는 2.4㎓ ISM 밴드에서 동작하며 약 l0m 범위의 다양한 이동 장치와 휴대용 장치를 위한 저가격의 기저대역 무선 접속을 제공한다 본 논문은 DMA 방식의 블루투스 기저대역 모듈을 개발하고 그 구조와 테스트 결과를 보인다. 개발된 모듈은 링크 컨트롤러, UART 그리고 오디오 코덱의 세가지 블록으로 구성되며 메인 프로세서 사이의 정보 전달 및 DMA지원을 위한 버스 인터페이스와 RF모듈과의 데이터 송수신을 위한 RF 인터페이스를 지원한다. DMA의 사용은 FIFO를 이용한 데이터의 송수신 방법을 사용하는 기저대역 모듈에 비하여 모듈의 구현 크기 및 데이터의 처리 속도에 있어서도 많은 차이점을 갖는다. 각 블록을 DMA를 지원하도록 설계함으로써 작은 크기의 모듈을 설계할 수 있다. 이러한 작은 크기의 모듈은 생산비용의 절감과 함께 다양한 응용분야에 사용될 수 있는 범용성을 제공한다. 또한 본 모듈은 UART를 이용한 펌웨어 업그레이드 방식을 지원하고 소프트 IP로 설계되었으며 FPGA와 ASIC으로 구현하여 개인용 컴퓨터 사이의 파일 전송과 비트-스트림 전송을 통해 테스트 되었다.