• 제목/요약/키워드: Voice interface

검색결과 298건 처리시간 0.03초

애니메이션 저작도구를 위한 음성 기반 음향 스케치 (Voice Driven Sound Sketch for Animation Authoring Tools)

  • 권순일
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-9
    • /
    • 2010
  • 애니메이션 캐릭터의 동작을 만들어내기 위해 펜으로 스케치하는 형식의 인터페이스를 이용하는 저작 도구들이 연구되어 왔지만, 아직까지 음향적인 요소에 있어서 직관적인 인터페이스를 사용하여 만들어내는 방법은 연구되지 않았다. 본 논문에서는 사용자가 음향과 대응되는 의성어의 발성을 통하여 표현하면 이에 대응되는 음향샘플이 선택되어 삽입되는 방법을 제안하고자 한다. 일반적으로 사용되는 통계적 모델을 기반으로 하는 패턴인식 방법을 이용하여 의성어 발성만으로 대응되는 음향샘플을 어느 정도 인식할 수 있는지를 실험해본 결과 의성어의 음성샘플을 이용한 경우 최대 97%의 인식률을 얻을 수 있었다. 또한 새로운 음향샘플 등록 시에 발생하는 음성데이터 수집의 어려움을 극복하기 위하여 음성모델을 만드는 대신에 의성어의 음성샘플 하나만 사용하는 GLR Test를 활용해보니 기존의 방법과 거의 대등한 인식률을 실험적으로 확인할 수 있었다.

ISDN용 전화가입자 - 망 간 접속에 관한 연구 제 2 부 : ISDN용 가입자 단말장치-Digital Telethone-에 관한 연구 (A Study on the ISDN Telephone User-Network Interface Part2: A Study on the ISDN User Terminal; Digital Telephone)

  • 옥승수;김선형;김영철;조규섭;박병철
    • 한국통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.71-81
    • /
    • 1987
  • ISDN의 효율적 활용을 위해서는 다양한 가입자 서어비스를 제공할 수 있는 terminal의 개발이 선결되어야 한다. 본 논문의 ISDN가입자-망 간 접속에 관한 2편의 논문중 제2부로서 ISDN가입자 단말장치의 일반적 관련요소에 대한 연구를 수행하였으며 ISDN이 제공할 수 있는 서어비스 중 가장 간단한 예로 전화 서어비스를 위한 stimulus mode type의 digital telephone을 설계, 제작하여 그 성능을 고찰하여 보았다. 본 digital telephone은 ECM(Echo Cancellation Method)방식을 사용하여 network에 접속되며 user-network간 신호방식으로 CCITT의 I.440-441에서 권고하는 LAPD Protocol을 채택하였고 소규모 ISDN교환 emulator와의 연동을 통하여 관련된 S/W 및 H/W개발의 타당성을 검증하였다. 또한 digital telephone으로서의 기본 기능인 음성의 디지틀화, man-machine interface등이 실현되었다.

  • PDF

고성능 DSP를 이용한 톤 송수신기의 실시간 구현 (Real-time Implementation of a Tone Sender/Receiver on a High Performance DSP)

  • 최용수;함정표;조성범;강태익;윤정현
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.276-285
    • /
    • 2003
  • 본 논문에서는 고성능 DSP (Digital Signal Processor)를 사용하여 R2MFC/DTMF (R2 Multi Frequency Combinations/Dual Tone Multiple Frequency) 톤 송수신기를 실시간 구현하여 대용량 VoIP (Voice over Internet Protocol) 게이트웨이 시스템에 적용한다. 수신기는 Goertzel 필터를, 송출기는 고조파 공명 필터를 이용한다. DMA (Direct Memory Access)와 McBSP(Multi Channel Buffered Serial Port)를 사용한 효과적인 PCM 입출력, HPI (Host Port Interface)를 통한 MPU (Main Processing Unit)와의 메시지 통신 등 Texas Instruments TMS320C62x DSP를 이용한 다채널 실시간 구현 기법에 관하여 상세히 기술한다. 실험 결과, 구현된 R2MFC/DTMF 송수신기는 ITU-T(International Telecommunication Union-Telecommunication) 조건을 만족하며, 최적화 된 코드는 250 ㎒ C62x에서 780 채널을 수용할 수 있는 계산량을 보였다.

텔레메틱스 단말기 내의 오디오/비디오 명령처리를 위한 임베디드용 음성인식 시스템의 구현 (Implementation of Embedded Speech Recognition System for Supporting Voice Commander to Control an Audio and a Video on Telematics Terminals)

  • 권오일;이흥규
    • 대한전자공학회논문지TC
    • /
    • 제42권11호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 논문에서는 차량 내에서 음성인식 인터페이스를 이용한 오비오, 비디오와 같은 응용서비스 처리를 위해 임베디드형 음성인식 시스템을 구현한다. 임베디드형 음성인식 시스템은 DSP 보드로 제작 포팅된다. 이는 음성 인식률이 마이크, 음성 코덱 등의 H/W의 영향을 받기 때문이다. 또한 차량 내 잡음을 효율적으로 제거하기 위한 최적의 환경을 구축하고, 이에 따른 테스트 환경을 최적화한다. 본 논문에서 제안된 시스템은 차량 내에서의 신뢰적인 음성인식을 위해 잡음제거 및 특징보상 기술을 적용하고 임베디드 환경에서의 속도 및 성능 향상을 위한 문맥 종속 믹스쳐 공유 음향 모델링을 적용한다. 성능평가는 일반 실험실 환경에서의 인식률과 실제 차량 내에서의 실차 테스트를 통해 검증되었다.

UTRAN Iub 인터폐이스에서 QoS 기반의 AAL2/ATM 다중화 전송방안 (QoS Based AAL2/ATM Multiplexing Schemes in the UTRAN Iub Interface)

  • 정창용;정조운;황호영;성단근;정수성;방만원
    • 한국통신학회논문지
    • /
    • 제28권6A호
    • /
    • pp.386-396
    • /
    • 2003
  • 최근에 이동통신 시스템이 3세대로 진화하면서 음성 위주의 서비스에서 점차 인터넷 서비스 같은 여러 다양한 서비스들을 지원하게 되었다. 그리고 급증하는 사용자들을 수용하기 위해 무선 가입자망의 Iub 인터페이스에서AAL2 다중화 기술을 도입하여 한정된 링크의 효율을 높이고 있다. 그러나 무선 자원의 부족과 지원되는 다양한 서비스들의 요구조건이 다르기 때문에 무선 가입자망에서는 제대로 각 서비스 별로 QoS를 만족시켜 주지 못하고있다. 기존의 AAL2/ATM의 다중화 시스템에서는 음성과 데이터의 다중화 효과와 실시간성, 비실시간성 서비스에 대해 QoS를 분석해 왔다. 본 논문에서는 여러 다양한 서비스들을 QoS 요구조건에 따라 분류하고 그 요구조건에 맞도록 통계적 다중화와 간단한 구조로 스케쥴하는 AAL2/ATM 다중화 전송방안을 제안한다. 모의실험 결과 각 서비스의 QoS 요구조건을 맞출 수 있어 기존의 방법보다 더 좋은 성능이 나타남을 확인하였다.

구글, 네이버, 다음 카카오 API 활용앱의 표준어 및 방언 음성인식 기초 성능평가 (A Basic Performance Evaluation of the Speech Recognition APP of Standard Language and Dialect using Google, Naver, and Daum KAKAO APIs)

  • 노희경;이강희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권12호
    • /
    • pp.819-829
    • /
    • 2017
  • 본 논문에서는 음성인식 기술의 현황을 소개하고 기본적인 음성인식 기술과 알고리즘을 먼저 알아본 뒤에, 음성인식 기술에 필요한 API의 코드 흐름에 대해 설명을 할 것이다. 음성인식 API중에 가장 유명한 검색엔진을 가진 구글, 네이버 다음 카카오 각각의 Application Programming Interface(API)를 안드로이드 스튜디오 툴을 이용하여 음성인식이 가능한 앱을 만든다. 그런 뒤 성별, 나이별, 지역별에 따라 사람들의 표준어, 방언에 대한 음성인식 실험을 하여 음성 인식 정확도를 표로 정리한다. 방언에 대한 실험 지역으로는 방언의 정도가 심한 경상도, 충청도, 전라도 방언에 대해 실험하였고, 표준화된 방언를 기준으로 비교 실험을 진행하였다. 결과적으로 나온 문장에 따라 띄어쓰기, 받침, 조사, 단어를 기반으로 문장의 정확성을 확인하여 각각의 오류의 개수를 숫자로 표현하였다. 결과적으로 방언과 표준어의 음성 인식률에 따라 각각의 API의 장점에 대해서 소개하고, 어떤 상황에서 가장 효율적으로 사용할지에 대해 기본적인 틀을 마련하고자 한다.

개방망 서비스의 종류-음성급 개방망 서비스 (Open Network Services-Voice Grade)

  • 박기홍;강성준
    • 전자통신동향분석
    • /
    • 제8권2호
    • /
    • pp.108-124
    • /
    • 1993
  • 개방망은 망 접속을 표준화하여 망을 접근하도록 하는 technical interface의 공개측면과 망이 가지고 있는 망서비스를 공개하여 사용자로 하여금 선택적으로 이용할 수 있게 해주는 망서비스 공개 측면을 모두 고려하여 망구조를 실현해야 한다. 통신망은 망의 서비스 유형 및 일반적인 기능에 따라 음성급 전화망, 데이터망, 전용선망, 이동통신망 및 위성망으로 구분할 수 있으며, 이에 대한 망 접속은 각 망별로 또한 분류될 수 있다. 망서비스는 기술의 발전과 망진화에 따른 기술적인 요인, 고도통신 사업의 다양화에 다른 사업자 요구에 의한 요인, 그리고 시장수요 요인에 의해 계속 발전.진화되어지는 동적인 것이다. 개방망구조는 망서비스와 기술적인 접속을 주요 내용으로 하고 있기 때문에 이것도 역시 계속 진화되는 것으로 해석해야 한다. 본고에서는 개방망의 서비스 측면에서 해당교환 시스팀이나 전송시스팀이 제공가능한 서비스들로서 개방망구조의 서비스메뉴로 표현할 수 있는 것들을 각 망에 대해 자세히 파악하고자 한다. 이번 호에서는 그 첫번째 내용으로서 음성급 전화망에서 개방망서비스로서 국내 교환시스팀과 미국의 ONA 일환으로 BOC가 제공 가능한 것들을 소개한다. 음성급개방망서비스(Voice Grade Open Network Service)는 크게 가입자선측과 중계선측으로 분류 가능하다. 각 분류후에 1) 국내에서 제공가능한 서비스, 2) 여러 BOC가 공통적으로 보유한 서비스, 3) 특정 BOC가 보유한 서비스로 분류 정리하였다.

Design of a Compact Laparoscopic Assistant Robot;KaLAR

  • Lee, Yun-Ju;Kim, Jona-Than;Ko, Seong-Young;Lee, Woo-Jung;Kwon, Dong-Soo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.2648-2653
    • /
    • 2003
  • This paper describes the development of a 3-DOF laparoscopic assistant robot system with motor-controlled bending and zooming mechanisms using the voice command motion control and auto-tracking control. The system is designed with two major criteria: safety and adaptability. To satisfy the safety criteria we designed the robot with optimized range of motion. For adaptability, the robot is designed with compact size to minimize interference with the staffs in the operating room. The required external motions were replaced by the bending mechanism within the abdomen using flexible laparoscope. The zooming of the robot is achieved through in and out motion at the port where the laparoscope is inserted. The robot is attachable to the bedside using a conventional laparoscope holder with multiple DOF joints and is compact enough for hand-carry. The voice-controlled command input and auto-tracking control is expected to enhance the overall performance of the system while reducing the control load imposed on the surgeon during a laparoscopic surgery. The proposed system is expected to have sufficient safety features and an easy-to-use interface to enhance the overall performance of current laparoscopy.

  • PDF

An Audio-Visual Teaching Aid (AVTA) with Scrolling Display and Speech to Text over the Internet

  • Davood Khalili;Chung, Wan-Young
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 V
    • /
    • pp.2649-2652
    • /
    • 2003
  • In this Paper, an Audio-Visual Teaching aid (AVTA) for use in a classroom and with Internet is presented. A system, which was designed and tested, consists of a wireless Microphone system, Text to Speech conversion Software, Noise filtering circuit and a Computer. An IBM compatible PC with sound card and Network Interface card and a Web browser and a voice and text messenger service were used to provide slightly delayed text and also voice over the internet for remote teaming, while providing scrolling text from a real time lecture in a classroom. The motivation for design of this system, was to aid Korean students who may have difficulty in listening comprehension while have, fairly good reading ability of text. This application of this system is twofold. On one hand it will help the students in a class to view and listen to a lecture, and on the other hand, it will serve as a vehicle for remote access (audio and text) for a classroom lecture. The project provides a simple and low cost solution to remote learning and also allows a student to have access to classroom in emergency situations when the student, can not attend a class. In addition, such system allows the student in capturing a teacher's lecture in audio and text form, without the need to be present in class or having to take many notes. This system will therefore help students in many ways.

  • PDF

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF