• 제목/요약/키워드: user.s voice recognition

검색결과 68건 처리시간 0.022초

AI의 음성 디자인에서 고려해야 할 감성적 요소 및 국가별 음성 트랜드에 관한 연구 - 핀란드와 노르웨이의 전문가 인뎁스 인터뷰를 중심으로 (Research on Emotional Factors and Voice Trend by Country to be considered in Designing AI's Voice - An analysis of interview with experts in Finland and Norway)

  • 남궁기찬
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.91-97
    • /
    • 2020
  • 사용자와의 인터랙션이 가능한 음성 기반의 인터페이스는 AI 기술의 발달에 따라 사용이 확대되고 있다. 하지만, 현재까지의 음성 기반 인터페이스에 대한 연구는 음성 인식의 정확성 향상 등 기술적인 연구들이 대부분이었다. 이렇다 보니, 대부분의 음성 기반 인터페이스의 목소리는 차별화된 감성을 제공하지 않으며 획일화되어 있다. 본 연구에서는 AI 인터페이스의 음성에 적합한 감성 요소를 더하는 것을 목적으로 한다. 이를 위해 음성 인터페이스 디자인에서 고려되어야 할 감성적 요소를 도출하였다. 또한, 국가별로 차이를 보이는 보이스 트렌드를 조사하였다. 본 연구를 위해 자국의 언어를 독립적으로 사용하는 핀란드와 노르웨이, 두 국가의 음성 산업 전문가들과 인터뷰를 진행하였다.

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF

스마트 스피커 대상 가청 주파수 대역을 활용한 적대적 명령어 공격 방법 제안 (Proposal of Hostile Command Attack Method Using Audible Frequency Band for Smart Speaker)

  • 박태준;문종섭
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.1-9
    • /
    • 2022
  • 최근 스마트 스피커의 기능이 다양해지면서 스마트 스피커의 보급률이 증가하고 있다. 보급이 증가함에 따라 스마트 스피커에 대해 비정상적인 행위를 발생시키는 기법이 제안되고 있으며 여러 가지 공격 중 Voice Controllable System(VCS)에 대해 비정상적인 행위를 발생시키는 DolphinAttack은 초음파(f>20kHz)를 이용하여 사용자의 인식 없이 VCS를 제3자가 제어하는 방법이다. 하지만 기존의 제어 방법은 초음파 대역을 사용하기 때문에 초음파 신호를 출력할 수 있는 초음파 스피커나 초음파 전용 장비의 설치가 필요했다. 본 논문에서는 추가적인 장비, 즉, 초음파 장비의 설치 없이 사람의 가청 주파수 대역이지만 노화에 의해 듣기 힘든 주파수(18k~20kHz)로 변조된 음성신호를 출력하여, 스마트 스피커를 제어하는 방법을 제안한다. 스마트 스피커의 경우 마이크가 내장되어 있어, 변조된 음성신호를 수신할 수 있다. 본 논문에서 제안한 방법으로 수행한 결과, 가청 대역임에도 불구하고 사람은 음성명령을 인식하지 못하였으며, 스마트 스피커에 대해 82~96%의 확률로 제어가 가능했다.

음성기반 대화형 서비스 키오스크 설계 및 구현 (Design and Implementation of Voice-based Interactive Service KIOSK)

  • 김상우;최대준;송윤미;문일영
    • 실천공학교육논문지
    • /
    • 제14권1호
    • /
    • pp.99-108
    • /
    • 2022
  • 최근에 늘어가는 키오스크(KIOSK)의 수요에 따라 불편함을 호소하는 이용자가 많아졌다. 이에 음성 기반 대화형 서비스를 구현하여 손쉽게 메뉴 선택 및 주문을 가능하게 해주는 키오스크를 제작해 웹의 형태로 제공한다. Annyang API와 SpeechSynthesis API를 바탕으로 음성 기능을 구현하고 Dialogflow를 통해 사용자의 의도를 파악하는 과정을 Rest API를 기반으로 구현하는 방법에 대해 논한다. 또한 협업 필터링을 기반으로 추천 시스템을 적용하여 기존 키오스크의 낮은 소비자 접근성을 개선하였고, 음성인식 서비스 이용 도중 발생하는 비말로 인한 감염을 예방하기 위해 서비스 이용 전 마스크 착용을 확인하는 기능을 제공한다.

Generative Interactive Psychotherapy Expert (GIPE) Bot

  • Ayesheh Ahrari Khalaf;Aisha Hassan Abdalla Hashim;Akeem Olowolayemo;Rashidah Funke Olanrewaju
    • International Journal of Computer Science & Network Security
    • /
    • 제23권4호
    • /
    • pp.15-24
    • /
    • 2023
  • One of the objectives and aspirations of scientists and engineers ever since the development of computers has been to interact naturally with machines. Hence features of artificial intelligence (AI) like natural language processing and natural language generation were developed. The field of AI that is thought to be expanding the fastest is interactive conversational systems. Numerous businesses have created various Virtual Personal Assistants (VPAs) using these technologies, including Apple's Siri, Amazon's Alexa, and Google Assistant, among others. Even though many chatbots have been introduced through the years to diagnose or treat psychological disorders, we are yet to have a user-friendly chatbot available. A smart generative cognitive behavioral therapy with spoken dialogue systems support was then developed using a model Persona Perception (P2) bot with Generative Pre-trained Transformer-2 (GPT-2). The model was then implemented using modern technologies in VPAs like voice recognition, Natural Language Understanding (NLU), and text-to-speech. This system is a magnificent device to help with voice-based systems because it can have therapeutic discussions with the users utilizing text and vocal interactive user experience.

음성인식을 이용한 자동 호 분류 철도 예약 시스템 (A Train Ticket Reservation Aid System Using Automated Call Routing Technology Based on Speech Recognition)

  • 심유진;김재인;구명완
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.161-169
    • /
    • 2004
  • This paper describes the automated call routing for train ticket reservation aid system based on speech recognition. We focus on the task of automatically routing telephone calls based on user's fluently spoken response instead of touch tone menus in an interactive voice response system. Vector-based call routing algorithm is investigated and mapping table for key term is suggested. Korail database collected by KT is used for call routing experiment. We evaluate call-classification experiments for transcribed text from Korail database. In case of small training data, an average call routing error reduction rate of 14% is observed when mapping table is used.

  • PDF

음성 인식을 이용한 영어학습기 구현 (Realization of the Language In structor Using Speech Recognition)

  • 신승식;전형준;정찬수;유봉선;조경현;강창수
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.959-964
    • /
    • 2004
  • 본 논문에서는 Conversay 음성인식엔진 사용법을 근간으로 한 Conversay SD K로 3개의 시나리오를 바탕으로 프로그램화하여 음성인식을 이용한 어학 학습기를 구현하였다. 이를 위하여 리눅스를 탑재하였고. 마이크로 프로세서로 Intel의 StrongARM SA1110을 사용하여 구현하였으며,기능으로는 영어 발음/ 문장 인식 기능, 영어 대화 기능과 같은 기본기능 외에 음성을 이용한 시간 조정, 알람 기능, Test 기능, 학습 Check 기능 등을 부가하였다.

  • PDF

커넥티드카 인포테인먼트 시스템의 분석 및 설계 (Analysis and Design of Connected Car Infotainment System)

  • 조병호;안희학
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.17-23
    • /
    • 2017
  • 커넥티드카는 연결성이 주요 요소로서 항시 LTE나 5G 무선이동통신에 의한 인터넷 접속이 가능하여 인포테인먼트 기능 구현에 있어 새로운 개념의 스마트PC 하드웨어 및 서버의 음성인식 엔진을 이용한 디지털 가상비서의 소프트웨어 설계 방법을 활용할 수 있다. 본 논문에서는 음성인식 기술에 기반한 커넥티드카 인포테인먼트 시스템 구현을 위하여 스마트 오토PC의 하드웨어 및 GENIVI 플랫폼에서의 소프트웨어 구조와 필요한 기능 등을 제시한다. 또한 객체지향 분석 방법을 이용하여 사용자 요구사항 분석, 플로우차트 및 화면 설계를 보여줌으로 효과적인 커넥티드카 인포테인먼트 소프트웨어 분석 및 설계 방법을 제시하고자 한다.

음성 다이얼링을 위한 화자적응 (Speaker Adaptation for Voice Dialing)

  • 김원구
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.455-461
    • /
    • 2002
  • 본 논문에서는 화자독립 음소 모델을 사용하는 개인용 음성 다이얼링 시스템의 성능 개선 방법을 제안하였다. 화자독립 음소모델을 사용한 음성 다이얼링 방법은 각 화자가 발성한 단어와 연관된 음소 열만을 저장하므로 저장 공간은 크게 줄일 수 있으나 화자독립 모델을 음소 인식에 사용할 때 발생하는 오차로 인하여 화자종속 모델을 사용하는 방법보다는 인식 성능이 저하되는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 학습과정에서 학습 데이터의 음소 열과 화자 적응을 위한 변환 벡터를 동시에 추정한 후 음소 열과 함께 저장하고, 인식 시에 화자독립 음소 모델을 각 화자의 변환벡터를 사용하여 변환한 후 인식을 수행하는 방법을 제안하였다. 여기서 화자적응을 위한 변환 벡터는 확률적 매칭 (stochastic matching)을 위한 최고 유사도 (maximum likelihood) 방법을 이용하여 구하였으며 음소 열과 함께 반복적으로 추정되었다. 인식 실험에서 제안된 방법은 음소 열만을 사용하는 기존 인식 시스템보다 우수한 성능을 나타내었다.

텔레매틱스 단말기에서 사용가능한 Haptic 디바이스 개발 동향 (A Recent Development of Haptic Devices for Temematics Control Units)

  • 마진석;김홍남
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.406-409
    • /
    • 2004
  • Recently, many auto makers and OEM are now developing various telematics control units(TCU). TCU has an embedded OS and many user-friendly services inherently and frequently the driver operates the TCU on driving a car. Although the TCU has some accident resistive functions, secondhand accidental problem arose. Current Korean domestic TCUs have some interfaces such as push-button, touch screen, voice recognition and etc. But, because of operational complexity, technical limitation, it has not sufficient user-friendly interface. In this paper, to overcome this problem, haptic devices are considered. We present haptic devices and applications on the basis of that of U.S. Immersion co. and also BMW's iDrive technology.

  • PDF