• 제목/요약/키워드: user.s voice recognition

검색결과 68건 처리시간 0.024초

VoiceXML VUI Browser 설계/구현 (Design and Implementation of VoiceXML VUI Browser)

  • 장민석;예상후
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 추계종합학술대회
    • /
    • pp.788-791
    • /
    • 2002
  • 현재의 웹 환경은 HTML로 구성이 되어있으며 이로 인해 하이퍼링크를 따라가기 위해 마우스 클릭을 통해 작업하는 GUI 환경이 주를 이룬다. 하지만 이러한 방법은 인간이 가장 손쉽게 사용하는 음성과 비교해 볼 때 상당히 불편한 축에 속한다. 본 논문에서는 이를 해결하기 위해 현재 무르익은 음성인식/합성 기술과 전화기를 통해 정보를 제공하고자 하는 XML의 파생언어인 VoiceXML을 이용하여, 현재의 HTML주축인 GUI 웹 환경을 VoiceXML을 이용하여 VUI(Voice User Interface) 환경으로 전환해 주는 VoiceXML VUI Browser를 설계/구현하였다.

  • PDF

Design and Implementation of Context-aware Application on Smartphone Using Speech Recognizer

  • Kim, Kyuseok
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.49-59
    • /
    • 2020
  • As technologies have been developing, our lives are getting easier. Today we are surrounded by the new technologies such as AI and IoT. Moreover, the word, "smart" is a very broad one because we are trying to change our daily environment into smart one by using those technologies. For example, the traditional workplaces have changed into smart offices. Since the 3rd industrial revolution, we have used the touch interface to operate the machines. In the 4th industrial revolution, however, we are trying adding the speech recognition module to the machines to operate them by giving voice commands. Today many of the things are communicated with human by voice commands. Many of them are called AI things and they do tasks which users request and do tasks more than what users request. In the 4th industrial revolution, we use smartphones all the time every day from the morning to the night. For this reason, the privacy using phone is not guaranteed sometimes. For example, the caller's voice can be heard through the phone speaker when accepting a call. So, it is needed to protect privacy on smartphone and it should work automatically according to the user context. In this aspect, this paper proposes a method to adjust the voice volume for call to protect privacy on smartphone according to the user context.

프라이빗 건물의 딥러닝을 활용한 언택트 기반 엘리베이터 운영시스템 설계 (Untact-based elevator operating system design using deep learning of private buildings)

  • 이민혜;강선경;신성윤;문형진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.161-163
    • /
    • 2021
  • 아파트나 프라이빗 건물에서 사용자가 양손에 짐을 들고 있거나 비슷한 상황에서 엘리베이터의 버튼을 조작하기는 어렵다. 코로나 19과 같은 전염성 높은 바이러스로 인해 사람 간의 접촉이 최소화되어야 하는 환경에서의 부득이하게 언택트 기반으로 엘리베이터 조작이 필요하다. 본 논문은 엘리베이터 버튼을 누르지 않고도 사용자의 얼굴을 통한 영상처리 및 사용자의 음성을 이용하여 엘리베이터의 조작이 가능한 운영 시스템을 제안한다. 엘리베이터 안에 설치된 카메라로부터 출입자의 얼굴을 감지하고, 사전에 등록된 정보와 매칭하여 버튼을 누르지 않아도 지정된 층으로 엘리베이터가 운영이 가능하다. 출입자의 얼굴 인식이 어려운 경우에는 2차적으로 마이크를 통해 사용자의 음성을 이용하여 엘리베이터의 층을 제어하고 출입 정보를 자동으로 기록하여 언택트 환경에서의 엘리베이터 사용의 편의성을 높이고자 한다.

  • PDF

시니어 사용자를 위한 챗봇활용 음성인식 스피커 개발 방법 (An Approach to Develop a Speech Recognition Speaker Using Chatbot for Senior Users)

  • 노건호;이경용;문미경
    • 전기전자학회논문지
    • /
    • 제22권2호
    • /
    • pp.330-338
    • /
    • 2018
  • 인구 고령화가 진행됨에 따라 혼자 사는 1인 가구의 증가로 인해 외로움, 소외감, 우울증 등 각종 부정적인 문제가 사회 전반에 걸쳐 증가하고 있다. 이로 인해 혼자 자립생활을 하는 노인층을 위해 심리적 불안감 해소, 위험 상태의 인지, 가족 안부 확인 등을 손쉽게 할 수 있는 IT기술의 요구가 더욱 높아지고 있다. 본 논문에서는 시니어 사용자가 집에서 음성으로 간단한 대화식 명령을 줄 수 있고 사용자의 상태를 모니터링 할 수 있는 음성인식 스피커의 개발내용에 대해 기술한다. 이 스피커는 사용자 음성 분석과 챗봇 서비스를 통해 대화 내용을 파악하고 사용자가 원하는 서비스를 연결하여 그 결과를 다시 음성으로 제공해준다. 시니어 사용자가 본 스피커를 사용함으로써 자연스러운 대화기능을 통해 말벗이 되어 심리적 안정을 취할 수 있으며, 상태 모니터링 기능을 통해 위험 상태 인지를 좀 더 용이하게 할 수 있을 것으로 기대한다.

모바일 상거래 플랫폼에 적합한 음성 템플릿 기반의 사용자 인증 기법 (The Voice Template based User Authentication Scheme Suitable for Mobile Commerce Platform)

  • 윤성현;고훈
    • 디지털융복합연구
    • /
    • 제10권5호
    • /
    • pp.215-222
    • /
    • 2012
  • 전화 기능과 컴퓨터 기능을 갖는 스마트폰의 보급으로 장소에 구애받지 않는 모바일 상거래에 대한 수요가 급증하고 있다. 상거래 서비스는 인증 기법을 적용하여 거래 내용과 거래 당사자에 대한 법적 구속력을 갖는 증거를 남겨야 한다. 스마트폰은 개인용 컴퓨터와 달리 개인정보 노출의 위험이 있고 기기 분실 및 도용에 따른 대리 인증이 상대적으로 쉽다. 기존의 패스워드 및 토큰 기반의 인증 기법은 사용자와 아이디를 물리적으로 연결시키지 못하므로 대리 인증 문제를 해결할 수 없다. 따라서 스마트폰을 모바일 상거래 플랫폼으로 활용하기 위해서는 법적 구속력이 있고 대리 인증이 어려운 새로운 사용자 인증 기법에 대한 연구가 필요하다. 본 논문에서는 사용자 고유 음성 정보와 스마트폰 USIM 정보를 접목한 모바일 ID를 생성하고 이에 기반을 둔 사용자 인증 기법을 설계 및 구현하였다.

멀티 모달 감정인식 시스템 기반 상황인식 서비스 추론 기술 개발 (Development of Context Awareness and Service Reasoning Technique for Handicapped People)

  • 고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권1호
    • /
    • pp.34-39
    • /
    • 2009
  • 사람의 감정은 주관적인 인식 작용으로서 충동적인 성향을 띄고 있으며 무의식중의 사람의 욕구와 의도를 표현하고 있다. 이는 유비쿼터스 컴퓨팅 환경이나 지능형 로봇의 사용자가 처한 환경의 상황정보 중에서 사용자의 의도를 가장 많이 포함하고 있는 정보라고 할 수 있다. 이러한 사용자의 감정을 파악할 수 있는 지표는 사람의 얼굴 영상에서의 표정과 음성신호에서의 Spectrum 통계치 및 생체신호(근전위, 뇌파, 등)등 이다. 본 논문에서는 감정인식 활용의 편의와 효율성 향상을 주목적으로 하여 사용자의 얼굴 영상과 음성을 이용한 감정인식에 대하여 개별 결과물만을 산출하고 그 인식률을 검토한다. 또한 임의의 상황에서의 인식률 향상을 위하여 영상과 음성의 특징을 기반으로 최적의 특징 정보들을 구별해 내고, 각각의 개별 감정 특징에 대한 융합을 시도하는 특징 융합 기반의 Multi-Modal 감정인식 기법을 구현한다. 최종적으로 감정인식 결과를 이용하여 유비쿼터스 컴퓨팅 환경에서 발생 가능한 상황 설정 시나리오와 베이지만 네트워크를 통해 유비쿼터스 컴퓨팅 서비스의 확률 추론 가능성을 제시하고자 한다.

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

시뮬레이터 기반 음성을 이용한 항행정보 안내시스템의 개발 (Development of Voice Information System for Safe Navigation in Marine Simulator)

  • 손남선;김선영
    • 한국해양환경ㆍ에너지학회지
    • /
    • 제5권3호
    • /
    • pp.28-34
    • /
    • 2002
  • 최근에 음성인식 및 음성합성 기술의 발달로 음성을 이용한 정보안내시스템이 다양한 분야에서 개발되어 활용되고 있다. 선박에서도 선교업무의 피로도를 감소시키고, 비상상황시 효과적인 대처를 위해 항행정보안내시스템의 필요성이 커지고 있다. 그러나 음성을 이용한 선박의 정보안내시스템은 목표와는 달리 큰 호응을 얻지 못하고 있다. 주된 이유는 기능 및 인터페이스의 설계가 개발자 위주로 시작되었기 때문에, 사용과정이 복잡하여 실제 항해사가 사용하는데 망설인다는 점이다. 둘째로는 음성인식률이 사람에 따라, 혹은 환경에 따라 변하기 때문에, 시스템의 안정성이 떨어진다는 점이다. 이런 이유로 인해, 현재 IBS에서는 비상상황시 음성경보기능이 활용되고 있을 뿐이다 본 연구에서는 이러한 문제점을 개선하고, 음성기술을 안전운항에 적극적으로 활용하기 위하여, 사용자 중심의 시스템을 설계하였다. 우선, 실제 항해사와의 면담의 피드백과정을 통해 음성을 이용한 항행정보안내시스템의 요구기능을 결정하였다 그리고 음성인식이 사용자에 독립적이며, 안정적인 음성인식엔진을 적용하였다. 여기서, 음성지령과정을 단순화하기 위해 확인과정을 자동화하였고, 음성인식상의 오류는 자동수정기능으로 보완하였다. 본 논문에서 개발한 음성을 이용한 시뮬레이터 기반 항행정보안내시스템은 항해사의 실시간 선박 운항 시뮬레이션을 통해 운용성능을 시험하였다.

  • PDF

다변량 퍼지 의사결정트리와 사용자 적응을 이용한 손동작 인식 (Hand Gesture Recognition using Multivariate Fuzzy Decision Tree and User Adaptation)

  • 전문진;도준형;이상완;박광현;변증남
    • 로봇학회논문지
    • /
    • 제3권2호
    • /
    • pp.81-90
    • /
    • 2008
  • While increasing demand of the service for the disabled and the elderly people, assistive technologies have been developed rapidly. The natural signal of human such as voice or gesture has been applied to the system for assisting the disabled and the elderly people. As an example of such kind of human robot interface, the Soft Remote Control System has been developed by HWRS-ERC in $KAIST^[1]$. This system is a vision-based hand gesture recognition system for controlling home appliances such as television, lamp and curtain. One of the most important technologies of the system is the hand gesture recognition algorithm. The frequently occurred problems which lower the recognition rate of hand gesture are inter-person variation and intra-person variation. Intra-person variation can be handled by inducing fuzzy concept. In this paper, we propose multivariate fuzzy decision tree(MFDT) learning and classification algorithm for hand motion recognition. To recognize hand gesture of a new user, the most proper recognition model among several well trained models is selected using model selection algorithm and incrementally adapted to the user's hand gesture. For the general performance of MFDT as a classifier, we show classification rate using the benchmark data of the UCI repository. For the performance of hand gesture recognition, we tested using hand gesture data which is collected from 10 people for 15 days. The experimental results show that the classification and user adaptation performance of proposed algorithm is better than general fuzzy decision tree.

  • PDF