• 제목/요약/키워드: voice commands

검색결과 48건 처리시간 0.02초

디지털 개인비서 동향과 미래 (Trends and Future of Digital Personal Assistant)

  • 권오욱;이기영;이요한;노윤형;조민수;황금하;임수종;최승권;김영길
    • 전자통신동향분석
    • /
    • 제36권1호
    • /
    • pp.1-11
    • /
    • 2021
  • In this study, we introduce trends in and the future of digital personal assistants. Recently, digital personal assistants have begun to handle many tasks like humans by communicating with users in human language on smart devices such as smart phones, smart speakers, and smart cars. Their capabilities range from simple voice commands and chitchat to complex tasks such as device control, reservation, ordering, and scheduling. The digital personal assistants of the future will certainly speak like a person, have a person-like personality, see, hear, and analyze situations like a person, and become more human. Dialogue processing technology that makes them more human-like has developed into an end-to-end learning model based on deep neural networks in recent years. In addition, language models pre-trained from a large corpus make dialogue processing more natural and better understood. Advances in artificial intelligence such as dialogue processing technology will enable digital personal assistants to serve with more familiar and better performance in various areas.

언어장애인의 스마트스피커 접근성 향상을 위한 개인화된 음성 분류 기법 (Personalized Speech Classification Scheme for the Smart Speaker Accessibility Improvement of the Speech-Impaired people)

  • 이승권;최우진;전광일
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.17-24
    • /
    • 2022
  • 음성인식 기술과 인공지능 기술을 기반으로 한 스마트스피커의 보급으로 비장애인뿐만 아니라 시각장애인이나 지체장애인들도 홈 네트워크 서비스를 연동하여 주택의 전등이나 TV와 같은 가전제품을 음성을 통해 쉽게 제어할 수 있게 되어 삶의 질이 대폭 향상되었다. 하지만 언어장애인의 경우 조음장애나 구음장애 등으로 부정확한 발음을 하게 됨으로서 스마트스피커의 유용한 서비스를 사용하는 것이 불가능하다. 본 논문에서는 스마트스피커에서 제공되는 기능 중 일부 서비스를 대상으로 언어장애인이 이용할 수 있도록 개인화된 음성분류기법을 제안한다. 본 논문에서는 소량의 데이터와 짧은 학습시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트스피커가 제공하는 서비스를 실제로 이용할 수 있도록 하는 것이 목표이다. 본 논문에서는 ResNet18 모델을 fine tuning하고 데이터 증강과 one cycle learning rate 최적화 기법을 추가하여 적용하였으며, 실험을 통하여 30개의 스마트스피커 명령어 별로 10회 녹음한 후 3분 이내로 학습할 경우 음성분류 정확도가 95.2% 정도가 됨을 보였다.

MEMS센서와 확장칼만필터를 적용한 팔의 자세정보 실시간 획득방법 (Real-Time Acquisition Method of Posture Information of Arm with MEMS Sensor and Extended Kalman Filter)

  • 최원석;김희수;김재현;조영기
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.99-113
    • /
    • 2020
  • 미래에는 일상생활에서 우리 삶을 편의를 위한 로봇이나 드론들이 증가할 것이다. 그리고 이것을 제어하기 위한 방법으로 현재 리모컨이나 사람의 음성에 의한 방법이 가장 보편적으로 사용되고 있다. 하지만 리모컨은 사람이 찾아서 일일이 조작해야하며 음성의 경우에는 주변 노이즈를 무시할 수 없다. 그래서 본 논문에서는 팔의 자세정보만으로 무선으로 간편하게 주변 드론이나 로봇들을 제어 할 수 있다는 전제하에 실시간으로 정확하게 팔의 자세정보를 획득하기 위한 경제적인 자세정보 획득방법에 대하여 연구하였다. 이를 위해서 확장 칼만필터를 이용하여 팔의 자세정보에 대한 노이즈를 제거하였으며 팔의 움직임을 감지하기 위하여 저가의 MEMS 타입의 센서를 적용하여 장치의 경제성을 확보하였으며 팔의 착용성을 증대시키기 위하여 FPGA를 활용하여 최대한 칩 하나에 모든 기능을 집적화시켜 소형 경량의 자세정보 획득장치를 개발하였다. 그 결과 1 ms의 실시간성을 확보하였고 확장칼만필터를 적용하여 노이즈가 제거된 정확한 팔의 자세정보를 획득하고 실시간으로 팔의 자세정보를 전시하였다. 이를 통해서 팔의 실시간 자세정보를 이용하여 명령을 생성할 수 있는 기초가 마련되었다.

텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로 (Positioning of Smart Speakers by Applying Text Mining to Consumer Reviews: Focusing on Artificial Intelligence Factors)

  • 이정현;선형주;이홍주
    • 지식경영연구
    • /
    • 제21권1호
    • /
    • pp.197-210
    • /
    • 2020
  • The smart speaker includes an AI assistant function in the existing portable speaker, which enables a person to give various commands using a voice and provides various offline services associated with control of a connected device. The speed of domestic distribution is also increasing, and the functions and linked services available through smart speakers are expanding to shopping and food orders. Through text mining-based customer review analysis, there have been many proposals for identifying the impact on customer attitudes, sentiment analysis, and product evaluation of product functions and attributes. Emotional investigation has been performed by extracting words corresponding to characteristics or features from product reviews and analyzing the impact on assessment. After obtaining the topic from the review, the effect on the evaluation was analyzed. And the market competition of similar products was visualized. Also, a study was conducted to analyze the reviews of smart speaker users through text mining and to identify the main attributes, emotional sensitivity analysis, and the effects of artificial intelligence attributes on product satisfaction. The purpose of this study is to collect blog posts about the user's experiences of smart speakers released in Korea and to analyze the attitudes of customers according to their attributes. Through this, customers' attitudes can be identified and visualized by each smart speaker product, and the positioning map of the product was derived based on customer recognition of smart speaker products by collecting the information identified by each property.

차량에서의 음성인식율 향상을 위한 전처리 기법 (Preprocessing Technique for Improvement of Speech Recognition in a Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.139-146
    • /
    • 2009
  • 본 논문에서는 차량에서의 자동 음성인식 시스템과 같이 신호대잡음비가 낮은 잡음 환경에서의 음성인식에 적합한 변형된 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 스펙트럼에서 낮은 신호대 잡음비(SNR)를 갖는 부분은 감쇄되고, 신호대잡음비가 높은 부분은 강조되는 신호대잡음비에 의존한다. 그러나 이러한 구성은 높은 신호대잡음비를 갖는 환경에서는 적절하나 차량 환경과 같이 낮은 신호대잡음비를 나타내는 환경에서는 매우 부적절하다. 제안하는 방법은 낮은 신호대잡음비를 갖는 잡음 환경을 위해 음성우세영역을 강조하여 불필요하게 음성영역이 과차감되지 않도록 방지한다. 차량용 음성명령어 어휘를 대상으로 한 실험 결과에서 제안하는 방법이 기존의 방법에 비해 우수한 것을 확인하였다.

유비쿼터스 컴퓨팅 환경에서 상황인식 기반 TV 응용 서버스 (Context-aware based TV Application Services in Ubiquitous Computing Environments)

  • 문애경;이강우;김형선;김현;이수원
    • 한국통신학회논문지
    • /
    • 제31권7B호
    • /
    • pp.619-631
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 환경이 도래함에 따라 사용자의 명시적 요구에 따라 제공되는 서비스 보다는 상황정보를 활용하여 능동적인 서비스를 지원할 수 있는 기술이 필요하다. 따라서 본 논문에서는 컨텐츠 추천 서비스 에이전트와 상황인식 기반 태스크를 포함하는 CAMUS(Context-Aware Middleware for URC Systems) 시스템을 이용한 상황인식 기반 능동형 서버스를 제안한다. CAMUS 는 사용자의 요청이 없더라도 로봇 또는 컴퓨터가 현재의 상황을 인식하여 그 상황에 맞는 정보와 서비스를 제공할 수 있도록 지원하는 소프트웨어 프레임워크이다. 제안된 서비스를 평가하기 위하여 TV 응용 도메인에 적용한다. 이를 위해, TV 프로그램 추천 및 TV 제어 서비스 에이전트 그리고 TV 도우미 태스크를 구현한다. TV 도우미 태스크는 사용자 위치, 음성 등의 상황 정보에 따라 TV 프로그램 추천 및 제어 서비스를 실행할 수 있도록 한다.

말소리지각에 대한 종설: 음성공학과의 융복합을 위한 첫 단계 (A review of speech perception: The first step for convergence on speech engineering)

  • 이영림
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.509-516
    • /
    • 2017
  • 사람들은 항상 사건들과 접하고 말소리 지각과 같은 사건을 지각하는데 별 어려움이 없다. 생물학적 운동의 지각과 마찬가지로, 말소리 지각에 대한 두 이론이 논쟁해 왔다. 이 논문의 목적은 말소리 지각에 대해 설명하고 말소리 지각에 대한 운동이론과 직접지각 이론을 비교하는 것이다. 운동이론학자들은 인간은 운동신경의 명령에 의해 말소리를 지각하고 생성해 내기 때문에 인간은 말소리 지각에 있어서 특별한 감각을 가지고 있다고 주장해 왔다. 하지만, 직접지각 이론학자들은 말소리 지각은 여느 다른 소리를 지각하는 것과 다르지 않다고 제안했다. 왜냐하면, 말소리를 지각하는 것은 다른 모든 사건을 지각하는 것과 마찬가지로 필요한 정보를 직접 탐지하면 되기 때문이다. 음성공학과의 융합에 있어서 이러한 인간의 기본적인 말소리 지각 능력을 먼저 이해하는 것이 중요하다. 따라서 이러한 말소리 지각에 대한 기본적인 이해는 인공 지능, 음성 인식 기술, 음성 인식 시스템 등에 사용될 수 있을 것으로 기대된다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.