• 제목/요약/키워드: smart speaker

검색결과 87건 처리시간 0.023초

화자(話者)와 스마트폰의 거리 측정을 위한 다중 색 좌표계와 다중 임계치 기반 실시간 얼굴검출 (Real-Time Face-Detection Based on Multiple Color-Spaces and Multiple Thresholds for Distance Measurement Between Speaker and Smart-Phone)

  • 이재원;권구락;홍성훈
    • 한국멀티미디어학회논문지
    • /
    • 제14권4호
    • /
    • pp.481-493
    • /
    • 2011
  • 모바일기기가 발달함에 따라 핸드폰에 수많은 기능들이 탑재되고 있다. 영상 통화 기능도 그 중 하나이다. 본 논문에서는 화자와 스마트폰 사이의 거리를 측정하기 위한 다중 색좌표계와 다중 임계치를 사용하는 방법을 제시한다. 첫 번째로 피부색의 색상정보에 근거하여 얼굴영역을 검출한다. 두 번째로 검출된 얼굴영역의 크기를 이용하여 스마트폰과 화자 사이의 거리를 측정한다. 특히 본 논문에서 제시하는 얼굴영역 검출 알고리즘 개발에 있어 고려한 점은 스마트폰의 기본기능과 함께 실시간으로 처리가 가능할 정도로 연산량이 적어야 하며, 움직임이 많은 핸드폰의 특성상 프레임과 프레임 사이의 움직임과 조명 및 배경에 따라 검출된 얼굴 영역이 급격히 변화하는 문제를 해결할 수 있는 얼굴영역 검출 알고리즘을 개발하고자 하였다.

A Study on Technology Acceptance of Elderly living Alone in Smart City Environment: Based on AI Speaker

  • YOO, Hyun-Sil;SUH, Eung-Kyo;KIM, Tae-Hyung
    • 산경연구논집
    • /
    • 제11권2호
    • /
    • pp.41-48
    • /
    • 2020
  • Purpose: This study is to examine the intention of the elderly who live alone in the customized AI speaker for the elderly living alone to improve the quality of life service for the elderly living alone in the smart city environment. Based on the quality of life model of the elderly, this study is applied to the technology acceptance model to investigate the relationship between perceived usefulness and ease of use on the sustained use intention. Research design, data and methodology: Residents in Suwon, Gyeonggi-do, selected as candidate local governments for the Smart City Challenge Project of the Ministry of Land, Infrastructure and Transport in June 2019 to measure the perceived technology acceptance of potential users for the AI technology for the elderly living alone as part of the smart city technology. In order to evaluate the intention of using AI speaker, which is the target system of this study, a video of a chatbot using experience of elderly people living alone was produced. Results: First of all, in order for the elderly living alone to have an attitude to use AI-based speakers, there should be a perceived usefulness of the quality of life of the elderly. However, ease of use did not show any significant causal relationship to attitude toward use. In addition, the attitude toward use weakly influenced the intention to use. In other words, elderly people living alone were not likely to have a significant effect on their attitude toward use. However, feeling that AI speakers are easy to use will help to improve the quality of life, which in turn led to the attitude toward using AI speakers, which could lead to indirect effects. Finally, the perceived usefulness of quality of life was found to have a weak effect on direct use intentions. Conclusions: This study conducted a study on the technology acceptance of service environment to improve the quality of life for the specific user group who live alone in the smart seat environment. In this study, we examined the effects of AI speaker on the elderly living alone to improve the quality of life for the elderly living alone.

SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation

  • Kim, Younggwan;Roh, Jaeyoung;Kim, Hoirin
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제2권5호
    • /
    • pp.277-281
    • /
    • 2013
  • Modern speaker verification systems based on support vector machines (SVMs) use Gaussian mixture model (GMM) supervectors as their input feature vectors, and the maximum a posteriori (MAP) adaptation is a conventional method for generating speaker-dependent GMMs by adapting a universal background model (UBM). MAP adaptation requires the appropriate amount of input utterance due to the number of model parameters to be estimated. On the other hand, with limited utterances, unreliable MAP adaptation can be performed, which causes adaptation noise even though the Bayesian priors used in the MAP adaptation smooth the movements between the UBM and speaker dependent GMMs. This paper proposes a sparse MAP adaptation method, which is known to perform well in the automatic speech recognition area. By introducing sparse MAP adaptation to the GMM-SVM-based speaker verification system, the adaptation noise can be mitigated effectively. The proposed method utilizes the L0 norm as a regularizer to induce sparsity. The experimental results on the TIMIT database showed that the sparse MAP-based GMM-SVM speaker verification system yields a 42.6% relative reduction in the equal error rate with few additional computations.

  • PDF

인공지능 속성에 대한 고객 태도 변화: AI 스피커 고객 리뷰 분석을 통한 탐색적 연구 (Customer Attitude to Artificial Intelligence Features: Exploratory Study on Customer Reviews of AI Speakers)

  • 이홍주
    • 지식경영연구
    • /
    • 제20권2호
    • /
    • pp.25-42
    • /
    • 2019
  • AI speakers which are wireless speakers with smart features have released from many manufacturers and adopted by many customers. Though smart features including voice recognition, controlling connected devices and providing information are embedded in many mobile phones, AI speakers are sitting in home and has a role of the central en-tertainment and information provider. Many surveys have investigated the important factors to adopt AI speakers and influ-encing factors on satisfaction. Though most surveys on AI speakers are cross sectional, we can track customer attitude toward AI speakers longitudinally by analyzing customer reviews on AI speakers. However, there is not much research on the change of customer attitude toward AI speaker. Therefore, in this study, we try to grasp how the attitude of AI speaker changes with time by applying text mining-based analysis. We collected the customer reviews on Amazon Echo which has the highest share of AI speakers in the global market from Amazon.com. Since Amazon Echo already have two generations, we can analyze the characteristics of reviews and compare the attitude ac-cording to the adoption time. We identified all sub topics of customer reviews and specified the topics for smart features. And we analyzed how the share of topics varied with time and analyzed diverse meta data for comparisons. The proportions of the topics for general satisfaction and satisfaction on music were increasing while the proportions of the topics for music quality, speakers and wireless speakers were decreasing over time. Though the proportions of topics for smart fea-tures were similar according to time, the share of the topics in positive reviews and importance metrics were reduced in the 2nd generation of Amazon Echo. Even though smart features were mentioned similarly in the reviews, the influential effect on satisfac-tion were reduced over time and especially in the 2nd generation of Amazon Echo.

스마트 스피커와 요리하기: 음성기반 레시피 제공 서비스의 사용자 경험 (Cooking with a smart speaker: User experience of cooking with a voice-only recipe service)

  • 정구민;정혜선
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.13-23
    • /
    • 2021
  • 음성 기반 컴퓨팅 기술과 서비스의 수준이 높아지면서, 이러한 음성 기반 기술을 활용할 분야도 넓어지고 있다. 그 중 스마트 스피커의 보급이 증가하면서 다양한 음성기반 서비스가 출시되고 있고, 1인 가구 및 요리 방송이 증가하면서 스마트 스피커를 사용한 레시피 서비스 제공이 시작되었다. 전통적으로 레시피 서비스는 시각적인 정보제시를 주로 사용하였으나, 사용자의 경험 증진을 위해서는 음성만으로도 동일한 정보를 적절하게 제공해야 한다. 스마트 스피커가 가진 장점은 '핸즈프리'가 가능하다는 것인데, 이는 요리 상황에서 효율적으로 쓰일 수 있으며, 시각을 사용하지 못하는 사용자에게 도움이 될 수 있다. 본 연구에서는 음성 기반 레시피 서비스가 사용자의 요리 활동을 얼마나 효과적으로 지원하는지 살펴보았다. 현장연구로 요리 숙련도별로 새로운 레시피를 조리하도록 하였고, 소리내어 생각하기(think-aloud), 관찰 및 인터뷰를 실시했다. 그 결과 음성 기반 레시피 서비스는 사용자의 손을 자유롭게 하여 조리 활동을 중단하지 않으면서 레시피를 확인할 수 있도록 하였으나, 조리지시가 한꺼번에 주어져서 사용자가 기억 부담을 하는 것이 관찰되었다. 시각적인 정보의 부재는 심각한 단점으로 작용하지는 않았으나, 조리의 효율성과 완성도에 영향을 주었다. 본 연구의 결과는 HCI의 발전과 음성을 사용한 레시피 서비스 사용자 경험 연구에 참고 될 수 있을 것으로 기대된다.

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

로봇 시스템에의 적용을 위한 음성 및 화자인식 알고리즘 (Implementation of the Auditory Sense for the Smart Robot: Speaker/Speech Recognition)

  • 조현;김경호;박영진
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2007년도 춘계학술대회논문집
    • /
    • pp.1074-1079
    • /
    • 2007
  • We will introduce speech/speaker recognition algorithm for the isolated word. In general case of speaker verification, Gaussian Mixture Model (GMM) is used to model the feature vectors of reference speech signals. On the other hand, Dynamic Time Warping (DTW) based template matching technique was proposed for the isolated word recognition in several years ago. We combine these two different concepts in a single method and then implement in a real time speaker/speech recognition system. Using our proposed method, it is guaranteed that a small number of reference speeches (5 or 6 times training) are enough to make reference model to satisfy 90% of recognition performance.

  • PDF

Development of a Work Management System Based on Speech and Speaker Recognition

  • Gaybulayev, Abdulaziz;Yunusov, Jahongir;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제16권3호
    • /
    • pp.89-97
    • /
    • 2021
  • Voice interface can not only make daily life more convenient through artificial intelligence speakers but also improve the working environment of the factory. This paper presents a voice-assisted work management system that supports both speech and speaker recognition. This system is able to provide machine control and authorized worker authentication by voice at the same time. We applied two speech recognition methods, Google's Speech application programming interface (API) service, and DeepSpeech speech-to-text engine. For worker identification, the SincNet architecture for speaker recognition was adopted. We implemented a prototype of the work management system that provides voice control with 26 commands and identifies 100 workers by voice. Worker identification using our model was almost perfect, and the command recognition accuracy was 97.0% in Google API after post- processing and 92.0% in our DeepSpeech model.

이동환경에서 치열영상과 음성을 이용한 멀티모달 화자인증 시스템 구현 (An Implementation of Multimodal Speaker Verification System using Teeth Image and Voice on Mobile Environment)

  • 김동주;하길람;홍광석
    • 전자공학회논문지CI
    • /
    • 제45권5호
    • /
    • pp.162-172
    • /
    • 2008
  • 본 논문에서는 이동환경에서 개인의 신원을 인증하는 수단으로 치열영상과 음성을 생체정보로 이용한 멀티모달 화자인증 방법에 대하여 제안한다. 제안한 방법은 이동환경의 단말장치중의 하나인 스마트폰의 영상 및 음성 입력장치를 이용하여 생체 정보를 획득하고, 이를 이용하여 사용자 인증을 수행한다. 더불어, 제안한 방법은 전체적인 사용자 인증 성능의 향상을 위하여 두 개의 단일 생체인식 결과를 결합하는 멀티모달 방식으로 구성하였고, 결합 방법으로는 시스템의 제한된 리소스를 고려하여 비교적 간단하면서도 우수한 성능을 보이는 가중치 합의 방법을 사용하였다. 제안한 멀티모달 화자인증 시스템의 성능평가는 스마트폰에서 획득한 40명의 사용자에 대한 데이터베이스를 이용하였고, 실험 결과, 치열영상과 음성을 이용한 단일 생체인증 결과는 각각 8.59%와 11.73%의 EER를 보였으며, 멀티모달 화자인증 결과는 4.05%의 EER를 나타냈다. 이로부터 본 논문에서는 인증 성능을 향상하기 위하여 두 개의 단일 생체인증 결과를 간단한 가중치 합으로 결합한 결과, 높은 인증 성능의 향상을 도모할 수 있었다.

AI 스피커와 연동되는 스마트 약통 개발 (Development of Smart medicine box Integrated with AI speaker)

  • 최효현;유광식
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.289-290
    • /
    • 2022
  • 본 논문에서는 약을 제 시간에 복용할 수 있도록 도와주는 스마트 약통 서비스를 개발한 결과를 보인다. 라즈베리파이, 자석감지센서, LED, AI스피커와 외부서버를 결합한 구조로 개발하였으며, 사용자는 약을 복용하였는지에 따라 AI스피커를 통해서 약 복용 여부를 물어볼 수 있고 LED를 통해서 아침, 점심, 저녁의 시간에 따라 복용해야 하는 약을 표시해 줄 수 있도록 하였다.

  • PDF