• 제목/요약/키워드: Artificial Intelligence Speaker

검색결과 45건 처리시간 0.023초

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

사물인터넷 환경에서 지능형 스피커의 활용성 분석 (Analysis of the utility of intelligent speakers in the Internet of Things environment)

  • 이성훈;이동우
    • 사물인터넷융복합논문지
    • /
    • 제8권3호
    • /
    • pp.41-46
    • /
    • 2022
  • 사물인터넷환경에서의 스마트 홈은 가정안에서의 모든 기기들이 서로 연결되어 사용자에 최적의 생활환경을 제공함을 목표로 한다. 이러한 스마트 홈 환경에서 모든 기기들을 관리, 제어할 수 있는 방법으로 인공지능 스피커가 사용되고 있다. 기존의 스피커 기능이 단순한 음악재생에서 스마트 홈 공간에 존재하는 모든 기기들을 제어, 관리하는 인터페이스의 역할로 전환되고 있는 것이다. 본 연구에서는 인공지능 스피커의 선두 주자인 미국 및 국내의 시장 현황 및 활용성 분석 내용을 다루었다. 주요 대상 기업으로는 미국의 아마존, 구글, 애플등을 비롯하여 국내의 kakao, SKT, KT등을 대상으로 하였다. 또한 인공지능 스피커에 대한 국내 사용자들의 반응 결과를 토대로 주요 문제점에 대한 도출 및 개선 방안등에 대해 기술하였다.

기술수용모델을 활용한 지체장애인의 인공지능 스피커 사용 의도에 관한 연구 (A Study on the Use of Artificial Intelligence Speakers for the People with Physical disability using Technology Acceptance Model)

  • 박혜현;이선민
    • 한국산학기술학회논문지
    • /
    • 제22권2호
    • /
    • pp.283-289
    • /
    • 2021
  • 4차 산업혁명에 기반하여 열린 스마트 홈 시대의 메인 허브 역할을 하는 인공지능 스피커에 많은 장애인의 관심이 모이고 있다. 그러나 인공지능 스피커를 향한 장애인의 니즈(Needs)에 비하여 현재까지 인공지능 스피커를 사용하는 장애인 사용자의 수는 매우 저조하다. 이에 본 연구는 장애 유형 중 가장 많은 수를 차지하는 지체장애인에 초점을 맞추어 지체장애인의 인공지능 스피커 사용 의도를 파악하는 것을 목적으로 하였다. 이에 따라 본 연구는 장애인의 인공지능 스피커 사용 의도에 영향을 미치는 요인을 확인하고 요인 간 인과관계를 분석하기 위하여, 최근 첨단 IT 기술의 수용과 관련하여 설명력이 높은 모형으로 알려진 기술수용모델(Technology Acceptance Model, TAM)을 활용하였다. 기술수용모델의 이론적 모델을 바탕으로 인공지능 스피커에 대한 인지된 용이성과 인지된 유용성이 장애인의 인공지능 스피커 사용 의도에 미치는 영향을 구조방정식(Structural Equation Modeling, SEM)을 이용하여 분석하였다. 연구 결과 기술수용모델은 지체장애인의 인공지능 스피커 사용 의도를 파악하기 위해 적합한 모형인 것으로 확인되었으며, 구체적으로 인공지능 스피커에 대한 인지된 용이성은 유용성에 유의미한 영향을 미치는 것으로 나타났다. 또한, 지체장애인의 인공지능 스피커에 대한 인지된 용이성은 사용 의도에 통계학적 유의미한 영향을 미치지 않는 것으로 나타났으며, 인지된 유용성은 사용 의도에 유의미한 영향을 나타내는 것으로 나타났다. 본 연구를 통해 장애인의 인공지능 스피커 사용 의도에 영향을 미치는 요인을 확인하고 요인 간 인과관계를 확인할 수 있었으며, 이는 장애인 맞춤형 인공지능 스피커 서비스 개발과 장애인의 인공지능 스피커 사용성을 향상을 위한 기초자료로써 의의가 있다.

Proposal for a Sensory Integration Self-system based on an Artificial Intelligence Speaker for Children with Developmental Disabilities: Pilot Study

  • YeJin Wee;OnSeok Lee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권4호
    • /
    • pp.1216-1233
    • /
    • 2023
  • Conventional occupational therapy (OT) is conducted under the observation of an occupational therapist, and there are limitations in measuring and analyzing details such as degree of hand tremor and movement tendency, so this important information may be lost. It is therefore difficult to identify quantitative performance indicators, and the presence of observers during performance sometimes makes the subjects feel that they have to achieve good results. In this study, by using the Unity3D and artificial intelligence (AI) speaker, we propose a system that allows the subjects to steadily use it by themselves and helps the occupational therapist objectively evaluate through quantitative data. This system is based on the OT of the sensory integration approach. And the purpose of this system is to improve children's activities of daily living by providing various feedback to induce sensory integration, which allows them to develop the ability to effectively use their bodies. A dynamic OT cognitive assessment tool for children used in clinical practice was implemented in Unity3D to create an OT environment of virtual space. The Leap Motion Controller allows users to track and record hand motion data in real time. Occupational therapists can control the user's performance environment remotely by connecting Unity3D and AI speaker. The experiment with the conventional OT tool and the system we proposed was conducted. As a result, it was found that when the system was performed without an observer, users can perform spontaneously and several times feeling ease and active mind.

Development of a Work Management System Based on Speech and Speaker Recognition

  • Gaybulayev, Abdulaziz;Yunusov, Jahongir;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제16권3호
    • /
    • pp.89-97
    • /
    • 2021
  • Voice interface can not only make daily life more convenient through artificial intelligence speakers but also improve the working environment of the factory. This paper presents a voice-assisted work management system that supports both speech and speaker recognition. This system is able to provide machine control and authorized worker authentication by voice at the same time. We applied two speech recognition methods, Google's Speech application programming interface (API) service, and DeepSpeech speech-to-text engine. For worker identification, the SincNet architecture for speaker recognition was adopted. We implemented a prototype of the work management system that provides voice control with 26 commands and identifies 100 workers by voice. Worker identification using our model was almost perfect, and the command recognition accuracy was 97.0% in Google API after post- processing and 92.0% in our DeepSpeech model.

인공지능 음성 스피커의 의인화 특성 지각 정도가 지속적 이용 의향에 미치는 영향: 통합 수용 모델을 기반으로 (The Effect of Perceived Anthropomorphic Characteristics on Continuous Usage Intention of Artificial Intelligence Voice Speaker : Based on the Integrated Adoption Model)

  • 이성준
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.41-55
    • /
    • 2021
  • AI(Artificial Intelligence) 음성 스피커는 많은 이들의 관심을 받으며 AI 기술 기반 제품 관련 초기 시장 형성과 발전에 중요한 역할을 하고 있다. 이런 가운데 본 연구는 확장된 기술 수용 모델과 인지된 즐거움 및 혁신 저항 요인을 통합한 통합 수용 모델을 기반으로 AI 음성 스피커 지속적 이용 의향 영향 요인들을 살펴보았다. 또한, AI 음성 스피커만의 차별화된 요소로서 3가지 인지된 의인화된 특성들(인지된 이성적지지, 인지된 친밀성, 인지된 인지적 개방성) 요인들이 어떻게 AI 음성 스피커 지속적 이용 의향에 영향을 미치는 지를 살펴 보았다. 자료는 20-30대 AI 음성 스피커 이용 경험자를 중심으로 온라인 설문을 통해 수집되었으며, 수집된 자료는 구조방정식모델(Structural Equation Modeling)을 통하여 분석되었다. 연구결과, 인지된 용이성, 인지된 유용성, 인지된 즐거움 및 혁신 저항 모두 지속적 이용 의향에 유의미한 영향을 미치는 것으로 나타났다. 또한, 인지된 이성적지지, 인지된 친밀성, 인지된 인지적 개방성 3가지 인지된 의인화된 특성들 인지된 용이성, 인지된 유용성 및 인지된 즐거움에 영향을 미치는 것으로 나타났다. 본 연구가 지니는 다양한 함의들도 같이 논의된다.

A study on the usage intention of AI(artificial intelligence) speaker

  • Kwon, Soon-Hong;Lim, Yang-Whan;Kim, Hyun-Jeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.199-206
    • /
    • 2020
  • 본 연구에서는 소비자가 인공지능 스피커를 사용하고자 하는 의도에 영향을 미치는 요인을 제품에 대한 가치 지각과 제품 필요성 지각을 중심으로 연구하였다. 소비자의 제품에 대한 가치 지각에 영향을 미치는 요인으로 편익과 비용을 구분하였고, 정보기술 제품이라는 특성을 반영하여 제품에 대한 유용성 지각을 포함시켰다. 실증 연구결과, 인공지능 스피커 제품에 대한 소비자의 편익 지각과 유용성 지각은 가치 지각과 필요성 지각에 각각 정적(+)으로 영향을 미쳤고, 필요성 지각은 가치 지각에 정적(+)으로 유의한 영향을 미쳤으며, 필요성 지각과 가치 지각은 각각 사용 의도에 정적(+)으로 유의한 영향을 미쳤다. 그렇지만, 소비자가 지각하는 비용은 가치 지각에 유의한 영향을 미치지 않았다.

인공지능 속성에 대한 고객 태도 변화: AI 스피커 고객 리뷰 분석을 통한 탐색적 연구 (Customer Attitude to Artificial Intelligence Features: Exploratory Study on Customer Reviews of AI Speakers)

  • 이홍주
    • 지식경영연구
    • /
    • 제20권2호
    • /
    • pp.25-42
    • /
    • 2019
  • AI speakers which are wireless speakers with smart features have released from many manufacturers and adopted by many customers. Though smart features including voice recognition, controlling connected devices and providing information are embedded in many mobile phones, AI speakers are sitting in home and has a role of the central en-tertainment and information provider. Many surveys have investigated the important factors to adopt AI speakers and influ-encing factors on satisfaction. Though most surveys on AI speakers are cross sectional, we can track customer attitude toward AI speakers longitudinally by analyzing customer reviews on AI speakers. However, there is not much research on the change of customer attitude toward AI speaker. Therefore, in this study, we try to grasp how the attitude of AI speaker changes with time by applying text mining-based analysis. We collected the customer reviews on Amazon Echo which has the highest share of AI speakers in the global market from Amazon.com. Since Amazon Echo already have two generations, we can analyze the characteristics of reviews and compare the attitude ac-cording to the adoption time. We identified all sub topics of customer reviews and specified the topics for smart features. And we analyzed how the share of topics varied with time and analyzed diverse meta data for comparisons. The proportions of the topics for general satisfaction and satisfaction on music were increasing while the proportions of the topics for music quality, speakers and wireless speakers were decreasing over time. Though the proportions of topics for smart fea-tures were similar according to time, the share of the topics in positive reviews and importance metrics were reduced in the 2nd generation of Amazon Echo. Even though smart features were mentioned similarly in the reviews, the influential effect on satisfac-tion were reduced over time and especially in the 2nd generation of Amazon Echo.

얼굴형 인공지능 스피커에 대한 선호의 나이 효과 (Age differences of preference for humanoid AI speakers)

  • 오성주;황지현;유지호;한소원
    • 인지과학
    • /
    • 제29권1호
    • /
    • pp.1-16
    • /
    • 2018
  • 본 연구에서 얼굴형 인공지능 스피커에 대한 선호도와 신뢰도가 나이에 따라 어떻게 달라지는지 살펴보았다. 인공지능 스피커의 외형은 성별(남녀)과 나이(20/60대) 네 가지 범주에서 로봇 얼굴과 사람 얼굴이 7단계로 혼합되어 제시되었다. 참여자들 역시 이 네 가지 범주에 맞춰 모집되었고, 각 범주의 얼굴 자극에 대한 호감도와 신뢰도를 7점 척도로 평가하였다. 연구 결과, 인공지능 스피커의 외형이 사람 얼굴을 닮을수록 노인들은 호감도와 신뢰도를 높게 평가했지만, 청년들은 로봇 얼굴과 사람 얼굴이 중간 정도 섞인 형태를 가장 선호하고 신뢰하여 전체적으로 뒤집힌 U자 형태의 평가를 보였다. 네 가지 얼굴 범주에서 선호도를 평가했을 때, 참여자들은 나이와 성별과 관계없이 젊은 얼굴이 가장 높은 점수를 받았다. 그런데, 이모티콘 얼굴과 얼굴이 없이 비어있는 조건을 추가하여 물었을 때, 여전히 노인들은 사람 얼굴을 가장 선호했지만, 청년들은 상대적으로 이모티콘 얼굴과 비어있는 조건을 더 선호하였다. 종합하면, 인공지능 스피커 맥락에서, 노인들은 청년들보다 로봇 얼굴이 아닌 사람 얼굴에 높은 수용적 태도를 보였다. 홀로 사는 노인 인구가 증가하는 미래에 인공지능 스피커의 역할이 중요해짐에 따라, 노인들을 위한 인공지능 스피커의 디자인과 개발에서 본 연구 결과가 좋은 참고가 될 것으로 기대된다.