DOI QR코드

DOI QR Code

Interactions between AI Speaker and Children : A Field Study on the Success/Failure Cases by Types of Interactions

인공지능 스피커와 아동들의 상호작용 :유형별 성공/실패 사례 도출을 위한 현장 연구

  • 홍정림 (서울시립대학교 경영학과 박사과정) ;
  • 최보름 (서울시립대학교 경영학과 부교수)
  • Received : 2020.03.20
  • Accepted : 2020.06.18
  • Published : 2020.07.28

Abstract

As the AI speaker market is growing rapidly in recent years, the competition for the preoccupation of children who are the main users and the future prospective customers of the related companies is very intense. However, there is a lack of empirical research on how children interact with AI speakers. Therefore, this research examines the interactions between children and AI speakers, primarily through field studies, to extract what functions they use and what features they have. For this purpose, 799 conversations were collected and analyzed using the log data of the AI speaker recorded in real time. As a result, children were more likely to use children's songs, fairy tales, emotional conversations, and personification compared to adults. In addition, content analysis by specific types resulted in success/failure cases of interaction between children and AI speakers and proposed improvements by failure type. This study is meaningful in that it identifies children's AI speaker preferences, content, and major conversation patterns, and provides guidelines for developing services that meet children's eye level.

최근 인공지능 스피커 시장이 급속도로 성장하는 가운데 관련 기업들의 주 사용자이자 미래 잠재 고객인 아동들을 선점하기 위한 경쟁이 매우 치열하다. 그러나 인공지능 스피커와 일반 성인 사용자와의 연구는 활발한 반면, 아동들과 인공지능 스피커 간의 상호작용 방식에 관한 실증적 연구는 매우 부족한 실정이다. 따라서 본 연구에서는 아동들과 인공지능 스피커의 상호작용을 관찰하여 주로 어떤 기능을 사용하며, 어떤 특징이 있는지 현장 연구를 통하여 살펴보고자 한다. 이를 위해 실시간으로 기록된 인공지능 스피커의 로그 데이터를 이용하여 799건의 대화 내용을 수집, 분석하였다. 연구 결과, 성인들에 비해 아동들은 동요와 동화 재생 이용, 감성 대화와 의인화 표현 빈도가 높았다. 또한, 세부 유형별 컨텐츠 분석을 통하여 아동과 인공지능 스피커의 상호작용 성공/실패 사례를 도출하였으며 실패 유형별 개선 방안을 제안하였다. 본 연구는 아동들의 인공지능 스피커 선호 기능과 콘텐츠 및 주요 대화 형태를 파악하고, 이를 바탕으로 아동의 눈높이에 맞는 서비스 개발에 가이드라인을 제공한다는 점에서 의의가 있다.

Keywords

I. 서론

음성인식 기술이 발달하면서 음성을 통해 제어가 가능한 스마트 기기들이 늘고 있다. 그중에서도 개인비서 역할을 하는 인공지능 스피커의 사용자가 전 세계적으로 증가하는 추세이다[1]. 인공지능 스피커의 국제시장 규모는 약 43%씩 성장하여 2020년에는 21억 달러 정도 규모일 것으로 전망하고 있으며[2], 국내 시장 또한 2020년까지 약 11조 1000억 원에 달할 것이라고 예상한다[3]. 국내·외 다수 기업들이 인공지능 스피커 개발에 힘쓰고 있는 가운데 사용자의 음성을 통해 개인비서 역할을 하는 인공지능 스피커인 아마존의 에코(Echo)와 구글의 홈(Home)이 세계 시장의 1, 2위를 차지하고 있다[4][5]. 국내에 출시된 인공지능 스피커로는 네이버의 ‘프렌즈’와 카카오의 ‘미니’, 이동통신사 SKT의 ‘누구’와 KT의 ‘기가지니’ 등이 있다. 한국의 인공지능 스피커 점유율(8.1%)은 글로벌 전체 시장에서 미국(45.6%)과 중국(20.0%)에 이어 3위이다. 음성인식 기기 사용자들이 가장 많이 하는 활동은 무엇인지에 관한 설문조사에 따르면 가장 많이 사용하는 기능은 음악 재생으로 자녀에게 틀어주는 용도를 포함한 것이다. 그다음으로는 조명 제어, 타이머 설정 등의 기능을 사용한다[4].

이처럼 인공지능 스피커의 기능은 점점 다양해지고, 사람들의 라이프 스타일에 최적화되고 있다. 음악 재생, 정보 검색, 쇼핑, 스케줄 관리 등과 같은 편의 서비스기능을 사용자에게 제공한다. 또한, 인공지능 스피커는 가정에서 사용하는 스마트 기기들을 제어하는 허브 역할을 할 핵심 기기가 될 전망이다[4]. 이러한 이유로 글로벌 기업들은 고객을 선점하기 위해 인공지능 스피커 관련 기술들을 빠르게 개선하고 있으며, 차별화된 기능(음악감상, 개인비서, 음성구매, 스마트 홈, 음식 배달/주문 등)을 강화한 인공지능 스피커를 분류된 타겟 유저에게 선보이고 있다[7][8].

미국의 NPR & Edison 조사에 따르면 응답자의 57%가 아이들 때문에 인공지능 스피커를 구매한다고 했으며, 그중에서 88%가 “아이들이 인공지능 스피커를 즐긴다”라고 답하였다[9]. 이처럼 아동들은 인공지능 스피커의 구매 요인임과 동시에 주요 사용자인 것으로 확인되었다. 인공지능 스피커 시장의 선두 주자인 아마존은 키즈 전용 옵션(사용 시간 설정, 음란 가사 필터링 등)을 제공하는 버전 ‘에코 닷 키즈 에디션’을 해외시장에 출시했다[10]. 국내 시장에서도 인공지능 스피커가 필수 가전처럼 인식되면서 이동통신사들은 모두 어린이 고객 확보에 노력하고 있다[11]. 네이버와 카카오 또한 아동 고객층을 위한 다양한 콘텐츠 개발 등 다각적인 노력을 펼치고 있다[12][13]. 카카오는 아이들에게 인기가 높은 유튜브 크리에이터(영상 창작자: 도티, 잠뜰, 허팝 등)의 음성을 ‘카카오미니’에 적용하려고 준비중이다[13]. 네이버는 통신사 LG유플러스와 협약하여 영어 동화 서비스를 제공하고, 일상적인 대화가 가능한 어린이 전용 ‘프렌즈플러스 미니언즈’를 선보였다[12]. 이같이 주사용자인 동시에 잠재 고객인 아동들을 고객으로 선점하기 위해 국내·외 산업계의 경쟁이 매우 치열하다[12-14]. 따라서, 아동들은 인공지능 스피커와 주로 어떤 상호작용을 하는지 또는 성인들의 상호작용과는 어떤 차이를 보이는지에 관한 구체적인 연구가 필요하다.

기존 아동 대상 실험에서는 아이들이 선호하는 대화방식과 상호작용 패턴, 응답 지연에 대한 행동 반응에 관한 연구 등이 있다[14][15]. 그러나 아동들과 인공지능 스피커 간의 상호작용 방식에 관한 실증 연구가 부족한 편이다[14]. 따라서 본 연구는 그룹 상황에서 아동과 인공지능 스피커 간의 대화를 관찰하여 아동들이 주로 어떤 상호작용을 하는지를 살펴보고자 한다.

본 논문의 구성은 다음과 같다. 1장은 연구배경과 필요성에 관해 서술하였다. 제2장에서는 인공지능 스피커 관련 선행 연구를 살펴보았다. 제3장에서는 연구 절차와 데이터 수집 및 분석 방법에 관하여 서술하였다. 이를 토대로 4장에서는 아동들과 인공지능 스피커 간의 상호작용을 분석하여 토픽 분류 및 토픽 유형별 상호작용 성공/실패 여부를 파악하였다. 마지막으로 5장에서는 실패 사례를 통한 개선사항을 논의하고자 하였다.

II. 선행연구

음성 인터페이스에 관한 연구에서는 음성인식 기술 개발에 관한 연구가 주를 이루고[16][17], 최근에는 사용자 경험 측면에서 다양한 디바이스에 적용되는 음성 인터페이스 연구가 활발하다[18-21]. 스마트폰 음성 인터페이스의 사용자 인식에 관한 연구에서는 사용자에게 음성 인터페이스의 불편하다는 인식을 극복할 수 있는 적절한 사용자 경험을 제공하는 것이 중요하며, 특히 감성적 가치를 제공하는 것이 사용자 경험에 긍정적 영향을 준다고 밝혔다[19][20]. 차량용 음성 인터페이스에 관한 연구에서는 유용성, 사용성, 만족도, 감성을 중심으로 사용자 경험 요인을 측정하였는데, 연구결과 실제 사용자의 사용성과 감성 차원에서 긍정적인 효과가 있음을 확인했다[21].

인공지능 스피커 사용자 관점의 연구에서는 주로 성인을 대상으로 인공지능 스피커의 지속적인 사용성에 영향을 주는 요인에 대하여 밝혔다[22][23]. 예를 들어, 인공지능 스피커와의 대화를 통해 형성된 친밀도, 신뢰도, 의인화가 인공지능 스피커에 대한 만족도와 지속적인 이용 의도에 긍정적인 영향을 준다는 결론을 도출하였다[24]. 또한, 다른 연구에서는 정보 습득, 휴식, 편리성 추구, 현실 일탈 등이 인공지능 스피커의 이용 동기로 나타났다[25].

사용자가 인공지능 스피커와 상호작용하는 데 있어 주요 특성을 파악하기 위한 연구도 진행되었다[26]. 20∼30대 성인 12명을 대상으로 인공지능 스피커에 대한 기대감에 대해 인터뷰한 결과, 참가자들은 인공지능 스피커가 자신의 음성에 반응하는 것(불빛, 소리 등)에 대해 긍정적인 반응을 보였다. 또한, 인공지능 스피커가 개인화, 능동성 등의 기능을 갖출 필요가 있다고 생각하지만, 실제 사람과 같은 느낌을 주는 것에 대해서는 부정적인 반응을 보였다[26]. 또 다른 연구에서는 인공지능 스피커와 대화할 때 중요하게 여기는 특성에 대해 인터뷰하였는데, 연구결과 성인은 인공지능 스피커와 유머를 주고받는 것에 긍정적인 반응을 보였지만 대체로 인공지능 스피커를 도구로써 바라보는 경향을 보였으며, 정형화된 대답에 대한 한계가 있다고 느낀다[27].

최근 많은 기업이 아동들을 주요 고객으로 설정하고 있다[10-12]. 또한, 학계에서도 아동과 인공지능 스피커 간의 상호작용에 관한 연구가 증가하는 추세이다[28]. 그러나 성인과 인공지능 스피커의 상호작용 연구보다 아동이 어떻게 인공지능 스피커에게 질문을 하고 답을 얻는지에 관한 연구는 아직 부족한 실정이다[14].

아동들은 호기심이 많고 지속적인 질문을 하는 것으로 알려져 있다[29][30]. 기존의 정보 검색 방식은 검색필드에 키워드를 입력하고, 글로 정리된 검색 결과를 읽어야 해서 아동들에게는 어려운 방식일 수 있다[31-33]. 인공지능 스피커가 보편화 되면서 읽기와 쓰기에 익숙하지 않은 어린이들도 독립적으로 자유롭게 검색하는 것이 가능해졌다.

아동과 인공지능 스피커의 상호작용에 관한 기존 연구는 대부분 아마존의 인공지능 스피커 에코 닷 혹은 구글 홈 미니를 사용하는 미국 사용자를 대상으로 진행되었다[28][34]. 구글 홈 미니를 사용하는 5∼6세 아동을 관찰한 결과, 아동들은 반복적인 질문을 통해 인공지능 스피커의 답변을 얻고자 하는 경향이 있었으며, 인공지능 스피커는 아동들의 질문에 절반 정도만 대답하였다[28]. 또한, 5∼12세 어린이들을 대상으로 인공지능 스피커에게 주어진 질문에 대한 답변을 얻어내는 모습을 관찰한 결과, 어린이들은 또박또박 말하기, 명사를 대명사로 대체하기, 단어 순서 바꾸기 등의 방법으로 질문을 재구성하였으나 답변을 이끌어내는 데는 도움이 되지 않았다[34].

앞서 살펴본 기존 연구의 경우, 주어진 질문을 통해 아동과 인공지능 스피커가 대화하는 경우가 대부분이다[28][34]. 이러한 방식으로 연구가 진행되는 경우, 실제 사용 환경과 다르므로 연구자가 의도하는 결과 이외의 자연스러운 상황을 도출해내기 어렵다는 단점이 있다[34]. 또한, 부모님 혹은 보호자를 동반하여 인공지능 스피커와 대화하는 경우가 대부분이다[14][34]. 이와 같은 상황에서 아이들은 어른들을 의식할 수 있으므로 자유로운 상호작용을 기대하기 어렵다[34]. 따라서 본 연구에서는 아동들과 인공지능 스피커의 자연스러운 대화를 관찰하고자 한다. 이를 통해, 아동들이 인공지능 스피커와 상호작용하면서 활용하는 주기능과 상호작용 방식에 관해 살펴보고자 한다.

III. 연구 방법

1. 연구 절차

본 연구는 실제 유치원에 재원중인 5∼7세의 아동 72명(여자 34명, 남자 38명, 평균 연령: 6.23세)을 대상으로 진행되었다. 아동들은 2개의 유치원 총 다섯반에 설치된 네이버 인공지능 스피커 프렌즈와 6개월 간 생활하였다. 연구를 위한 데이터 수집 전, 사전 준비로 아동들이 인공지능 스피커 사용법을 숙지하는 과정을 거쳤다. 일단, 인공지능 스피커 제조사가 제공하는 사용설명 동영상을 보여주었다. 그 다음, 제공된 사용설명서에 따라 연구자들이 직접 인공지능 스피커와 상호작용 하면서 인공지능 스피커 사용법을 알려주었다. 예를 들어, ‘클로바’라고 부르면 인공지능 스피커와 대화가 시작되는 점과 음악, 동화, 날씨, 궁금한 점, 대화 등 여러기능을 사용할 수 있다는 점을 알려주었다. 마지막으로, 모든 아동들이 약 10분간 직접 인공지능 스피커와 대화하면서 사용법을 익혔다.

사전 준비 과정을 마친 후, 아동들은 유치원 휴식시간에 인공지능 스피커와 자유롭게 상호작용하였으며, 다수의 아이들이 대화를 원할 경우에는 차례대로 줄을 서서 인공지능 스피커와 상호작용을 시도하는 것으로 규칙을 정하였다. 대화 내용은 텍스트 데이터로 변환되어 실시간 저장되었다.

2. 데이터 수집 및 분석

데이터는 네이버 클로바 앱에서 인공지능 스피커와 사용자와의 대화 내용이 텍스트 데이터로 저장되는 점을 이용하여 3일마다 로그값을 저장하여 수집하였다. 아동의 질문(발화)에 대한 인공지능 스피커의 응답을 하나의 레코드(1건)로 간주하였다. 수집된 데이터는 총 799건 중에서 아동들이 인공지능 스피커와 주고받은 대화는 759건이다. 나머지 40건의 데이터는 유치원 선생님을 비롯한 성인과 인공지능 스피커 사이에서의 상호작용으로 판단되어 본 연구의 분석에서 제외하기로 하였다.

본 연구의 데이터는 연구자들이 다섯 번의 리뷰를 거쳤으며, 다음과 같은 단계를 통해 분석하였다. 첫째, 대화 내용을 분석하여 아동의 질문(발화)을 기준으로 상호작용 유형을 분류하였다. 둘째, 아동 질문(발화)에 대한 인공지능 스피커의 응답을 분석하여 성공과 실패 여부를 판단하였다. 또한, 분류된 상호작용 유형을 유사한 테마를 기준으로 분류하고, 전체 상호작용을 세부적으로 카테고리화 하였다.

IV. 연구 결과

1. 인공지능 스피커와 아동들의 상호작용 유형

인공지능 스피커와 아동들의 상호작용은 [표 1]과 같이 대화 주제에 따라 음악, 감성대화, 정보, 동화, 기능, 오류 등 여섯 가지 토픽으로 분류하였다. [그림 1]과 같이 인공지능 스피커와 아동들은 음악 72.1%, 감성대화 9.4%, 정보 8.2%, 동화 5.7%, 기능 2.5%의다양한 상호작용을 하였으며, 상호작용의 오류도 2.2% 보였다. 인공지능 스피커 사용자인 성인들의 상호작용[9]과 같이 아동들의 상호작용에서도 음악의 실행률이 가장 높은 것으로 확인되었다. 또한, 5.7%(43건)의 동화 유형은 인공지능 스피커와 아동들만의 상호작용 특징이라 할 수 있다. 아동들의 전체 상호작용(759건)에서 구체적인 실행 수는 음악(547건), 감성대화(71건), 정보(62건), 동화(43건), 기능(19건), 오류(17건)와 같다.

표 1. 인공지능 스피커와 아동들의 상호작용 토픽 유형

CCTHCV_2020_v20n7_19_t0001.png 이미지

CCTHCV_2020_v20n7_19_f0001.png 이미지

그림 1. 인공지능 스피커와 아동들의 상호작용(토픽별-빈도)

[그림 2]는 인공지능 스피커와 아동들의 상호작용 토픽별 세부 유형을 보여준다. 음악(547건)의 ‘재생’과 ‘추천’ 부분에서 상호작용이 가장 활발했으며, 추천(58건)보다는 제목과 가수 이름을 통한 음악 재생(489건) 활동이 8배 더 많았다. 아동들은 주로 “터닝메카드 엔딩 노래 틀어줘” 또는 “디즈니 알라딘 ost 틀어줘”와 같이 구체적인 정보를 통해 음악 재생을 요구하였다. 또한, “봄날”과 같이 노래 제목만을 언급하며 재생을 요구한 예도 있다. 음악 추천에서 아동들은 “신나는(재밌는) 노래 틀어줘”, “겨울 동요 틀어줘”, “클래식 틀어줘”, “노래” 등과 같이 구체적인 정보 없이 음악 재생을 요구한 경우가 많았다. 가장 많이 재생된 음악 장르는 가요(171건), 동요(144건), 만화(140건)였으며, 그밖에 클래식(32건), 트로트(12건), 팝(9건), 배경음악(7건), 민요(3건), ASMR(2건), 뮤지컬(2건) 등이 재생되었다. 재생된 음악 장르 중에서 동요와 만화는 인공지능 스피커와 아동들만의 상호작용 특징이다.

CCTHCV_2020_v20n7_19_f0002.png 이미지

그림 2. 인공지능 스피커와 아동들의 상호작용 토픽 유형 세부 분류

감성대화에서는 ‘인사’에 해당하는 상호작용이 가장 활발했다. 아동들은 인공지능 스피커에게 “잘 지냈어?”라고 안부를 묻고, “너무 고마워”와 같이 칭찬을 하는 등 다양한 상호작용이 이루어졌다. ‘농담’에 해당하는 상호작용 예로는 “기가지니가 더 좋아”, “누구야”와 같은 장난과 “너는 왜 만들어졌어?”, “우리 엄마 나이 몇이야?”와 같은 농담 섞인 질문 등이 해당한다. 또한, ‘상담’ 부분에서 아동들은 인공지능 스피커에게 “어떤 친구들을 좋아해?”와 같은 질문과 “나는 OO(친구 이름)를 좋아해”라는 자신의 고민을 상담하며, “왜그래”와 “아니야”처럼 부정적인 단어로 ‘불만’을 표현하기도 하였다. 그 외에는 인공지능 스피커가 먼저 “많이 웃는 하루 보내세요”, “지치고 힘들 땐 하하 크게 웃어보세요” 같은 응원의 메시지로 사용자를 ‘격려’하기도 하였다.

정보에서는 지식 정보에 대한 상호작용이 34건으로 가장 활발했고, 생활 정보는 22건, 그 외 인공지능 스피커의 안내가 6건 있었다. 지식 정보는 사전적인 정보, 날짜와 운세, 서비스 정보, 음악 정보, 인물 정보 등으로 구성되고, 생활 정보는 “오늘 날씨 어때”, “오늘 미세먼지 어때”와 같이 날씨 정보를 얻기 위한 질문이 가장 많았다. 그 외에는 “너 얼마야”, “빼빼로 얼마야”와 같은 가격 정보와 “쿠키 만드는 방법 알려줘”와 같은 레시피, “쓰레기통이 궁금하네”와 같은 위치 정보 등에 대한 상호작용이었다. 그 외에도 인공지능 스피커는 “내일 날씨 미리 알려드려요”, “남은 배터리 양은 21퍼센트입니다.”와 같이 날씨 정보와 배터리 정보를 사용자에게 먼저 안내하기도 하였다.

동화는 인공지능 스피커와 성인들의 상호작용에서 나타나지 않는 아동들만의 특징 있는 상호작용이다. 동화는 “팥죽 할머니 동화 들려줘”와 같이 동화 제목을 통해 재생되고, 동화 추천은 “동화 틀어줘”, “어린이동화 들려줘”와 같이 구체적인 정보 없이 요구한 경우에 다양한 종류의 동화가 추천된다. 재생된 동화 종류로는 창작동화(13건), 명작동화(8건), 전래동화(6건), 겨울 관련 동화(5건), 뽀로로(4건), 역사(3건), 미스터리(2건), 천자문(1건), 지니키즈(1건) 등이 있다.

기능은 연속재생, 재생 중지, 볼륨 조절, 이름 변경 등으로 구성된다. “볼륨 크게 해줘”와 같은 기기제어에 관한 요구와 “save”와 “sad to go”와 같이 영어 콘텐츠를 이용하기 위한 대화 시도가 있었다. 나머지 17건의 ‘오류’는 아동들의 질문(발화)을 인공지능 스피커가 이해할 수 없는 경우와 공동환경에서 외부소리가 인식된 경우가 해당한다. 아동들의 부정확한 발음이 음성인식 실패의 원인이 될 수 있다[14].

2. 인공지능 스피커와 아동들의 상호작용에서의 성공과 실패

인공지능 스피커와 아동들의 상호작용을 분석한 결과 68.4%의 성공률과 31.6%의 실패율을 보였다. 실패율이 가장 높은 유형은 기능(63.2%)과 동화(34.9%) 부분이었다. 그리고 음악(29.3%), 정보(27.4%), 감성대화(26.8%) 순서의 실패율을 보였다.

표 2. 인공지능 스피커와 아동들의 상호작용에서의 성공/실패

CCTHCV_2020_v20n7_19_t0002.png 이미지

음악 유형의 실패율은 29.3%로 정확한 아티스트명과 제목을 요구하지 못한 것이 실패의 원인이었다. 가령 아동들은 “클로바 트와이스 틀어줘” 또는 “소년단 아임 파이 틀어줘” 같이 제목 없이 아티스트명으로 음악 재생을 요구하거나 부정확한 아티스트명 또는 제목으로 재생을 요구한 경우에는 인공지능 스피커가 “말씀하신 곡을 찾지 못했습니다. 정확한 아티스트명과 노래 제목을 말씀해주세요”라고 응답한다. 이처럼 아동들이 부정확한 정보를 통해 재생을 요구할 때는 연관 가수의 음악을 제시하거나, 제목과 관련성이 높은 음악을 추천/재생하여 상호작용 실패율을 낮추는 방안이 필요하다.

감성대화는 26.8%의 실패율을 보였으며, “친구들이 졸리대”, “나는 OO를 좋아해”와 같은 아동의 발화 의도를 인공지능 스피커가 파악하지 못한 것이 실패의 원인이었다. 이는 인공지능 스피커가 대화 속에 담긴 의미를 해석하는 데 있어서 기술적인 한계가 있음을 의미한다. 하지만 인공지능 스피커가 반드시 인간과 같은 느낌을 주는 것을 목표로 해야 하는지에 대해 제기한 연구도 있다[26].

정보 유형의 실패율은 27.4%로 주로 지식 정보와 생활(가격, 레시피) 정보 부분에서 나타났다. 예를 들어, “쿠키는 뭘로 만들어”라는 질문에 인공지능 스피커는 “잘 모르겠어요”라고 하며 정보 제공에 실패했지만 “쿠키 만드는 방법 알려줘”라고 시도한 질문에는 네이버 검색 결과를 제공하였다. 또한, “상어와 에너지 몇 개야 노래”와 같은 질문에서도 인공지능 스피커는 “말씀하신 곡을 찾지 못했습니다. 정확한 아티스트명과 노래 제목을 말씀해주세요.”라고 응답하며 아동들이 원하는 음악정보 제공에 실패하였다. 이러한 사례들은 인공지능 스피커가 아동들의 질문 의도를 정확하게 파악하지 못함을 보여주며, 이는 자연어처리 기술의 한계가 실패 원인임을 알 수 있다.

동화 유형에서는 “타인의 크리스마스 동화 틀어”, “나는 토마토 절대 안 먹어 동화” 같은 요구에 인공지능 스피커는 “안타깝지만 제 능력 밖의 일이에요”라고 응답하였다. 이것은 아동 관련 콘텐츠가 등록되지 않은 것이 실패한 원인이다. 따라서 아동들의 니즈를 빠르게 파악하여 어려움 없이 신규 콘텐츠를 제공해야 한다.

기능 유형에서 실패의 원인은 “헤이클로바 아까 그 웃긴 노래 틀어줘”와 같이 시차가 있는 연속재생을 요구한 경우와 영어 콘텐츠를 이용하기 위해 “save”처럼 영어로 대화를 시도한 경우였다. 지금까지 살펴본 상호작용 유형별 실패 원인을 구체적인 실패 사례를 통해 개선방안을 논의하고자 한다.

3. 인공지능 스피커와 아동들의 상호작용 실패 사례의 개선 제안

3.1 음악

인공지능 스피커와 아동들의 음악 관련 상호작용에서는 “노래”, “틀어봐”, “틀어”와 같은 요구(키워드)에도 음악이 재생되는 것을 확인할 수 있었다. 반면, 아동들은 [표 3]의 실패 사례와 같이 노래 ‘가사’를 통해서도 음악 재생을 요구하는 특징이 포착되었는데, 인공지능 스피커는 아동들의 ‘가사’를 통한 음악 재생요구를 파악하지 못하고 실패하였다. 이를 해결하기 위해 인공지능 스피커는 아동들이 선호하는 음악(동요, 만화, 가요)에 대해서는 ‘가사’를 통한 음악 재생이 가능하도록 기술적으로 지원해야 할 것이다. 또한, 아동들의 눈높이에 맞는 단순화된 문장 또는 키워드(명령어)로 음악이 재생될 수 있도록 해야 한다.

표 3. 인공지능 스피커와 아동들의 상호작용 실패 사례(음악)

CCTHCV_2020_v20n7_19_t0003.png 이미지

3.2 감성대화

[표 4]의 인공지능 스피커와 아동들의 감성대화 실패 사례1에서 “친구들이 졸리대”, “졸리네”와 같은 아동들의 감성대화에 인공지능 스피커는 “눈꺼풀이 무거워 보이네요. 잠시 눈을 감고 쉬어보세요”라고 응답하였다. 그러나, 이어지는 대화에서 아동들이 “잠깰 수 있는 음악”을 바로 요구한 것으로 보아 인공지능 스피커가 대화 의도를 파악하지 못하고 상호작용에 실패했다는 것을 알 수 있다. 실패의 원인은 유치원이라는 공적인 장소와 낮이라는 시간적 상황을 고려해 볼 때 “졸리네”와 같은 아동들의 감성 대화는 ‘자고 싶다’, ‘쉬고 싶다’라는 의미가 아닌 잠이 달아나게 하는 방법을 제안해 주었으면 하는 의도가 있음을 파악할 수 있다. 따라서 ‘졸림’과 같은 주제에 관하여 인공지능 스피커는 낮과 밤을 구별하여 응답할 필요가 있다. 가령 낮에는 “신나는 음악 틀어드릴까요?” 또는 “우리 끝말잇기게임 시작할까요?”라고 응답하고, 밤에는 “오늘 하루도 수고 많았어요. 잠시 눈을 감고 쉬어보세요”와 같이 시간적·공간적 상황에 맞는 응답 시나리오를 설계하여 인공지능 스피커가 적절하게 제공한다면 사용자들의 만족도는 높아질 것이다.

표 4. 인공지능 스피커와 아동들의 상호작용 실패 사례(감성대화)

CCTHCV_2020_v20n7_19_t0004.png 이미지

3.3 정보

[표 5]의 인공지능 스피커와 아동들의 정보에 관한 상호작용 실패 사례1에서 “12월 24일은 어떤 날이야”와 같이 아동들의 특정일에 관한 질문을 인공지능 스피커는 “오늘은 12월 24일 월요일입니다.”라고 응답했다. 그러나, 아동들이 같은 의미의 질문을 다시 한 것으로 보아 날짜와 요일에 대한 정보를 요구한 것이 아닌 특정일에 관한 다양한 정보를 얻고 싶은 의도가 있음을 파악할 수 있다. 따라서 인공지능 스피커는 12월 24일에 대한 폭넓은 정보를 파악하여 “크리스마스이브예요” 또는 “산타할아버지가 선물 주시는 날이에요”와 같이 다양한 응답을 할 수 있어야 한다. 또한, [표 5]의 실패사례2에서 아동들은 “너 얼마야”와 같은 인공지능 스피커 가격과 “빼빼로 얼마야”와 같은 정보를 요구했다. 그러나, 인공지능 스피커는 “네이버 클로바는 네이버와 라인의 인공지능플랫폼입니다. 자세한 내용은 클로바 홈페이지를 참고해 주세요”라고 우회적으로 대답하거나, 아동들의 아이템인 과자 정보의 제공에 실패하였다. 실패의 원인은 아동들의 관심 상품(장남감, 과자)에 대한 전반적인 정보를 제공할 수 있는 시스템이 구축되지 않았음을 알 수 있다. 이를 해결하기 위해서는 아동들이 선호하는 제품과 자주 하는 질문에 관하여 데이터베이스화하고, 인공지능 스피커가 아동들에게 어려움이 없이 정보를 제공할 수 있도록 해야 할 것이다.

표 5. 인공지능 스피커와 아동들의 상호작용 실패 사례(정보)

CCTHCV_2020_v20n7_19_t0005.png 이미지

3.4 동화

[표 6]의 인공지능 스피커와 아동들의 동화에 관한 상호작용 실패 사례1에서 “지니키즈 틀어줘”와 같은 아동들의 요구에 인공지능 스피커는 “안타깝지만 제 능력밖의 일이에요”라고 응답하며 상호작용에 실패하였다. 아동들이 요구한 ‘지니키즈’는 아동, 어린이를 위한 교육 콘텐츠[35]로써 제휴를 맺어야 이용할 수 있는 것이 실패의 원인이었다. 따라서 이와 같은 문제를 해결하기 위해서는 지니키즈, 쥬니버, 핑크퐁과 같은 아동 콘텐츠와의 제휴를 통해 오류 없는 서비스를 제공해야 한다. [표 6]의 실패 사례2에서 “겨울 동화 들려줘” 또는 “겨울 내용 동화 틀어줘”와 같은 아동들의 요구에 인공지능 스피커는 “음, 제가 이해하지 못했어요”라는 대답으로 상호작용에 실패하였다. 이는 아동들이 정확한 동화 제목으로 재생을 요구하지 않은 것이 실패의 원인이었다. 이를 해결하기 위해서 인공지능 스피커는 사용자가 ‘겨울 동화’와 ‘겨울내용 동화’를 언급할 경우, ‘겨울’이 배경인 ‘동화’ 라고 파악하고, 사용자에게 ‘겨울’과 관련된 동화 리스트를 구축하여 다양한 겨울 관련 동화를 재생해 줄 수 있도록 다양한 응답 시나리오를 설계해야 한다.

표 6. 인공지능 스피커와 아동들의 상호작용 실패 사례(동화)

CCTHCV_2020_v20n7_19_t0006.png 이미지

V. 결론 및 시사점

본 연구는 아동들과 인공지능 스피커의 자유로운 상호작용을 관찰하여 아동들의 상호작용 특징을 파악하고자 하였다. 연구 결과 아동들은 음악 부분에서 인공지능 스피커와 상호작용이 가장 활발했으며, 이러한 음악 관련 상호작용은 전 세계적인 인공지능 스피커 사용자의 공통적인 특징이라 할 수 있다[9]. 반면, 인공지능 스피커와 아동들만의 상호작용 첫 번째 특징은 음악 장르(동요, 만화)와 동화에서 확인되었다. 음악 재생 총 547건 중에서 아동들이 가장 많이 감상한 음악 장르는 가요였으나 동요(144건)와 만화(140건) 주제곡을 합친 음악이 284건으로 가요(170건)보다 훨씬 많이 재생되었음이 확인되었다. 또한, 음악 재생(489건)은 추천(58건)의 8배 많이 재생되었지만, 동화 유형의 재생수(24건)와 추천 수(19건)의 차이는 크게 없었다. 이것은 음악과 비교하면 아동들이 “동화 틀어줘”와 같이 정확한 정보 없이 동화 재생을 요구하는 경우가 많음을 의미한다. 따라서 인공지능 스피커의 사용자가 아동일 경우 관련 콘텐츠인 동요, 만화 주제곡의 스트리밍이 실시간 연동되어야 할 것이며, 창작동화와 같은 신규 서비스 제공에 어려움이 없도록 아동들의 트랜드를 항상 파악해야 할 것이다.

아동들의 상호작용 두 번째 특징은 성인이 인공지능 스피커를 보조도구 정도로 생각하는[27] 것과는 달리 감성대화에서 아동들은 인공지능 스피커를 의인화하는 것으로 확인되었다. 예를 들어, “흐흑” 또는 “오잉”과 같은 장난에 인공지능 스피커는 “울지 마세요. 제가 위로해 드릴게요”, “놀라운 걸 발견하셨나 봐요”라며 반응하였다. 또한, 아동들은 인공지능 스피커에 관한 호기심을 “너 얼마야.”, “지금 뭐 하고 싶어 클로바∼” 등과 같은 질문을 통해 표현하기도 하였다. 그밖에도 아동들의 인사에 인공지능 스피커는 “잘 지냈어요. 다시 만나기를 기다리고 있었답니다.”라고 자연스럽게 대화하는 것을 확인할 수 있었다. 이처럼 아동이 인공지능 스피커를 의인화하여 상호작용하는 것은 사용자의 만족도와 지속적인 사용에 긍정적인 영향을 미치는 것으로 확인된 바 있다[24]. 따라서 아동의 눈높이에 맞는 감성대화를 위해 발화 의도 요소를 추가한 자연어처리기술 적용이 필요하며, 아동들이 선호하는 제품, 음악(동요), 동화, 관심 콘텐츠(교육, 게임, 동영상 플레이어 등) 및 인물, 캐릭터 등에 대한 정보들이 인공지능 스피커를 통해 실시간 제공될 수 있어야 한다.

본 연구의 학문적 시사점은 다음과 같다. 첫째, 그룹상황에서 아동들과 인공지능 스피커의 상호작용별 개선점을 제안했다는 점에서 의의가 있다. 인공지능 스피커에 적용된 음성인식 기술은 소리 인식 외에도 화자인식, 의미론적 구문분석, 데이터베이스 및 콘텐츠 연동등의 기술이 융·복합적으로 적용되어야 원활한 대화가 가능한 분야이다. 따라서 본 연구의 실증 분석을 통해 도출된 실패 사례와 상호작용 유형별 구체적인 개선점은 지속적인 연구가 필요한 분야라는 점에서 학문적 의의가 있다.

둘째, 아동들과 인공지능 스피커와의 상호작용 토픽유형을 세부적으로 분류하고, 아동의 상호작용을 특징을 도출했다는 점에서 학문적 의의가 있다. 기존의 사용자 경험 연구에서는 인공지능 스피커와의 상호작용 방식에 관한 경험적 연구결과가 부족하여 사용자의 구체적인 상호작용 문제점이 무엇인지를 파악하기가 어려웠다. 본 연구는 인공지능 스피커와 아동들의 상호작용을 관찰하여 토픽 유형을 분류하였고, 분류된 토픽 유형별로 아동의 상호작용에 관한 실제적 특징(예: 가사를 통한 재생요구 등)을 파악했다는 점에서 학문적 의의가 있다.

본 연구의 결과는 실무적으로 활용될 수 있다. 첫째, 인공지능 스피커 관련 실무자들은 본 연구에서 도출된 상호작용 유형 빈도 및 성공 사례를 바탕으로 새로운 서비스를 설계 및 디자인할 수 있을 것이다. 예를 들어, 아동들이 가장 선호하는 동요와 동화 콘텐츠 관련 서비스를 다양하게 개발하고, 아동들의 눈높이에 맞추어 인공지능 스피커를 의인화하는 전략을 모색할 수 있다.

둘째, 본 연구가 제시한 상호작용별 실패 사례 개선점은 인공지능 스피커뿐만 아니라 다양한 음성인식 디바이스의 실패율을 개선하는데 실무적으로 활용될 수 있다. 예를 들어, 아동 사용자들에게 정확한 동요 제목을 요구하기보다는 가사를 통해 음악을 검색한다는 점을 이용하여 가사 검색을 통한 음악 재생 서비스로 실패율을 개선할 수 있다.

본 연구가 지닌 한계점은 다음과 같다. 첫째, 아동들은 유치원 휴식시간에 그룹으로 특정 인공지능 스피커와 대화를 시도할 수 있는 시간적·상황적 제약이 존재했다. 아동은 또래들과 행동 및 언어 모방을 통해 인지, 사회성이 발달하는 특성이 있는데[36] 인공지능 스피커와의 상호작용에서도 친구가 했던 질문을 모방할 수도 있는 한계점이 존재한다. 향후 연구에서는 다양한 인공지능 스피커와 아동들이 개인적으로 대화할 수 있는 시간을 확보하고, 개별 아동들이 인공지능 스피커의 다양한 기능과 역할을 확실히 인지하고 있는지의 여부를 확인할 필요가 있다. 또한, 음악부분에서 상호작용이 가장 활발했다는 것은 아동의 일반적 특성이 소리에 민감하기 때문일 수 있다. 따라서 향후 연구에서는 각 아동의 특징(예: 성격, 발달 정도, 정보 기기 활용 유무 등), 가족 구성형태, 인공지능 스피커 사용 환경 등에 따라 다양한 차별적 상호작용의 패턴을 발견하여 본 연구를 확장할 수 있을 것이다.

둘째, 인공지능 스피커에 기록된 로그값을 바탕으로 데이터를 분석하였기 때문에 기록되지 않은 비언어적요소와 같은 실제 상황에 대한 구체적인 분석에 한계점이 존재한다. 향후 연구에서는 인공지능 스피커와 아동들의 상호작용을 모니터링하여 상호작용 실패시 아동들의 행동(표정) 변화를 관찰하고자 한다. 또한, 활용면에서 인공지능 스피커와 대화하는 목적, 혜택, 이용 후 효과 및 아동의 행동 변화 등을 측정하는 연구로 확장하여 아동의 인지발달, 소통능력향상을 위한 연구디자인, 인공지능 기술/기법 제고 방안, 아동주도 인공지능 사용 기법 등에 대한 대안을 제시할 수 있을 것이다.

마지막으로, 연구 샘플 수가 다소 적고 5-7세의 아동들로 연구 대상을 제한하였기 때문에 연구 결과를 전연령의 아동들에게 적용하는데 제약이 따른다. 8세 이상의 아동들은 언어적으로 더욱 발달되어 있으며 보다 다양한 기능을 사용할 수 있어 본 연구의 결과와는 다른 상호작용 패턴을 보일 수 있다. 향후 연구에서는 8세 이상의 아동들과 인공지능 스피커와의 상호작용 관찰을 통해 공통점과 차이점을 비교하여 분석하고자 한다.

References

  1. 이서영, 김서희, 이수지, "음성인식 인공지능 시스템의 시장현황: 국내외 기업을 중심으로," 4차 산업혁명 브리프, 2018.
  2. 최지혜, 이선희, "음성인식 AI 비서 시장의 현황과 시사점," 정보통신방송정책, 제29권, 제9호, pp.1-37, 2017.
  3. http://www.etnews.com/20170511000-219?m=1
  4. 최재호, 김훈태, "스마트폰 음성 인터페이스의 사용 현황 및 사용자 인식에 대한 조사 연구," 한국전자거래학회지, 제21권, 제4호, pp.29-40, 2016. https://doi.org/10.7838/jsebs.2016.21.4.029
  5. http://d.kbs.co.kr/news/view.do?ncd=3599067
  6. Canalys, Google beats Amazon to first place in smart speaker market, 2018(4).
  7. 젠틀파이 제이미, 스마트 스피커 이용 현황 분석, 2018(6).
  8. https://www.pcmag.com/article/357520/the-best-s mart-speakers
  9. NPR & Edison Research, 스마트 스피커(음성 AI) 사용자 행태 조사 결과, 2017(8).
  10. http://www.zdnet.co.kr/view/?no=20180426090058
  11. http://news.einfomax.co.kr/news/articleView.html-?idxno=4028367
  12. http://www.etoday.co.kr/news/view/1747200
  13. https://www.hankyung.com/it/article/2018060650-011
  14. 박현아, 황유진, 이준환, "아동의 대화형 에이전트 페르소나 선호에 대한 연구," 한국 HCI 학회 학술대회, pp.225-228, 2019.
  15. Y. Xu and M. Warschauer, "Young children's reading and learning with conversational agents," In Extended Abstracts of the 2019 CHI Conference on Human Factors in Computing Systems, pp.1-8, 2019.
  16. 지승은, 김우일, "음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표," 한국정보통신학회논문지, 제20권, 제3호, pp.464-470, 2016. https://doi.org/10.6109/jkiice.2016.20.3.464
  17. 류기동, 박종필, 김영민, 이동훈, 김우제, "AI 기반 콜센터 실시간 상담 도우미 시스템 개발: N 은행 콜센터 사례를 중심으로," 한국산학기술학회 논문지, 제20권, 제2호, pp.750-762, 2019.
  18. 장지혜, 주다영, "인공지능 스피커의 정서별 감정발화에 따른 사용성 평가," 한국 HCI 학회 학술대회, pp.705-712, 2019.
  19. 최재호, 김훈태, "스마트폰 음성 인터페이스의 사용현황 및 사용자 인식에 대한 조사 연구," 한국전자거래학회지, 제21권, 제4호, pp.29-40, 2016. https://doi.org/10.7838/jsebs.2016.21.4.029
  20. 나주연, 유훈식, "인공지능 대화형 인터페이스에 대한 사용자 감성 연구," 한국지능정보시스템학회 학술대회논문집, pp.17-18, 2017.
  21. 김택수, 최준호, 김지현, "차량용 음성대화 인터페이스의 Barge-in 기능이 주행 경험에 미치는 효과 연구 - 네비게이션 및 음악서비스 중심으로," 디자인융복합연구, 제17권, 제1호, pp.17-28, 2018.
  22. 전소원, 이지희, 이종태, "인공지능 서비스의 사용자수용 의도에 관한 연구: 대화형 AI 서비스 필요성에 대한 인식에 영향을 주는 요인을 중심으로," 기술혁신학회지, 제22권, 제2호, pp.242-264, 2019.
  23. 김수상, 장원중, 김광용, "인공지능 스피커의 사용의도에 영향을 미치는 요인에 관한 탐색적 연구," 정보화연구, 제16권, 제1호, pp.71-86, 2019. https://doi.org/10.22865/JITA.2019.16.1.71
  24. 박수아, 최세정, "인공지능 스피커 만족도와 지속적이용의도에 영향을 미치는 요인: 기능적, 정서적 요인을 중심으로," 한국정보사회학회, 제19권, 제3호, pp.159-182, 2018.
  25. 이희준, 조창환, 이소윤, 길영환, "인공지능 스피커(AI 스피커)에 대한 사용자 인식과 이용 동기 요인 연구," 한국콘텐츠학회논문지, 제19권, 제3호, pp.138-154, 2019. https://doi.org/10.5392/jkca.2019.19.03.138
  26. 박현아, 태문영, 허영진, 이준환, "인공지능 대화형에이전트의 지능적 속성에 대한 기대와 기대 격차," 한국 HCI 학회 논문지, 제14권, 제1호, pp.15-22, 2019.
  27. L. Clark, N. Pantidi, O. Cooney, P. Doyle, D. Garaialde, J. Edwards, and V. Wade, "What makes a good conversation?: challenges in designing truly conversational agents," In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, pp.1-12, ACM, 2019(4).
  28. S. B. Lovato, A. M. Piper, and E. A. Wartella, "Hey Google, do Unicorns Exist?: Conversational agents as a path to answers to children's questions," In Proceedings of the 18th ACM International Conference on Interaction Design and Children, pp.301-313, ACM, 2019.
  29. M. M. Chouinard, P. L. Harris, and M. P. Maratsos, "Children's questions: A mechanism for cognitive development," Monographs of the Society for Research in Child Development: i-129, 2007.
  30. B. Tizard, and M. Hughes, "Young children learning," John Wiley & Sons, 2008.
  31. B. Bilal, "Children's use of the Yahooligans! Web search engine. III. Cognitive and physical behaviors on fully self-generated search tasks," Journal of the American Society for information science and technology, Vol.53, No.13, pp.1170-1183, 2002. https://doi.org/10.1002/asi.10145
  32. A. Druin, E. Foss, L. Hatley, E. Golub, M. L. Guha, J. Fails, and H. Hutchinson, "How children search the internet with keyword interfaces," In Proceedings of the 8th International conference on interaction design and children, pp.89-96, 2009.
  33. E. Foss and A. Druin, "Children's internet search: Using roles to understand children's search behavior," Synthesis Lectures on information concepts, retrieval, and services, Vol.6, No.2, pp.1-106, 2014. https://doi.org/10.2200/S00591ED1V01Y201408ICR034
  34. Y. Yuan, S. Thompson, K. Watson, A. Chase, A. Senthilkumar, A. B. Brush, and S. Yarosh, "Speech interface reformulations and voice assistant personification preferences of children and parents," International Journal of Child- Computer Interaction, Vol.21, pp.77-88, 2019. https://doi.org/10.1016/j.ijcci.2019.04.005
  35. https://ko.wikipedia.org/wiki/지니키즈
  36. 김현, 고석원, 곽혜숙, 차현화, "동화를 활용한 사회적 역할놀이와 동작표상 활동이 유아의 사회적 능력과 언어 능력에 미치는 효과 비교," 미래유아교육학회지, 제13권, 제4호, pp.135-160, 2006.