• Title/Summary/Keyword: Speech emotion recognition

검색결과 135건 처리시간 0.019초

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.

대화형 에이전트의 오류 상황에서 사회적 전략 적용: 사전 양해와 사과를 이용한 사례 연구 (Applying Social Strategies for Breakdown Situations of Conversational Agents: A Case Study using Forewarning and Apology)

  • 이유미;박선정;석현정
    • 감성과학
    • /
    • 제21권1호
    • /
    • pp.59-70
    • /
    • 2018
  • 음성인식 기술의 비약적 발전으로 최근 몇 년 사이 대화형 에이전트는 스마트폰, 인공지능 스피커 등을 통해 널리 보급되었다. 음성인식 기술의 인식의 정확도는 인간의 수준까지 발전하였으나, 여전히 말의 의미나 의도를 파악하는 것과 긴 대화를 이해하는 것 등에는 한계를 보이고 있다. 이에 따라 사용자는 대화형 에이전트를 사용함에 있어 다양한 오류 상황들을 경험하고 있으며 이는 사용자 경험에 부정적인 영향을 미칠 수 있다. 또한, 목소리를 주 인터페이스로 하는 인공지능 스피커의 경우, 대화형 에이전트의 기능 및 한계에 대한 피드백의 부족은 지속적 사용을 저해하는 요소로 꼽히고 있다. 따라서 사용자가 대화형 에이전트의 기능 및 한계를 보다 잘 이해하고 오류 상황에서 부정적인 감정을 완화할 수 있는 방안에 대한 연구에 대한 필요성이 높으나, 아직 관련 연구는 미비한 실정이다. 이에 본 연구에서는 사회적 전략 중 '사전 양해'와 '사과'를 대화형 에이전트에 적용하고 이러한 전략이 사용자가 에이전트에 대해 느끼는 인식에 어떠한 영향을 미치는지 조사하였다. 이를 위해 사전 양해와 사과 여부를 나누어 사용자가 대화형 에이전트와 대화하는 데모 영상을 제작하였고, 실험참가자들에게 영상을 보여준 뒤 느끼는 호감도와 신뢰도를 설문을 통해 평가하도록 하였다. 총 104명의 응답을 분석한 결과, 문헌조사를 토대로 한 우리의 예상과는 상반되는 결과를 얻었다. 사전 양해는 오히려 사용자에게 부정적인 인상을 주었으며, 특히 에이전트에 대한 신뢰도에 부정적인 영향을 주었다. 또한 오류 상황에서의 사과는 사용자가 느끼는 호감도나 신뢰도에는 유의미한 영향을 미치지 않았다. 심층인터뷰를 통해 원인을 파악한 결과, 실험참가자들은 인공지능 스피커를 사람과 같은 인격체보다는 단순한 기계에 가깝다고 인식했기 때문에 인간관계에 작용하는 사회적 전략이 영향력을 발휘하지 못한 것으로 해석된다. 이러한 결과는 사용자가 에이전트를 얼마나 기계, 혹은 사람에 가깝게 인식하는지에 따라 오류 상황에 대한 에이전트의 대처 방식 또한 달라져야 함을 보여준다.

한국형 감정 음성 데이터베이스 구축을 위한 타당도 연구 (Development and validation of a Korean Affective Voice Database)

  • 김예지;송혜선;전예솔;오유림;이영미
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.77-86
    • /
    • 2022
  • 본 연구는 운율을 기반으로 감정을 인식하는 능력을 측정할 때 이용할 수 있는 한국형 감정 음성 데이터베이스(Korean Affective Voice Database, 이하 KAV DB)를 개발하고, 해당 DB가 의사소통장애 관련 임상과 연구에서 활용될 수 있는지를 점검하기 위하여 신뢰도, 민감도, 특이도를 산출하여 그 타당성을 살펴보았다. 본 연구에서는 배우 2명(남 1명, 여 1명)이 의미적으로 중립적인 문장 10개를 행복, 분노, 공포, 슬픔, 놀람, 중립의 6개 정서로 표현하도록 하여 음성을 녹음하였다. 녹음된 음성 중에서 목표 정서가 잘 표현된 문장을 선별하여 타당도 점검을 위한 음성파일 세트를 구성하였으며, 청자 31명(남 14명, 여 17명)이 시각적 아날로그 평정법을 이용하여 각 음성에서 6개의 정서가 얼마나 반영되었는지 평정하도록 하였다. 그 결과, KAV DB에 대한 청자의 내적 일관성 신뢰도는 .872, 전체 민감도 82.8%, 전체 특이도 83.8%였다. 이를 통하여, 타당도가 확보된 KAV DB는 감정 음성 인식 및 산출과 관련된 연구와 임상 콘텐츠 제작 등에 활용될 수 있을 것으로 기대된다.

MIT(Melodic Intonation Therapy) 중심의 음악활동을 이용한 실어증을 가진 뇌졸중 노인의 음절 수 증가에 대한 사례 연구 (Increase of Spoken Number of Syllables Using MIT(Melody Intonation Therapy) : Case Studies on older adult with stroke and aphasia)

  • 홍도경
    • 인간행동과 음악연구
    • /
    • 제2권2호
    • /
    • pp.57-67
    • /
    • 2005
  • 뇌졸중은 대부분 편마비를 수반하기 때문에 이로 인한 신체적 증상 외에도 언어장애, 신경장애와 같은 갑작스러운 변화가 생기며 이로 인한 심리적인 부적응과 상실감 및 신체적인 기능의 저하는 일상생활에서의 실패나 좌절감을 주기 때문에 심각한 정서적인 문제를 야기 시킬 수 도 있다. 뇌졸중 환자라 하면 신체적인 재활만을 고려하게 되는데 실제로는 실어증이나 구음 장애 등의 심각한 언어 기능의 저하가 일어나며 이와 더불어 인지기능의 저하, 우울증과 같은 정신적인 장애, 심지어는 청각이나 시각 등의 장애도 나타난다. 따라서 언어치료와 그 밖의 치료를 통합시켜 주는 것이 중요하며 특히 심리적으로 위축되기 쉬운 언어장애를 가진 실어증 환자에게 있어서 풍요로운 감정을 만들어주는 음악 치료의 응용은 매우 효과적일 것이다. 본 연구는 브로카 실어증을 가진 뇌졸중 노인 2명을 대상으로 멜로디 억양치료 기법(MIT)을 사용하여 주 2회씩 5주 동안 총 10회의 세션을 실행하여 결과를 분석한 사례연구이다. 본 연구의 목적은 환자의 구어적인 언어에서의 단어말하기의 음절수의 변화를 보고자 함이었으며 또한 언어 재활치료 프로그램 내에서 자신의 능력의 가치를 확인하고 성공할 때에 가지게 되는 긍정적인 심리적 효과 즉, 자신감을 줄 수 있는 효과를 유도하고자 하였다. 총 10회의 음악치료 세션 단계에서는 MIT 기법을 사용해 Manual에 따라 점수를 기록하고 세션에 따르는 향상 정도를 측정하였는데 구체적인 음절수의 변화를 보기 위하여 각각의 수준에서의 발화 음절수의 성취도를 분석하였다. 2음절에서 4음절로 구성된 프로그램에서의 결과로 보여 지는 것은 다음과 같다. 대상자 A는 Level I의 예비적인 단계는 모두 수행하였고 2음절 단어의 경우 5회에는 Level III로 넘어갈 수 있었으며, 7회에는 Level IV로 넘어 갔다. 3음절의 단어들은 7회에서 Level III로 넘어갈 수 있었으며 9회에는 Level IV로 넘어 간 것을 알 수 있었다. 마지막 4음절의 단어에서는 첫 세션 시에 8%의 저조한 성공률을 보였으나 반복적인 시도의 효과로 6회 세션에서 성취도가 급격히 증가하였으며 8회 세션에서 Level III로, 10회 세션에서 Level IV로 향상된 것을 알 수 있었다. 대상자B는 대상자 A와 마찬가지로 Level I의 예비적인 단계는 모두 수행하였고 2음절 단어의 경우 4회에서 Level III로 넘어갈 수 있었으며, 6회에는 Level IV로 넘어 갔다. 3음절의 단어들은 5회에는 Level III로 넘어갈 수 있었고 7회에는 Level IV로 넘어 간 것을 알 수 있었다. 마지막 4음절의 단어에서는 첫 세션 시에 10%의 저조한 성공률을 보였으나 역시 반복적인 시도의 효과로 5회 세션에서 성취도가 급격히 증가하였으며 7회 세션에서 Level III로 넘어갈 수 있었으나 10회 세션이 되기 까지 유의미한 성취도는 보여지지 않았다. 결론적으로 뇌졸중 환자의 언어재활 치료에 있어서의 멜로디 억양치료기법은 통계적으로 유의미하지는 않았지만 브로카 실어증을 가진 환자 2명의 음절수의 발화 성공률의 증가나 과제에 있어서의 전체적인 성공률을 볼 때 향상된 것을 알 수 있었다. 그러므로 이것은 브로카 실어증 환자의 언어적인 능력과 그들의 언어적 재활에 있어서 긍정적인 영향을 주는 것으로서 치료적인 효과를 암시한다.

  • PDF