• 제목/요약/키워드: 음성 인식 API

검색결과 39건 처리시간 0.023초

구글, 네이버, 다음 카카오 API 활용앱의 표준어 및 방언 음성인식 기초 성능평가 (A Basic Performance Evaluation of the Speech Recognition APP of Standard Language and Dialect using Google, Naver, and Daum KAKAO APIs)

  • 노희경;이강희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권12호
    • /
    • pp.819-829
    • /
    • 2017
  • 본 논문에서는 음성인식 기술의 현황을 소개하고 기본적인 음성인식 기술과 알고리즘을 먼저 알아본 뒤에, 음성인식 기술에 필요한 API의 코드 흐름에 대해 설명을 할 것이다. 음성인식 API중에 가장 유명한 검색엔진을 가진 구글, 네이버 다음 카카오 각각의 Application Programming Interface(API)를 안드로이드 스튜디오 툴을 이용하여 음성인식이 가능한 앱을 만든다. 그런 뒤 성별, 나이별, 지역별에 따라 사람들의 표준어, 방언에 대한 음성인식 실험을 하여 음성 인식 정확도를 표로 정리한다. 방언에 대한 실험 지역으로는 방언의 정도가 심한 경상도, 충청도, 전라도 방언에 대해 실험하였고, 표준화된 방언를 기준으로 비교 실험을 진행하였다. 결과적으로 나온 문장에 따라 띄어쓰기, 받침, 조사, 단어를 기반으로 문장의 정확성을 확인하여 각각의 오류의 개수를 숫자로 표현하였다. 결과적으로 방언과 표준어의 음성 인식률에 따라 각각의 API의 장점에 대해서 소개하고, 어떤 상황에서 가장 효율적으로 사용할지에 대해 기본적인 틀을 마련하고자 한다.

디지털 소외계층을 위한 지능형 IoT 애플리케이션의 공개 API 기반 대화형 음성 상호작용 기법 (Open API-based Conversational Voice Interaction Scheme for Intelligent IoT Applications for the Digital Underprivileged)

  • 장준혁
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.22-29
    • /
    • 2022
  • 음성 상호작용은 스마트 기기의 활용에 능숙하지 못한 디지털 소외계층을 대상으로 하는 애플리케이션에서 특히 효과적이다. 그러나 공개 API를 기반으로 한 애플리케이션들은 기존의 터치스크린 중심의 UI와 제공되는 API의 한계로 인해 음성 신호를 짧고 단편적인 입출력에만 활용하고 있다. 본 논문에서는 사용자와 지능형 모바일/IoT 애플리케이션의 대화형 음성 상호작용 모델을 설계하고, 편집 거리(Levenshtein distance) 기반 키워드 탐지 기법을 제안한다. 제안 모델 및 기법은 안드로이드 환경에서 구현되었으며, 편집 거리 기반 키워드 탐지 기법은 음성인식을 통해 부정확하게 인식된 키워드에 대해 기존 기법보다 높은 인식률을 보였다.

상용 API 의 감정에 따른 음성 인식 성능 비교 연구 (A Study on the Comparison of the Commercial API for Recognizing Speech with Emotion)

  • 양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.52-54
    • /
    • 2023
  • 최근 인공지능 기술의 발전에 따라서 다양한 서비스에서 음성 인식을 활용한 서비스를 제공하면서 음성 인식에 대한 중요성이 증가하고 있다. 이 논문에서는 국내에서 많이 사용되고 있는 대표적인 인공지능 서비스 API 를 제공하는 구글, ETRI, 네이버에 대해서 감정 음성 관점에서 그 차이를 평가하였다. AI Hub 에서 제공하는 감성 대화 말뭉치 데이터 셋의 일부인 음성 테스트 데이터를 사용하여 평가한 결과 ETRI API 가 문자 오류율 (1.29%)과 단어 오류율(10.1%)의 성능 지표에 대해서 가장 우수한 음성 인식 성능을 보임을 확인하였다.

한국어 발음 훈련을 위한 음성 인식 웹 사이트 - 바름 (Speech Recognition Website for Korean Pronunciation Training - Baleum)

  • 민정혜;강교진;김인기
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.29-32
    • /
    • 2023
  • 본 논문에서는 외국인과 발음에 어려움을 겪고 있는 한국인들을 대상으로 음성 녹음을 진행하여 점수를 반환받는 웹 사이트를 소개한다. 이 웹 사이트의 목적은 사용자들의 발음 향상을 돕는 것이다. 음성 인식 API와 발음 평가 API를 사용하여 사용자의 발음을 정확하게 평가하고 피드백을 제공함으로써, 외국어 학습자와 발음에 어려움을 겪는 한국인들이 보다 원활하게 의사소통할 수 있도록 돕는다. 향후 연구로는 이 시스템의 사용자들에게 학습 성취에 대한 동기 부여를 하는 기능을 추가해 학습 효과를 높이도록 개선할 것이다.

  • PDF

스마트폰 음성인식을 통한 RC카 제어기 설계 (A Design of RC Car Controller by Voice Recognition of Smartphone)

  • 이주원;김보건;김진민;박설진;김진일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.770-771
    • /
    • 2017
  • 스마트폰 어플로 구글의 STT API를 이용하여 음성인식을 적용한다. 이는 문자열로 변환하고 블루투스 통신을 통하여 아두이노 RC카로 정보를 전달하여 동작하도록 제어한다. 아두이노 RC카에 부착한 라인센서와 초음파센서를 통해 차선변경의 유/무와 앞/뒤 차량 간의 거리를 측정하여 비상등을 자동으로 점등할 수 있도록 한다. 본 연구의 결과로써 운전자간의 예의범절을 갖춘 운행과 초보운전자들의 미숙한 상황대처를 보완할 수 있을 것으로 기대된다.

  • PDF

딥 러닝 기반의 API 와 멀티미디어 요소를 활용한 시니어 라이프 데이터 수집 및 상태 분석 (Senior Life Logging and Analysis by Using Deep Learning and Captured Multimedia Data)

  • 김선대;박은수;정종범;구자성;류은석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.244-247
    • /
    • 2018
  • 본 논문에서는 시니어를 위한 라이프 데이터 수집 및 행동분석 프레임 워크를 설명하고, 이의 부분적 구현을 자세히 설명한다. 본 연구는 시니어를 위한 라이프 데이터를 바탕으로 보호자가 없는 시니어를 보살핌과 동시에, 보호자가 미처 인지하지 못하는 시니어의 비정상적인 상태를 분석하여 판단하는 시스템을 연구한다. 먼저, 시니어가 시간을 많이 소요하는 TV 앞 상황을 가정하고, 방영되는 TV 콘텐츠와 TV 카메라를 이용한 시니어의 영상/음성 정보로 이상상태와 감정상태, TV 콘텐츠에 대한 반응과 반응속도를 체크한다. 구체적으로는 딥 러닝 기반의 API 와 멀티미디어 데이터 분석에서 사용되는 오픈 패키지를 바탕으로, 영상/음성의 키 프레임을 추출하여 감정 및 분위기를 분석하고 시니어의 얼굴 표정 인식, 행동 인식, 음성 인식을 수행한다.

  • PDF

한국어 음성 인식 시스템의 오류 유형 분류 및 분석 (Categorization and Analysis of Error Types in the Korean Speech Recognition System)

  • 손준영;박찬준;서재형;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-151
    • /
    • 2021
  • 딥러닝의 등장으로 자동 음성 인식 (Automatic Speech Recognition) 기술은 인간과 컴퓨터의 상호작용을 위한 가장 중요한 요소로 자리 잡았다. 그러나 아직까지 유사 발음 오류, 띄어쓰기 오류, 기호부착 오류 등과 같이 해결해야할 난제들이 많이 존재하며 오류 유형에 대한 명확한 기준 정립이 되고 있지 않은 실정이다. 이에 본 논문은 음성 인식 시스템의 오류 유형 분류 기준을 한국어에 특화되게 설계하였으며 이를 다양한 상용화 음성 인식 시스템을 바탕으로 질적 분석 및 오류 분류를 진행하였다. 실험의 경우 도메인과 어투에 따른 분석을 각각 진행하였으며 이를 통해 각 상용화 시스템별 강건한 부분과 약점인 부분을 파악할 수 있었다.

  • PDF

음성 및 동영상 객체 인식 기반 요리 보조 시스템 개발 (Development of a Cooking Assistance System Based on Voice and Video Object Recognition)

  • 이종환;곽희웅;박기수;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.727-729
    • /
    • 2022
  • 모바일 서비스에서 음성인식을 활용한 애플리케이션이 가져다 주는 편리함으로 레시피 애플리케이션에 접목시켜 데이터베이스를 사용한 레시피 추천, Google Video Intelligence API를 사용하여 객체 영상분할, Google Assistant를 활용한 음성인식을 기반으로 한 레시피 애플리케이션을 제공한다.

오피니언 마이닝 알고리즘 기반 음성인식 인터뷰 모델의 설계 및 구현 (Design And Implementation of a Speech Recognition Interview Model based-on Opinion Mining Algorithm)

  • 김규호;김희민;이기영;임명재;김정래
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.225-230
    • /
    • 2012
  • 오피니언 마이닝은 기존의 데이터 마이닝 기술을 활용하여 웹 상에 개재된 블로그, 상품평등에 나타난 저자의 의견을 추출하는 분야로써 텍스트의 주제를 판단하는 것이 아닌 주제에 대한 저자의 태도를 판단하는 기술이다. 본 논문에서는 오피니언 마이닝 알고리즘과 공개된 음성인식 API을 사용하여 텍스트가 아닌 음성의 대한 데이터의 감정을 판단하기 위해 제안했다. 이 시스템은 공개된 Google Voice Recognition API와 주제어와 관련된 순위화 알고리즘, 개선된 극성 판단 알고리즘을 통하여 설계하고, 이를 바탕으로 음성인식 인터뷰 모델을 구현한다.

오픈소스를 이용한 문자/음성 인식 및 번역 앱 개발 (Text/Voice Recognition & Translation Application Development Using Open-Source)

  • 윤태진;서효종;김도헌
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.425-426
    • /
    • 2017
  • 본 논문에서는 Google에서 지원하는 오픈소스인 Tesseract-OCR을 이용한 문자/음성 인식 및 번역 앱에 대해 제안한다. 최근 한국어를 포함한 외국어 인식과 번역기능을 이용한 다양한 스마트폰 앱이 개발되어 여행에 필수품으로 자리잡고 있다. 스마트폰의 카메라기능을 이용하여 촬영한 영상을 인식률을 높이도록 처리하고, Crop기능을 넣어 부분 인식기능을 지원하며, Tesseract-OCR의 train data를 보완하여 인식률을 높이고, Google 음성인식 API를 이용한 음성인식 기능을 통해 인식된 유사한 문장들을 선택하도록 하고, 이를 번역하고 보여주도록 개발하였다. 번역 기능은 번역대상 언어와 번역할 언어를 선택할 수 있고 기본적으로 영어, 한국어, 일본어, 중국어로 번역이 가능하다. 이 기능을 이용하여 차량번호 인식, 사진에 포함된 글자를 통한 검색 등 다양한 응용분야에 맞게 앱을 개발할 수 있다.

  • PDF