• Title/Summary/Keyword: stt&tts

Search Result 21, Processing Time 0.033 seconds

Voice Recognition Speech Correction Application Using Big Data Analysis (빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션)

  • Kim, Han-Kyeol;Kim, Do-Woo;Lim, Sae-Myung;Hong, Du-Pyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

Design of a Live Commerce Platform Using a Multiview (멀티뷰를 활용한 라이브 커머스 플랫폼 설계)

  • Woo, Yeji;Won, Aeryeong;Yun, Jeongwon;Lee, Shinhwa;Jeon, Sumin;Lee, Sangun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.157-160
    • /
    • 2021
  • 코로나 19로 인한 사회적 거리 두기가 계속되면서 온라인 쇼핑을 이용하는 고객이 증가했다. 그중 원활한 소통이 가능한 라이브 커머스 시장이 크게 성장했다. 모바일 기기만 있으면 시간과 장소의 제약 없이 라이브 커머스를 이용할 수 있지만 제한된 정보제공과 장애인을 위한 서비스가 없다는 것이 단점이다. 따라서 본 논문에서는 다양한 정보를 제공하기 위한 멀티뷰 화면을 송출하고 TTS, 딥러닝 기반의 STT 기술을 활용해 시·청각 장애인을 위한 기능을 포함한 새로운 형태의 라이브 커머스 플랫폼 및 시스템 구조를 제안한다.

  • PDF

Development of Speech Recognition and Synthetic Application for the Hearing Impairment (청각장애인을 위한 음성 인식 및 합성 애플리케이션 개발)

  • Lee, Won-Ju;Kim, Woo-Lin;Ham, Hye-Won;Yun, Sang-Un
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.129-130
    • /
    • 2020
  • 본 논문에서는 청각장애인의 의사소통을 위한 안드로이드 애플리케이션 시스템 구현 결과를 보인다. 구글 클라우드 플랫폼(Google Cloud Platform)의 STT(Speech to Text) API를 이용하여 음성 인식을 통해 대화의 내용을 텍스트의 형태로 출력한다. 그리고 TTS(Text to Speech)를 이용한 음성 합성을 통해 텍스트를 음성으로 출력한다. 또한, 포그라운드 서비스(Service)에서 가속도계 센서(Accelerometer Sensor)를 이용하여 스마트폰을 2~3회 흔들었을 때 해당 애플리케이션을 실행할 수 있도록 하여 애플리케이션의 활용성을 높인 시스템을 개발하였다.

  • PDF

A Study on Development of an interactive Korean conversation education application using story branches. (스토리분기를 활용한 인터랙티브 한국어 회화 교육 애플리케이션 개발 연구)

  • Kim, Si-Hyun;Seo, Hye-Jin;Yoon, Jeoug-Mu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1313-1316
    • /
    • 2021
  • 최근 코로나 19 사태의 영향으로 에듀테크의 성장이 가속화되고 사용자의 몰입도를 향상시키는 새로운 교육 콘텐츠의 필요성이 높아졌다. 이에 인터랙션 기술과 교육 콘텐츠의 결합을 통한 한국어 회화 애플리케이션을 기획했다. STT, TTS 기능을 활용한 Android 기반의 모바일 애플리케이션 '걸음말'은 인터랙티브 기술 중 '스토리분기'를 채택하여 기존 회화 애플리케이션의 문제를 해결하고 학습 효과를 증대시킨다. 본 연구를 통해 앞으로의 교육 콘텐츠 시장은 다양한 인터랙티브 기술을 활용하여 더욱 성장할 것으로 기대된다.

Digital enhancement of pronunciation assessment: Automated speech recognition and human raters

  • Miran Kim
    • Phonetics and Speech Sciences
    • /
    • v.15 no.2
    • /
    • pp.13-20
    • /
    • 2023
  • This study explores the potential of automated speech recognition (ASR) in assessing English learners' pronunciation. We employed ASR technology, acknowledged for its impartiality and consistent results, to analyze speech audio files, including synthesized speech, both native-like English and Korean-accented English, and speech recordings from a native English speaker. Through this analysis, we establish baseline values for the word error rate (WER). These were then compared with those obtained for human raters in perception experiments that assessed the speech productions of 30 first-year college students before and after taking a pronunciation course. Our sub-group analyses revealed positive training effects for Whisper, an ASR tool, and human raters, and identified distinct human rater strategies in different assessment aspects, such as proficiency, intelligibility, accuracy, and comprehensibility, that were not observed in ASR. Despite such challenges as recognizing accented speech traits, our findings suggest that digital tools such as ASR can streamline the pronunciation assessment process. With ongoing advancements in ASR technology, its potential as not only an assessment aid but also a self-directed learning tool for pronunciation feedback merits further exploration.

SINABULO: pronunciation correction program to improve delayed speech development (시나브로: 언어발달지연 개선을 위한 발음 교정 프로그램)

  • Chaerin Kang;Yeonghyeon Lee;Min Gyo Chung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.757-758
    • /
    • 2023
  • 시나브로는 언어발달지연 개선을 목적으로 발음을 교정하는 프로그램이다. TTS·STT API 를 사용하여 단어의 표준 발음을 음성 자료로 게시하고, 연습 후 사용자가 녹음한 음성에 대해 텍스트 및 시각 자료를 제공한다. 이를 통해 사용자는 자신의 발화 발음에 대해 객관적으로 피드백을 받아들일 수 있다. 시나브로는 전문기관 방문을 동반하는 일반적인 치료 방식과 달리, 온라인 기반 웹 서비스로 제작되어 공간, 시간, 비용 등의 제약을 극복하며 높은 접근성을 제공한다.

Primary Study for dialogue based on Ordering Chatbot

  • Kim, Ji-Ho;Park, JongWon;Moon, Ji-Bum;Lee, Yulim;Yoon, Andy Kyung-yong
    • Journal of Multimedia Information System
    • /
    • v.5 no.3
    • /
    • pp.209-214
    • /
    • 2018
  • Today is the era of artificial intelligence. With the development of artificial intelligence, machines have begun to impersonate various human characteristics today. Chatbot is one instance of this interactive artificial intelligence. Chatbot is a computer program that enables to conduct natural conversations with people. As mentioned above, Chatbot conducted conversations in text, but Chatbot, in this study evolves to perform commands based on speech-recognition. In order for Chatbot to perfectly emulate a human dialogue, it is necessary to analyze the sentence correctly and extract appropriate response. To accomplish this, the sentence is classified into three types: objects, actions, and preferences. This study shows how objects is analyzed and processed, and also demonstrates the possibility of evolving from an elementary model to an advanced intelligent system. By this study, it will be evaluated that speech-recognition based Chatbot have improved order-processing time efficiency compared to text based Chatbot. Once this study is done, speech-recognition based Chatbot have the potential to automate customer service and reduce human effort.

Braille wirst device for the Deaf-Blindness (시청각 중복 장애인을 위한 점자 팔목 장치)

  • Park, Jeong-Hyeon;Song, Min-Seok;Baek, Chan-Young;Hong, Woo-Sung;Kim, Yeun-Jung;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.643-644
    • /
    • 2022
  • 시청각 중복 장애인은 타인과 의사소통에 어려움이 있기 때문에 이에 대한 연구가 필요하다. 본 논문에서는 시청각 중복 장애인이 타인과 실시간 의사소통이 가능한 팔목 보호대 형태의 Google Cloud Speech API 기반 점자 단말기를 제안한다. 점자 단말기에는 심박, 온도, 인바디 센서를 부착하여 착용자의 건강상태를 분석한다. 또한 타인과 실시간 소통을 위해 점자 출력 닷 셀 6 개와 점자 입력버튼을 2 × 3 형태로 배치하여 STT 를 통해 타인의 음성을 점자형태로 출력하여 읽거나 점자를 입력하여 TTS 를이용해 타인에게 스피커를 통해 의사를 전달할 수 있다. 이를 통해 시청각 중복 장애인들은 타인과 실시간 의사소통과 정보 취득에 자유로워질 수 있다.

A Study on Verification of Back TranScription(BTS)-based Data Construction (Back TranScription(BTS)기반 데이터 구축 검증 연구)

  • Park, Chanjun;Seo, Jaehyung;Lee, Seolhwa;Moon, Hyeonseok;Eo, Sugyeong;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.11
    • /
    • pp.109-117
    • /
    • 2021
  • Recently, the use of speech-based interfaces is increasing as a means for human-computer interaction (HCI). Accordingly, interest in post-processors for correcting errors in speech recognition results is also increasing. However, a lot of human-labor is required for data construction. in order to manufacture a sequence to sequence (S2S) based speech recognition post-processor. To this end, to alleviate the limitations of the existing construction methodology, a new data construction method called Back TranScription (BTS) was proposed. BTS refers to a technology that combines TTS and STT technology to create a pseudo parallel corpus. This methodology eliminates the role of a phonetic transcriptor and can automatically generate vast amounts of training data, saving the cost. This paper verified through experiments that data should be constructed in consideration of text style and domain rather than constructing data without any criteria by extending the existing BTS research.

BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research (BackTranScription (BTS)기반 제주어 음성인식 후처리기 연구)

  • Park, Chanjun;Seo, Jaehyung;Lee, Seolhwa;Moon, Heonseok;Eo, Sugyeong;Jang, Yoonna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.178-185
    • /
    • 2021
  • Sequence to sequence(S2S) 기반 음성인식 후처리기를 훈련하기 위한 학습 데이터 구축을 위해 (음성인식 결과(speech recognition sentence), 전사자(phonetic transcriptor)가 수정한 문장(Human post edit sentence))의 병렬 말뭉치가 필요하며 이를 위해 많은 노동력(human-labor)이 소요된다. BackTranScription (BTS)이란 기존 S2S기반 음성인식 후처리기의 한계점을 완화하기 위해 제안된 데이터 구축 방법론이며 Text-To-Speech(TTS)와 Speech-To-Text(STT) 기술을 결합하여 pseudo 병렬 말뭉치를 생성하는 기술을 의미한다. 해당 방법론은 전사자의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축 할 수 있다. 본 논문은 BTS를 바탕으로 제주어 도메인에 특화된 음성인식 후처리기의 성능을 향상시키기 위하여 모델 수정(model modification)을 통해 성능을 향상시키는 모델 중심 접근(model-centric) 방법론과 모델 수정 없이 데이터의 양과 질을 고려하여 성능을 향상시키는 데이터 중심 접근(data-centric) 방법론에 대한 비교 분석을 진행하였다. 실험결과 모델 교정없이 데이터 중심 접근 방법론을 적용하는 것이 성능 향상에 더 도움이 됨을 알 수 있었으며 모델 중심 접근 방법론의 부정적 측면 (negative result)에 대해서 분석을 진행하였다.

  • PDF