• Title/Summary/Keyword: STT(Speech-to-Text)

Search Result 39, Processing Time 0.025 seconds

Development of Speech Recognition and Synthetic Application for the Hearing Impairment (청각장애인을 위한 음성 인식 및 합성 애플리케이션 개발)

  • Lee, Won-Ju;Kim, Woo-Lin;Ham, Hye-Won;Yun, Sang-Un
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.129-130
    • /
    • 2020
  • 본 논문에서는 청각장애인의 의사소통을 위한 안드로이드 애플리케이션 시스템 구현 결과를 보인다. 구글 클라우드 플랫폼(Google Cloud Platform)의 STT(Speech to Text) API를 이용하여 음성 인식을 통해 대화의 내용을 텍스트의 형태로 출력한다. 그리고 TTS(Text to Speech)를 이용한 음성 합성을 통해 텍스트를 음성으로 출력한다. 또한, 포그라운드 서비스(Service)에서 가속도계 센서(Accelerometer Sensor)를 이용하여 스마트폰을 2~3회 흔들었을 때 해당 애플리케이션을 실행할 수 있도록 하여 애플리케이션의 활용성을 높인 시스템을 개발하였다.

  • PDF

Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis (개인의 감성 분석 기반 향 추천 미러 설계)

  • Hyeonji Kim;Yoosoo Oh
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.4
    • /
    • pp.11-19
    • /
    • 2023
  • The paper proposes a smart mirror system that recommends fragrances based on user emotion analysis. This paper combines natural language processing techniques such as embedding techniques (CounterVectorizer and TF-IDF) and machine learning classification models (DecisionTree, SVM, RandomForest, SGD Classifier) to build a model and compares the results. After the comparison, the paper constructs a personal emotion-based fragrance recommendation mirror model based on the SVM and word embedding pipeline-based emotion classifier model with the highest performance. The proposed system implements a personalized fragrance recommendation mirror based on emotion analysis, providing web services using the Flask web framework. This paper uses the Google Speech Cloud API to recognize users' voices and use speech-to-text (STT) to convert voice-transcribed text data. The proposed system provides users with information about weather, humidity, location, quotes, time, and schedule management.

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

A Drowsiness Detection System using ChatGPT and Image Processing (ChatGPT와 영상처리를 이용한 졸음 감지 시스템)

  • Hyeon-Jun Lee;Hyeon-Sang Soon;Seong-Hun Jo;Chang-Hui Seo;Ji-Yun Kang;Se-Jin Oh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.259-260
    • /
    • 2024
  • 졸음운전으로 인한 교통사고는 매년 꾸준하게 일어나 이에 대한 다방면의 해결책이 요구되고 있다. 본 논문에서는 위 문제를 개선하고자 ChatGPT와 영상처리를 이용한 졸음 감지 시스템을 구현하였다. 이 시스템은 운전자의 얼굴 부분을 영상처리로 인식하여 눈동자의 종횡비를 구해 PERCLOS 공식에 따른 운전자의 졸음을 판별시키고, 경고와 동시에 ChatGPT가 운전자에게 특정 주제를 키워드로 TTS와 STT를 통해 대화한다. 운전자의 졸음을 판별하기 위해 임베디드 보드에서 연결된 캠을 통해 졸음 판별을 하고, ChatGPT도 마찬가지로 보드에서 연결한 스피커, 마이크를 통해 운전자와 대화한다. 이를 활용하여 운전자의 졸음 자각을 통한 안전운전 및 사고 발생률의 감소를 기대할 수 있다.

  • PDF

Mission Alarm App (미션 알람 앱)

  • Kang-Woo Kim;Jin-Woo Jung;Jae-Ik Han;Joon-Ho Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.281-282
    • /
    • 2024
  • 본 논문에서는 사용자들의 운동 능력과 영어 학습 능력 향상을 위한 앱을 개발한다. 지정한 시간에 알람을 울리고, 운동 및 학습을 완료하는 경우에만 알람이 종료한다. 알람이 활성화되면 사용자가 강제적으로 종료할 수 없는 기능을 선택할 수 있다. TTS 기능을 적용하여 알람이 활성화되었을 때, 안내 음성이 나오도록 설계하였다. 학습 기능에 STT를 적용하여 영어 단어와 문장을 마이크에 인식하는 방식의 영어 문제를 제시하였다. 또한, OpenAI를 활용하여 매일 자정 새로운 영어 문제를 생성하고 서버에 저장한다. 이러한 기능들은 사용자의 선택권을 보장하며 건강 증진 및 자기 주도적인 학습에 도움을 줄 것이다.

  • PDF

Digital enhancement of pronunciation assessment: Automated speech recognition and human raters

  • Miran Kim
    • Phonetics and Speech Sciences
    • /
    • v.15 no.2
    • /
    • pp.13-20
    • /
    • 2023
  • This study explores the potential of automated speech recognition (ASR) in assessing English learners' pronunciation. We employed ASR technology, acknowledged for its impartiality and consistent results, to analyze speech audio files, including synthesized speech, both native-like English and Korean-accented English, and speech recordings from a native English speaker. Through this analysis, we establish baseline values for the word error rate (WER). These were then compared with those obtained for human raters in perception experiments that assessed the speech productions of 30 first-year college students before and after taking a pronunciation course. Our sub-group analyses revealed positive training effects for Whisper, an ASR tool, and human raters, and identified distinct human rater strategies in different assessment aspects, such as proficiency, intelligibility, accuracy, and comprehensibility, that were not observed in ASR. Despite such challenges as recognizing accented speech traits, our findings suggest that digital tools such as ASR can streamline the pronunciation assessment process. With ongoing advancements in ASR technology, its potential as not only an assessment aid but also a self-directed learning tool for pronunciation feedback merits further exploration.

MBC의 미디어AI 서비스

  • 성시훈
    • Broadcasting and Media Magazine
    • /
    • v.28 no.2
    • /
    • pp.53-59
    • /
    • 2023
  • (주)문화방송(MBC)은 콘텐츠 제작 및 유통 워크플로우에 인공지능(Artificial Intelligence, AI) 기술을 적용한 미디어AI 서비스를 운영하고 있다. 영상아카이브에 보관되어 있는 수십만 개의 아날로그와 SD급 콘텐츠를 대상으로 HD급 수준의 영상화질로 품질을 향상시키기 위해서 AI영상화질개선시스템을 2020년에 개발 구축해서 여러 목적에 활용하고 있으며, HD급 콘텐츠를 대상으로 4K 초고화질급으로 변환하는 기술로 고도화해서 실서비스 적용을 눈앞에 두고 있다. 그리고 2년의 STT(Speech-To-Text, 음성문자변환) 베타서비스를 통해 얻어진 사용성 검증과 운영 경험을 바탕으로 STT HUB 서비스를 개발 구축해서 2022년부터 보도와 시사교양 프로그램의 제작 워크플로우에 적용하고 있다. 이들 서비스의 주요 기능들과 기술적 요소들의 구현, 미디어AI 서비스 운영의 경험을 나누고자 한다.

  • PDF

Effects of the Tele-Monitoring With the Speech-to-Text Application on Occupational Balance in Healthy Adults : Feasibility Study (음성-텍스트 변환 어플리케이션을 이용한 원격 모니터링이 건강한 성인의 작업균형에 미치는 효과)

  • Na, Nam Heui;Lee, Seong A;Lee, Yeong Hyun;Lee, Sang-Heon;Hwang, Do-Yeon;Park, Jin-Hyuck
    • Therapeutic Science for Rehabilitation
    • /
    • v.11 no.3
    • /
    • pp.93-106
    • /
    • 2022
  • Objective : The COVID-19 pandemic has brought non-face-to-face healthcare service delivery system. Research into telehealth system and its efficacy remains unclear. Methods : Seven healthy adults participated in this study to investigate effects of tele-monitoring with the speech-to-text (STT) application to induce changes in occupational activities on occupational balance in healthy adults. Subjects were requested to choose occupational activities they wanted to have researched and then register them to the STT application. The STT application provided an alarm to check whether the pre-registered activities were performed on time, and whether the subjects performed it by their voice. The subjects were followed for 1 week, with assessments at baseline, and after 1-week's tele-monitoring. Results : Our findings showed that the subjects were willing to participate in tele-monitoring with the STT application with high adherence and satisfaction. In addition, there was a significant improvement in occupational activities related to health (p<.05). Specifically, adherence, satisfaction, and efficacy of the tele-monitoring with the STT application could successfully bring occupational balance in short-term periods. Conclusion : These findings highlight that tele-monitoring with a smartphone could be considered as one promising way to restore occupational balance in lockdown after the COVID-19 outbreak.

LLM-based chatbot system to improve worker efficiency and prevent safety incidents (작업자의 업무 능률 향상과 안전 사고 방지를 위한 LLM 기반 챗봇 시스템)

  • Doohwan Kim;Yohan Han;Inhyuk Jeong;Yeongseok Hwnag;Jinju Park;Nahyeon Lee;Yujin Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.321-324
    • /
    • 2024
  • 본 논문에서는 LLM(Large Language Models) 기반의 STT 결합 챗봇 시스템을 제안한다. 제조업 공장에서 안전 교육의 부족과 외국인 근로자의 증가는 안전을 중시하는 작업 환경에서 새로운 도전과제로 부상하고 있다. 이에 본 연구는 언어 모델과 음성 인식(Speech-to-Text, STT) 기술을 활용한 혁신적인 챗봇 시스템을 통해 이러한 문제를 해결하고자 한다. 제안된 시스템은 작업자들이 장비 사용 매뉴얼 및 안전 지침을 쉽게 접근하도록 지원하며, 비상 상황에서 신속하고 정확한 대응을 가능하게 한다. 연구 과정에서 LLM은 작업자의 의도를 파악하고, STT 기술은 음성 명령을 효과적으로 처리한다. 실험 결과, 이 시스템은 작업자의 업무 효율성을 증대시키고 언어 장벽을 해소하는데 효과적임이 확인되었다. 본 연구는 제조업 현장에서 작업자의 안전과 업무 효율성 향상에 기여할 것으로 기대된다.

  • PDF

Subtitle Automatic Generation System using Speech to Text (음성인식을 이용한 자막 자동생성 시스템)

  • Son, Won-Seob;Kim, Eung-Kon
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.1
    • /
    • pp.81-88
    • /
    • 2021
  • Recently, many videos such as online lecture videos caused by COVID-19 have been generated. However, due to the limitation of working hours and lack of cost, they are only a part of the videos with subtitles. It is emerging as an obstructive factor in the acquisition of information by deaf. In this paper, we try to develop a system that automatically generates subtitles using voice recognition and generates subtitles by separating sentences using the ending and time to reduce the time and labor required for subtitle generation.