• 제목/요약/키워드: STT(Speech to Text)

검색결과 39건 처리시간 0.027초

청각장애인을 위한 음성 인식 및 합성 애플리케이션 개발 (Development of Speech Recognition and Synthetic Application for the Hearing Impairment)

  • 이원주;김우린;함혜원;윤상운
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.129-130
    • /
    • 2020
  • 본 논문에서는 청각장애인의 의사소통을 위한 안드로이드 애플리케이션 시스템 구현 결과를 보인다. 구글 클라우드 플랫폼(Google Cloud Platform)의 STT(Speech to Text) API를 이용하여 음성 인식을 통해 대화의 내용을 텍스트의 형태로 출력한다. 그리고 TTS(Text to Speech)를 이용한 음성 합성을 통해 텍스트를 음성으로 출력한다. 또한, 포그라운드 서비스(Service)에서 가속도계 센서(Accelerometer Sensor)를 이용하여 스마트폰을 2~3회 흔들었을 때 해당 애플리케이션을 실행할 수 있도록 하여 애플리케이션의 활용성을 높인 시스템을 개발하였다.

  • PDF

STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안 (Noise filtering method based on voice frequency correlation to increase STT efficiency)

  • 임지원;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

개인의 감성 분석 기반 향 추천 미러 설계 (Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis)

  • 김현지;오유수
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문에서는 사용자의 감정 분석에 따른 향을 추천하는 스마트 미러 시스템을 제안한다. 본 논문은 자연어 처리 중 임베딩 기법(CounterVectorizer와 TF-IDF 기법), 머신러닝 분류 기법 중 최적의 모델(DecisionTree, SVM, RandomForest, SGD Classifier)을 융합하여 시스템을 구축하고 그 결과를 비교한다. 실험 결과, 가장 높은 성능을 보이는 SVM과 워드 임베딩을 파이프라인 기법으로 감정 분류기 모델에 적용한다. 제안된 시스템은 Flask 웹 프레임워크를 이용하여 웹 서비스를 제공하는 개인감정 분석 기반 향 추천 미러를 구현한다. 본 논문은 Google Speech Cloud API를 이용하여 사용자의 음성을 인식하고 STT(Speech To Text)로 음성 변환된 텍스트 데이터를 사용한다. 제안된 시스템은 날씨, 습도, 위치, 명언, 시간, 일정 관리에 대한 정보를 사용자에게 제공한다.

ChatGPT와 영상처리를 이용한 졸음 감지 시스템 (A Drowsiness Detection System using ChatGPT and Image Processing)

  • 이현준;순현상;조성훈;서창희;강지윤;오세진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.259-260
    • /
    • 2024
  • 졸음운전으로 인한 교통사고는 매년 꾸준하게 일어나 이에 대한 다방면의 해결책이 요구되고 있다. 본 논문에서는 위 문제를 개선하고자 ChatGPT와 영상처리를 이용한 졸음 감지 시스템을 구현하였다. 이 시스템은 운전자의 얼굴 부분을 영상처리로 인식하여 눈동자의 종횡비를 구해 PERCLOS 공식에 따른 운전자의 졸음을 판별시키고, 경고와 동시에 ChatGPT가 운전자에게 특정 주제를 키워드로 TTS와 STT를 통해 대화한다. 운전자의 졸음을 판별하기 위해 임베디드 보드에서 연결된 캠을 통해 졸음 판별을 하고, ChatGPT도 마찬가지로 보드에서 연결한 스피커, 마이크를 통해 운전자와 대화한다. 이를 활용하여 운전자의 졸음 자각을 통한 안전운전 및 사고 발생률의 감소를 기대할 수 있다.

  • PDF

미션 알람 앱 (Mission Alarm App)

  • 김강우;정진우;한재익;박준호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.281-282
    • /
    • 2024
  • 본 논문에서는 사용자들의 운동 능력과 영어 학습 능력 향상을 위한 앱을 개발한다. 지정한 시간에 알람을 울리고, 운동 및 학습을 완료하는 경우에만 알람이 종료한다. 알람이 활성화되면 사용자가 강제적으로 종료할 수 없는 기능을 선택할 수 있다. TTS 기능을 적용하여 알람이 활성화되었을 때, 안내 음성이 나오도록 설계하였다. 학습 기능에 STT를 적용하여 영어 단어와 문장을 마이크에 인식하는 방식의 영어 문제를 제시하였다. 또한, OpenAI를 활용하여 매일 자정 새로운 영어 문제를 생성하고 서버에 저장한다. 이러한 기능들은 사용자의 선택권을 보장하며 건강 증진 및 자기 주도적인 학습에 도움을 줄 것이다.

  • PDF

Digital enhancement of pronunciation assessment: Automated speech recognition and human raters

  • Miran Kim
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.13-20
    • /
    • 2023
  • This study explores the potential of automated speech recognition (ASR) in assessing English learners' pronunciation. We employed ASR technology, acknowledged for its impartiality and consistent results, to analyze speech audio files, including synthesized speech, both native-like English and Korean-accented English, and speech recordings from a native English speaker. Through this analysis, we establish baseline values for the word error rate (WER). These were then compared with those obtained for human raters in perception experiments that assessed the speech productions of 30 first-year college students before and after taking a pronunciation course. Our sub-group analyses revealed positive training effects for Whisper, an ASR tool, and human raters, and identified distinct human rater strategies in different assessment aspects, such as proficiency, intelligibility, accuracy, and comprehensibility, that were not observed in ASR. Despite such challenges as recognizing accented speech traits, our findings suggest that digital tools such as ASR can streamline the pronunciation assessment process. With ongoing advancements in ASR technology, its potential as not only an assessment aid but also a self-directed learning tool for pronunciation feedback merits further exploration.

MBC의 미디어AI 서비스

  • 성시훈
    • 방송과미디어
    • /
    • 제28권2호
    • /
    • pp.53-59
    • /
    • 2023
  • (주)문화방송(MBC)은 콘텐츠 제작 및 유통 워크플로우에 인공지능(Artificial Intelligence, AI) 기술을 적용한 미디어AI 서비스를 운영하고 있다. 영상아카이브에 보관되어 있는 수십만 개의 아날로그와 SD급 콘텐츠를 대상으로 HD급 수준의 영상화질로 품질을 향상시키기 위해서 AI영상화질개선시스템을 2020년에 개발 구축해서 여러 목적에 활용하고 있으며, HD급 콘텐츠를 대상으로 4K 초고화질급으로 변환하는 기술로 고도화해서 실서비스 적용을 눈앞에 두고 있다. 그리고 2년의 STT(Speech-To-Text, 음성문자변환) 베타서비스를 통해 얻어진 사용성 검증과 운영 경험을 바탕으로 STT HUB 서비스를 개발 구축해서 2022년부터 보도와 시사교양 프로그램의 제작 워크플로우에 적용하고 있다. 이들 서비스의 주요 기능들과 기술적 요소들의 구현, 미디어AI 서비스 운영의 경험을 나누고자 한다.

  • PDF

음성-텍스트 변환 어플리케이션을 이용한 원격 모니터링이 건강한 성인의 작업균형에 미치는 효과 (Effects of the Tele-Monitoring With the Speech-to-Text Application on Occupational Balance in Healthy Adults : Feasibility Study)

  • 나남희;이성아;이영현;이상헌;황도연;박진혁
    • 재활치료과학
    • /
    • 제11권3호
    • /
    • pp.93-106
    • /
    • 2022
  • 목적 : 본 연구의 목적은 음성-텍스트 변환 어플리케이션을 이용한 원격 모니터링이 건강한 성인의 작업균형에 미치는 효과를 알아보기 위함이다. 연구방법 : 총 7명의 건강한 성인을 대상으로 연구를 진행하였다. 대상자는 실험에 참여 전, 원하는 작업 활동을 선택하였고 이를 스마트폰에 설치한 음성-텍스트 변환 어플리케이션에 등록하였다. 음성-텍스트 변환 어플리케이션은 미리 등록된 작업 활동을 시간에 맞춰 수행 여부를 확인할 수 있도록 알람을 제공하였고 대상자는 음성으로 수행 여부를 등록하였다. 원격 모니터링은 일주일 동안 진행하였고 일주일 뒤, 작업 활동의 변화를 살펴보았다. 결과 : 대상자 모두 일주일 동안 어플리케이션 사용에 높은 순응도와 만족도를 보였다. 또한 일주일 뒤, 건강과 관련된 작업 활동의 균형이 유의하게 향상되었다(p<.05). 결론 : 본 연구 결과는 스마트폰을 이용한 원격 모니터링이 코로나19로 인한 봉쇄 기간 동안 작업 균형을 회복하는 방법으로 사용 가능함을 시사한다.

작업자의 업무 능률 향상과 안전 사고 방지를 위한 LLM 기반 챗봇 시스템 (LLM-based chatbot system to improve worker efficiency and prevent safety incidents)

  • 김두환;한요한;정인혁;황영석;박진주;이나현;이유진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.321-324
    • /
    • 2024
  • 본 논문에서는 LLM(Large Language Models) 기반의 STT 결합 챗봇 시스템을 제안한다. 제조업 공장에서 안전 교육의 부족과 외국인 근로자의 증가는 안전을 중시하는 작업 환경에서 새로운 도전과제로 부상하고 있다. 이에 본 연구는 언어 모델과 음성 인식(Speech-to-Text, STT) 기술을 활용한 혁신적인 챗봇 시스템을 통해 이러한 문제를 해결하고자 한다. 제안된 시스템은 작업자들이 장비 사용 매뉴얼 및 안전 지침을 쉽게 접근하도록 지원하며, 비상 상황에서 신속하고 정확한 대응을 가능하게 한다. 연구 과정에서 LLM은 작업자의 의도를 파악하고, STT 기술은 음성 명령을 효과적으로 처리한다. 실험 결과, 이 시스템은 작업자의 업무 효율성을 증대시키고 언어 장벽을 해소하는데 효과적임이 확인되었다. 본 연구는 제조업 현장에서 작업자의 안전과 업무 효율성 향상에 기여할 것으로 기대된다.

  • PDF

음성인식을 이용한 자막 자동생성 시스템 (Subtitle Automatic Generation System using Speech to Text)

  • 손원섭;김응곤
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.81-88
    • /
    • 2021
  • 최근 COVID-19로 인한 온라인 강의 영상과 같은 많은 영상이 생성되고 있는데 노동 시간의 한계와 비용의 부족 등으로 인해 자막을 보유한 영상이 일부분에 불과하여 청각장애인들의 정보 취득에 방해 요소로 대두되고 있다. 본 논문에서는 음성인식을 이용하여 자막을 자동으로 생성하고 종결 어미와 시간을 이용해 문장을 분리하여 자막을 생성함으로써 자막 생성에 드는 시간과 노동력을 줄일 수 있도록 하는 시스템을 개발하고자 한다.