• 제목/요약/키워드: STT(Speech-To-Text)

검색결과 39건 처리시간 0.028초

음성 인터페이스 STT(Speech to Text)를 활용한 동영상 스트리밍 자막 강조 시스템 (Subtitle Highlighting System for Video Streaming using Speech Interface STT (Speech to Text))

  • 이강찬;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.567-568
    • /
    • 2021
  • 자막은 자막을 볼 수 있는 모든 사람들의 정보전달, 의사소통을 할 수 있는 유용한 도구로 사용 되고 있지만 자막은 평범한 텍스트로 있어 자막에서 강조된 부분, 감정 등을 전달 할 수 없다는 단점을 가지고 있다. 그러므로 청각 장애인들은 해당 컨텐츠의 감정, 강조 되는 부분을 알 수 없어 대화의 숨은 의미가 다른 방향으로 이해 할 수 있다는 위험성을 가지고 있다. 본 논문에서는 음성을 텍스트로 변환하는 STT(Speech To Text)를 이용하여 동영상 스트리밍 서비스를 실시간으로 음성을 텍스트로 변환과 동시에 강조하는 부분까지 개발하여 청각장애인 입장에서 기존 자막보다 효율적인 시각적 효과를 주는 미디어 접근을 위한 동영상 스트리밍 자막 서비스를 개발하고자 한다.

  • PDF

한국어 특성 기반의 STT 엔진 정확도를 위한 정량적 평가방법 연구 (A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics)

  • 민소연;이광형;이동선;류동엽
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.699-707
    • /
    • 2020
  • 딥러닝 기술의 발전으로 STT(Speech To Text), TTS(Text To Speech), 챗봇(ChatBOT), 인공지능 비서 등 다양한 분야에 음성처리 관련 기술이 적용되고 있다. 특히, STT는 음성 기반 관련 서비스의 기반이며, 인간의 언어를 텍스트로 변환시키기 때문에 IT관련 서비스에 대한 다양한 응용을 할 수 있다. 따라서 최근 일반 사기업, 공공기관 등 여러 수요처에서 관련 기술에 대한 도입을 시도하고 있다. 하지만 정량적으로 수준을 평가할 수 있는 일반적인 IT 솔루션과는 달리 STT엔진에 대한 정확성을 평가하는 기준과 방법이 모호하며 한국어의 특성을 고려하지 않기 때문에 정량적인 평가 기준 적용이 어렵다. 따라서 본 연구에서는 한국어의 특성에 기반한 STT엔진 변환 성능 평가에 대한 가이드를 제공함으로써 엔진제작사는 한국어 특성에 기반한 STT변환을 수행 할 수 있으며, 수요처에서는 더 정확한 평가를 수행할 수 있다. 실험 데이터에서 기존 방식에 비해 35% 더 정확한 평가를 수행할 수 있다.

A Design and Implementation of Speech Recognition and Synthetic Application for Hearing-Impairment

  • Kim, Woo-Lin;Ham, Hye-Won;Yun, Sang-Un;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.105-110
    • /
    • 2021
  • 본 논문에서는 STT(Speech-to-Text), TTS(Text-to-Speech) API와 가속도 센서 기반의 청각 장애인의 의사소통을 도와주는 안드로이드 모바일 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 청각 장애인의 대화 상대가 말하는 것을 마이크로 녹음하고 STT API를 이용하여 텍스트로 변환하여 청각 장애인에게 보여주는 기능을 제공한다. 또한, TTS API를 이용하여 청각 장애인이 문자를 입력하면 음성으로 변환하여 대화 상대에게 들려준다. 청각 장애인이 스마트폰을 흔들면 이 애플리케이션이 실행하도록 가속도 센서 기반의 백그라운드 서비스 기능을 제공한다. 본 논문에서 구현한 애플리케이션은 청각 장애인들이 다른 사람과 의사소통을 할 때 영상통화로 수화를 이용하지 않고 쉽게 대화할 수 있는 기능을 제공한다.

The Impact of Speech-To-Text-based Class on Learners' Cognitive Abilities

  • HyunMin Kang;SunKwan Han
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.287-293
    • /
    • 2024
  • 본 연구는 인공지능을 활용한 수업이 항공전문학교 학생의 인지적으로 미치는 영향을 검증하였다. 먼저 프레젠테이션을 활용한 수업에서 전통적인 멀티미디어 자료 기반의 수업과 Speech-to-text(STT)기반의 인공지능 자료로 구성된 수업을 개발하였다. A 항공 전문 교육기관의 학생 133명이 두 가지 유형의 수업에 참여하였다. 수업 전후에 학생들의 인지 부하와 Mind Wandering을 측정하였고, 성취도평가를 실시하였다. 검사의 분석 결과, 외재적 인지 부하는 감소하였고 콘텐츠 집중도가 높아졌으며 성취도가 향상됨을 확인하였다. 향후 기술을 지도하는 학교에서 인공지능 기반의 STT수업이 많이 활용되기를 기대한다.

STT(Speech-To-Text)를 이용한 음성메모장 서비스 분석 (Analysis of Speech-To-Text (STT) Based Voice Memo Service)

  • 오기환;김성진;윤영현;백재순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.265-266
    • /
    • 2023
  • 본 연구에서는 음성메모 기능을 통해 스마트폰에서 메모를 편리하게 작성할 수 있는 방안을 제안하였다. 이 제안은 취약 계층을 포함한 다양한 사용자들이 스마트폰을 보다 쉽고 효율적으로 활용할 수 있는 기회를 제공한다. 음성메모를 통해 중요한 정보를 빠르게 기록하고, 필요할 때 언제든지 액세스할 수 있으며, 기억력에 의존하지 않고 안정적인 방식으로 정보를 보존할 수 있다. 이러한 기능은 취약 계층을 위해 스마트폰 사용의 장벽을 낮추어 정보 접근과 활용의 평등성을 증진시킬 것으로 기대된다. 또한, 연구 결과는 스마트폰 기술과 사용자 경험 분야에 대한 심층적인 이해를 제고하고, 향후 관련 연구와 개발에 영향을 미칠 것으로 기대된다.

  • PDF

STT(Speech-To-Text)와 ChatGPT 를 활용한 강의 요약 애플리케이션 (A Lecture Summarization Application Using STT (Speech-To-Text) and ChatGPT)

  • 김진웅;금보성 ;김태국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.297-298
    • /
    • 2023
  • COVID-19 가 사실상 종식됨에 따라 대학 강의가 비대면 온라인 강의에서 대면 강의로 전환되었다. 온라인 강의에서는 다시 보기를 통한 복습이 가능했지만, 대면강의에서는 녹음을 통해서 이를 대체하고 있다. 하지만 다시 보기와 녹음본은 원하는 부분을 찾거나 내용을 요약하는데 있어서 시간이 오래 걸리고 불편하다. 본 논문에서는 강의 내용을 STT(Speech-to-Text) 기술을 활용하여 텍스트로 변환하고 ChatGPT(Chat-Generative Pre-trained Transformer)로 요약하는 애플리케이션을 제안한다.

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

음성지원 챗봇 모바일 애플리케이션 (A Voice-enabled Chatbot Mobile Application)

  • 최인경;최윤정;이예린
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.438-439
    • /
    • 2019
  • 사회적 문제와 인공지능 기술의 발달로 챗봇 서비스에 대한 관심이 점점 증가하고 있으며, 그 결과 TTS(Text to Speech) 및 STT(Speech to Text) 기술을 기반으로 한 보조형 프로그램에 대한 개발이 다양한 모바일 환경에서 진행중이다. 본 논문에서는 문자를 소리로 변환해주는 TTS(Text to Speech) 기술과 소리를 문자로 변환해주는 STT(Speech to Text) 기술을 사용하여 음성지원 챗봇 시스템을 제작하고 이를 안드로이드 기반의 모바일 애플리케이션으로 구현한 '음성지원 챗봇 모바일 애플리케이션'을 제안하고, 이와 관련하여 관련 기술 및 기대효과에 대해 소개한다.

FastText 알고리즘을 이용한 사용자 지정 키워드 기반 동영상 요약 시스템 (Keywords-based Video Summary System using FastText Algorithm)

  • 김경민;박승민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.693-694
    • /
    • 2023
  • 본 논문에서는 FastText 알고리즘을 기반으로 한 사용자 지정 키워드 기반 동영상 요약 시스템을 제안한다. 사용자가 키워드를 입력하면 시스템은 해당 키워드와 관련된 단어들을 FastText를 통해 추출하며, 이를 STT (Speech-to-Text)로 변환된 동영상에서 타임 스탬프 기반으로 인식한다. 인식된 키워드와 관련된 내용은 클립 형식으로 요약되어 사용자에게 제공된다. 본 연구의 목적은 숏폼 콘텐츠 환경에서 효과적인 콘텐츠 추출 및 제공을 통해 사용자 경험과 정보 제공의 효율성을 향상시키기 위함이다. 제안된 시스템은 사용자 지정 키워드에 맞춰 다양한 동영상 플랫폼에서 효율적인 영상 요약을 제공함으로써 온라인 동영상 환경에서 큰 혁신을 이끌어낼 것으로 기대된다.

  • PDF

난청인을 위한 문자통역서비스 제도화 연구 (A study on the Institutionalization of Speech-to-text Services for the Deaf People)

  • 전동일;서정민
    • 디지털융복합연구
    • /
    • 제15권4호
    • /
    • pp.53-63
    • /
    • 2017
  • 본 연구는 난청인의 의사소통 증진을 위하여 문자통역서비스 활용 현황과 제도화 방안을 찾아보는데 있다. 연구결과는 첫째, 조사 대상자의 문자통역서비스 이용경험자는 17.8% 수준이었고 젊은 층일수록 이용경험률이 높았다. 문자통역서비스 제공기관은 복지기관(38.3%), 민간단체(18.3%), 공공기관(18.3%) 순이었다. 문자통역서비스를 위해 필요한 제도방안을 제시하면 다음과 같다. 첫째, 문자통역서비스는 "장애인차별금지 및 권리구제 등에 관한 법률"의 정당한 편의 중의 하나라는 것을 적극 홍보해야 한다. 둘째, "장애인복지법"의 일부 조항에 문자통역서비스를 추가 열거해 주어야 한다. 셋째, 난청인을 위한 서비스를 제공하기 위한 전달체계가 마련되어야 하며, 수화통역서비스와 복지서비스를 통합적으로 제공할 수 있도록 정비되어야 한다. 대면 접촉을 위한 문자통역서비스 방식의 개선방안이나 ICT를 활용하여 문자통역서비스를 발전시킬 수 있다면, 직업재활에서의 새로운 장애 근로자의 유입뿐만 아니라 난청인의 삶의 만족도 개선될 수 있을 것이다.