• 제목/요약/키워드: text-to-speech

검색결과 501건 처리시간 0.027초

음성인식을 활용한 Dobot 기반 오목 플랫폼 (Dobot-based Omok platform using Voice recognition)

  • 박상용;이강희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.19-21
    • /
    • 2020
  • 해가 갈수록 여러 요인들로 인하여 장애인 인구는 증가하고 있다. 하지만 이러한 장애인들을 위한 주변기기의 발전은 미흡한 상황이며 더욱이 장애인들의 여가를 위한 놀이문화, 기술들은 더욱 발전이 더딘 상태이다. 여가 활동은 장애인의 행복에도 직관적인 영향을 끼치는 중요한 부분이다. 따라서 본 논문에서는 장애인들 중 손과 같은 신체를 움직이기 어려운 중증 지체장애인을 위한 오목 플랫폼을 제안한다. 본 논문에서 구현한 오목 플랫폼은 음성인식을 기반으로 사용자가 오목알을 착수하고 싶은 좌표를 음성으로 입력시키면 Dobot 즉 로봇암을 통하여 착수점에 오목알을 착수한다. 실험에선 Google Vocie To Text API를 Python 환경에서 사용하여 사용자의 음성입력을 받았으며 Dobot Studio의 Script에서 입력된 음성 값을 오목판에 1대1로 맵핑시켜 정확한 위치에 착수할 수 있도록 구현하였다. 본 논문의 연구 결과를 응용하면 오목에만 국한되는게 아닌 다양한 보드게임을 구현할 수 있다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

빅데이터/AI 기반 스마트 해상물류 챗봇 서비스 (Big data/AI-based smart maritime logistics chatbot service)

  • 박상준;이윤표;정원석;최용태;홍진원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1349-1352
    • /
    • 2021
  • 본 학술지는 기존의 공공 행정서비스에서의 복잡한 업무처리를 간단하게 처리할 수 있는 FAQ 형태의 챗봇서비스를 제안한다. 본 논문이 제안하는 주요 특징은 다음과 같다. 버튼, 대화, STT(Speech To Text)를 통한 사용자 기반 UI/UX를 제공한다. 딥러닝을 통한 Synonym, Typo를 검출하여 가장 높은 정확도의 Entity로 변환해준다. 이를 통해, 사용자는 해상물류 서비스를 이용하는데 있어 부담감을 해소하고 편리함을 얻을 수 있다.

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화 (Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired)

  • 최미애;김승현;조민애;박동영;김용호;윤종후
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

TTS를 이용한 E-Book 및 News 웹 개발 (The development an E-Book and News web using TTS)

  • 장은겸;김예은;서동준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.283-284
    • /
    • 2022
  • 본 논문은 TTS를 사용해 사용자들에게 E-Book 및 뉴스를 보고 들을 수 있는 기능을 제공한다. 사용자 및 개발자가 직접 녹음한 TTS를 사용해 원하는 목소리, 배속과 같은 기능을 제공한다. 기존 TTS를 사용한 E-Book 사이트들은 광고가 많아 가독성의 문제와 유료 서비스인 반면에 본 논문에서 제안한 웹은 다양한 연령층의 사용자들이 사용하기 쉽게 메뉴의 간편화를 통해 다양한 E-Book 및 뉴스 기능을 제공함으로써 보다 직관적이고 쉽게 전자문서를 읽을 수 있도록 하였다.

  • PDF

모션인식 기반 스트레칭 모닝콜 앱 (Stretching Morning Call App Based on Motion Recognition)

  • 정진우;김강우;한재익;김민서;박준호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.429-430
    • /
    • 2023
  • 본 논문에서는 사용자들의 면역력 향상과 체력 증진을 목적으로, 아침에 스트레칭을 실행하는 기능을 모닝콜 앱에 도입하였다. 이 앱은 사용자가 원하는 스트레칭과 횟수를 설정할 수 있으며, 모닝콜이 활성화되면 사용자가 알람을 강제로 종료할 수 없는 알고리즘을 적용했다. 해당 앱에 TTS를 적용하여 알람 활성화 시 안내 음성이 나오도록 설계하였다. 주 기능으로 설정된 목표 횟수만큼 적절한 자세로 스트레칭을 수행해야만 모닝콜이 종료되도록 구현하여, 사용자의 건강증진에 기여할 것이다.

  • PDF

시각장애인을 위한 화폐 인식 시스템 (Currency Recognition System for Blind People)

  • 유동준;김성준;이준영;강현수;손준호;오세진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.257-258
    • /
    • 2024
  • 현재 시각장애인들이 현금을 사용하게 될 시 지폐가 얼마인지 확인할 방법이 없어 불편을 겪거나 금전적 사기를 당할 위험이 잦다. 한국은행에서는 이러한 사고를 막기 위해 점자 지폐를 만들어 발부하고 있지만 시각장애인 91%가 식별하지 못해 많은 불편을 겪고 있다. 본 논문에서는 딥러닝을 활용하여 화폐를 인식하고 TTS 기술을 사용하여 지폐의 값이 얼마인지 소리로 알려주는 시스템을 개발하였다. 지폐 인식을 위해 데이터를 직접 수집하여 YOLOv5 알고리즘을 활용하여 학습시킨 Weights 파일을 사용하였다. 이를 활용하여 시각장애인들은 더 안전하게 현금을 사용하고, 금전적인 문제를 예방할 수 있다.

  • PDF

다중 제어 레벨을 갖는 입모양 중심의 표정 생성 (Speech Animation with Multilevel Control)

  • 문보희;이선우;원광연
    • 인지과학
    • /
    • 제6권2호
    • /
    • pp.47-79
    • /
    • 1995
  • 오래 전부터 컴퓨터 그래픽을 이용한 얼굴의 표정 생성은 여러 분야에서 응용되어 왔고,요즘에는 가상현실감 분야나 원격 회의 분야 등에서 가상 에이전트의 표정을 생성하는데 사용되고 있다.그러나 네트워크를 통해 다중 참여자가 상호 작용을 하는 상황에서 표정을 생성하는 경우에는 상호작용을 위해 전송되어야 할 정보의 양으로 인해,실시간에 원하는 표정을 생성하기 어려운 경우가 생긴다.본 연구에서는 이러한 문지를 해결하기 위해 표정 생성에 Level-of-Detail을 적용하였다.Level-of-Detail은 그래픽스 분야에서 복잡한 물체의 외형을 좀 더 효율적으로 나타내기 위해 오랜 전부터 연구되어져 온 기법이지만 아직까지 표정 생성에 적용된 예는 없다.본 연구에서는 상황을 고려하여 적절하게 상세도를 변경하여 표정을 생성하도록 Level-of-Detail기법을 적용하는 방법에 대해 연구하였다.구현된 시스템은 텍스트,음성,Gui, 사용자의 머리의 움직임 등과 같은 다양한 입력에 대해 입모양과 동기화 되는 표정을 생성한다.

  • PDF

RFID를 이용한 Self-care System 설계 (The Design for Self-care System Based on RFID)

  • 초황;주곤봉;진우정;조용순;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.879-881
    • /
    • 2010
  • 사회의 급속한 발전으로 다변화되어 핵가족화, 1인가구화 등 전통적인 가족기능의 변화로 인해 노인들은 고향집에 홀로 남겨지는 경우가 많다. 그러면서 노인들이 홀로 있으면서 건강관리와 안전상의 문제가 제기되어 왔다. RFID 기술의 급속한 발전과 함께, 그 애플리케이션은 우리 삶의 모든 영역을 확장하고 다양한 산업의 주요 주제가 되어있다. 현대사회의 급속한 경제성장, 그리고 과학과 의학의 발전은 노인들의 평균수명 연장이 연장되었고 그로인해 노인들의 안전한 보호시스템이 필요한 실정이다. 본 논문에서의 self-care 시스템은 RFID(Radio Frequency Identification)를 이용하며, 사용자를 인증하고 TTS(Text To Speech)로 문자신호를 음성신호로 변환하고, 적외선 방사 기술을 이용하여 집을 효과적으로 보호하고 또 전자 혈압 측정기를 통하여 고령자의 신체를 검사하는 기술로 설계된다.

  • PDF

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.