• 제목/요약/키워드: 텍스트/음성변환

검색결과 75건 처리시간 0.028초

음성인식 텍스트 분석을 통한 자동 일정 관리 시스템 개발에 관한 연구 (A Study on the Development of Automatic Schedule Management System through Speech Recognition Text Analysis)

  • 이해미;조위덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.279-282
    • /
    • 2022
  • 컴퓨터가 마이크 등의 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술인 음성 인식 기술과 인공지능 기술을 결합한 음성 대화 시스템에 대한 연구 진행 및 제품 출시가 활발하게 이루어지고 있다. 기존의 시스템을 사용하면서 날짜와 시간 외의 정보 추출 정도가 빈약하거나 자동 등록이 되지 않는 문제점을 확인하였다. 음성 인식 기술을 통해 얻은 텍스트에서 보다 많은 정보를 추출하고, 자동 등록 및 알림과 맛집 등 추가 정보 제공 시스템을 구축하는 것을 목표로 하였다.

템플릿 기반의 자동 소셜 매거진 및 영상 합성 서비스 (Template-based Auto Social Magazine and Video Creation Service)

  • 이재원;장달원;김미지;김지수;김서율;이종설
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.129-132
    • /
    • 2019
  • 최근 자연어 처리 기술에 대한 중요도가 높아지고, 발전 속도가 빨라지면서, 산업 전반에 걸쳐 챗봇에 대한 수요가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포, 그리고 이를 활용하여 사용자에게 텍스트를 음성으로 변환하여 동영상의 형태로 전달해 주는 시스템을 다루고 있다. 챗봇이 사용자 대화를 수집, 분석하여 상황에 맞는 키워드를 추출하고, 중복 콘텐츠 제거, 텍스트 요약 등 일련의 과정을 거쳐 소셜 매거진을 생성 및 배포하는 서비스와, 매거진의 각 콘텐츠를 구성하는 이미지, 텍스트 정보를 가지고 음성 합성, 자막 생성, 영상 효과 등을 이용하여 영상을 합성하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.

  • PDF

음성 인식 기반의 모바일 메신저 설계 및 구현 (The Design and Implementation of the Mobile Messenger based on Voice Recognition)

  • 유상철;유병석;김유미;이유진;고훈;윤성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1694-1697
    • /
    • 2012
  • 음성 인식은 인간이 발성하는 음성을 컴퓨터 프로그램을 이용하여 문자 정보로 변환하는 기술이다. 음성은 사람마다 각기 다르기 때문에 인식률도 각각 차이가 나게 되어 범용 인터페이스로 사용되기에는 적합하지 않다. 하지만 최근 구글, 다음 등 대형 포털을 중심으로 서버 기반의 음성 인식 서비스가 제공되면서 사용자 인터페이스로 음성을 이용하는 것이 주요 이슈로 부각되고 있다. 카카오톡과 같은 메신저 프로그램은 네트워크를 이용하여 그룹 내의 사용자들 간에 메시지를 주고받는다. 여기에 사용되는 터치 자판은 간격이 좁아서 오타가 많이 발생하고, 긴 문장을 입력할 때 시간이 많이 걸리며, 운전 중에 사용할 경우 사고 위험이 높아지는 단점이 있다. 이러한 문제들을 해결하기 위해서는 음성 인식 인터페이스를 접목하는 것이 이상적이다. 본 논문에서는 음성 인식 기반의 스마트폰용 모바일 메신저 프로그램을 설계 및 구현하였다. 외부의 음성 인식 서버를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환하며, 채팅 서버를 통해 메시지를 전달한다.

청각장애인용 부착형 커뮤니케이션 디바이스 (Attached Communication Device for the Hearing-Impaired)

  • 변혜성;오태진;정민규;정영진;김웅섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.338-341
    • /
    • 2019
  • 본 설계는 청각장애인을 위한 기술이다. 청각장애인은 일상생활에서 음성을 통한 의사소통이 어렵기 때문에, 비장애인과의 정보 격차를 줄이기 위한 '안경 부착형 커뮤니케이션 디바이스'를 개발하였다. Speech-To-Text 기술을 적용하여 음성이 인식되면 텍스트로 변환하여 출력한다. 따라서 음성에 대한 정보를 텍스트로 볼 수 있게끔 구현하였다. 또한 청각장애인은 소리로 파악할 수 있는 위험 요소에 노출되어 있다. 혹시 모를 안전사고에 빠르게 대처하고자 현재 위치 정보를 보호자에게 전송하는 기능을 구현하였다.

청각장애인을 위한 음성인식 기반 메시지 전송 시스템 (Speech Recognition based Message Transmission System for the Hearing Impaired Persons)

  • 김성진;조경우;오창헌
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1604-1610
    • /
    • 2018
  • 음성인식 서비스는 청각장애인에게 화자의 음성을 텍스트로 변환하여 시각화함으로써 의사소통의 보조적인 수단으로 사용되고 있다. 하지만 강의실 및 회의실과 같은 개방된 환경에서는 다수의 청각장애인에게 음성인식 서비스를 제공하기 힘들다. 이를 위해 주변 환경에 따라 음성 인식 서비스를 효율적으로 제공하기 위한 방법이 필요하다. 본 논문에서는 화자의 음성을 인식하여 변환된 텍스트를 다수의 청각장애인에게 메시지로 전달하는 시스템을 제안한다. 제안하는 시스템은 다수의 사용자에게 동시에 메시지를 전달하기 위해 MQTT 프로토콜을 사용한다. MQTT 프로토콜의 QoS level 설정에 따른 제안 시스템의 서비스 지연을 확인하기 위해 종단 간 지연을 측정하였다. 측정 결과 가장 신뢰성이 높은 QoS level 2와 0간의 지연이 111ms로 대화 인식에 큰 영향을 끼치지 않음을 확인하였다.

규칙기반과 신경망 모델을 결합한 한국어 글자-음소 변환 시스팀 개발에 관한 연구

  • 김세훈;이주헌
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.307-320
    • /
    • 1991
  • 본 연구는 한국어 음성합성 시스팀에서 한글 텍스트를 음소로 변환 시키는 규칙기반과 신경망을 결합한 한글-음소 변환 시스팀을 제안하고 이를 위해 시스팀 모델을 설계하고 시스팀의 각 구성요소들을 설명하며 한국어 음운 변동 규칙중 설측음화 데이타와 설측음화에 상충되는 데이타를 사용하여 시스팀을 실험하고 제안된 모형의 타당성을 분석한다.

  • PDF

HMM 기반 TTS와 MusicXML을 이용한 노래음 합성 (Singing Voice Synthesis Using HMM Based TTS and MusicXML)

  • 칸 나지브 울라;이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.53-63
    • /
    • 2015
  • 노래음 합성이란 주어진 가사와 악보를 이용하여 컴퓨터에서 노래음을 생성하는 것이다. 텍스트/음성 변환기에 널리 사용된 HMM 기반 음성합성기는 최근 노래음 합성에도 적용되고 있다. 그러나 기존의 구현방법에는 대용량의 노래음 데이터베이스 수집과 학습이 필요하여 구현에 어려움이 있다. 또한 기존의 상용 노래음 합성시스템은 피아노 롤 방식의 악보 표현방식을 사용하고 있어 일반인에게는 익숙하지 않으므로 읽기 쉬운 표준 악보형식의 사용자 인터페이스를 지원하여 노래 학습의 편의성을 향상시킬 필요가 있다. 이 문제를 해결하기 위하여 본 논문에서는 기존 낭독형 음성합성기의 HMM 모델을 이용하고 노래음에 적합한 피치값과 지속시간 제어방법을 적용하여 HMM 모델 파라미터 값을 변화시킴으로서 노래음을 생성하는 방법을 제안한다. 그리고 음표와 가사를 입력하기 위한 MusicXML 기반의 악보편집기를 전단으로, HMM 기반의 텍스트/음성 변환 합성기를 합성기 후단으로서 사용하여 노래음 합성시스템을 구현하는 방법을 제안한다. 본 논문에서 제안하는 방법을 이용하여 합성된 노래음을 평가하였으며 평가결과 활용 가능성을 확인하였다.

듀얼모드 통신 지원 임베디드 리눅스 기반의 모바일 이야기꾼 설계 및 구현 (Design and Implementation of Embedded Linux-based Mobile Teller which supports CDMA and WiBro networks)

  • 김도형;윤민홍;이경희;이철훈
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.131-138
    • /
    • 2008
  • 본 논문에서는 음성통화를 위해 CDMA 네트워크와 데이터 통신을 위해 와이브로 네트워크를 동시에 사용하는 최초의 임베디드 리눅스 기반 듀얼모드 응용 서비스인 모바일 이야기꾼의 구현에 대해서 기술한다. 현재 와이브로 상용 서비스와 함께 두 개의 이종 네트워크를 지원하는 단말이 출시되었지만, 이들 네트워크를 효과적으로 사용하여 사용자에게 보다 나은 서비스를 제공할 수 있는 응용 서비스의 개발은 미비한 실정이다. 모바일 이야기꾼은 사용자가 듀얼모드 지원 단말에서 텍스트를 입력하면, 와이브로 네트워크를 통해 인터넷 상의 TTS 서버로 전달한다. TTS 서버는 전달된 텍스트를 음성으로 변환하고, 변환된 음성 데이터를 듀얼모드 지원 단말로 다시 전달한다. 듀얼모드 지원 단말은 수신된 음성 데이터를 CDMA 네트워크를 통해 수신자에게 전송하게 된다. 구현된 모바일 이야기꾼은 주위가 시끄러운 환경이나 언어 장애가 있는 사람도 CDMA를 통한 음성 통화를 가능하게 한다.

음성인식 기반 리마인더를 위한 시간 표현 분석 기법 (Time Expression Analysis For Reminder Applications Using Speech Recognition)

  • 박재성;이상원;장재나;강상우
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.264-266
    • /
    • 2017
  • 본 연구는 리마인더 앱을 위한 효과적인 시간 표현 분석 방법을 제안한다. 시간 표현 분석을 위한 정규식 패턴을 이용하여 사용자 발화 텍스트로부터 시간 정보를 분석하고 시간 표현 유형에 따라 절대적 시간 정보로 변환한다. 제안한 방법은 정규식 패턴을 이용한 시간 표현 분석 기법으로 시스템의 유지 관리가 용이하고 정보량이 많은 패턴과의 매칭을 위해 효과적이다.

  • PDF

STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안 (Noise filtering method based on voice frequency correlation to increase STT efficiency)

  • 임지원;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF