• 제목/요약/키워드: TTS(Text-to-Speech)

검색결과 139건 처리시간 0.025초

스마트폰용 영한, 한영 모바일 번역기 개발 (Development of Korean-to-English and English-to-Korean Mobile Translator for Smartphone)

  • 여상화;채흥석
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.229-236
    • /
    • 2011
  • 본 논문에서는 스마트폰용 경량화된 영한, 한영 모바일 번역기를 설계 및 구현한다. 번역 엔진은 자연스러운 번역과 높은 번역 품질을 위해 번역 메모리와 규칙기반의 번역 엔진으로 이중화를 한다. 개발된 번역 엔진의 사용자의 사용성 (Usability)을 극대화하기 위해 스마트폰에 내장된 카메라를 통한 문자인식(OCR; Optical Character Recognition) 엔진과 음성 합성 엔진(TTS; Text-to-Speech)을 각각 Front-End와 Back-end에 접목하였다. 실험결과 번역 품질은 BLEU와 NIST 평가치를 기준으로 구글번역기 대비 영한 번역은 72.4%, 한영 번역은 77.7%로 평가되었다. 이러한 평가결과는 본 논문에서 개발한 모바일 자동번역기가 서버 기반의 번역기의 성능에 근접하며 상업적으로 유용함을 보여준다.

초등과학 수업을 위한 애니메이션 기반 튜터링 다이얼로그 에이전트 개발 (On the Development of Animated Tutoring Dialogue Agent for Elementary School Science Learning)

  • 정상목;한병래;송기상
    • 정보교육학회논문지
    • /
    • 제9권4호
    • /
    • pp.673-684
    • /
    • 2005
  • 본 연구에서는 인간 교사를 모사하는 "컴퓨터 교사" 역할을 하는 애니메이션 된 튜터링 다이얼로그 에이전트를 구현하고 초등학교 과학과 교수-학습 자료와 통합시켜서 자연어를 기반으로 한 일대일 대화를 통한 교수 학습이 이루어지는 교수-학습 시스템을 개발하였다. 개발된 교수용 다이얼로그 에이전트는 학습자의 대답을 분석하고, 웹 코스웨어를 학습한 후에 초등과학 학습과제에서 요구되는 성취 수준과 비교하여 적절한 질문이나 대답을 제공하는데, TTS(Text-to-Speech) 기능을 이용하여 학습자에게 구어체로 질문이나 대답을 주는 기능을 갖고 있으며 애니메이션 된 인간 교사의 얼굴을 통하여 학습자에게 피드백을 제시할 수 있도록 하였다. 구현된 대화형 인터페이스는 6학년 초등학생 64명에게 현장 실험을 하였다. 현장 실험 결과 비교집단보다 실험집단의 학습 성취도가 평균 10.797점이 향상됨을 보여주었다. 이러한 학습효과는 기존의 웹 코스웨어와 달리 "묻고-답하는" 과정과 인간 교사의 감정을 담은 애니메이션 된 캐릭터를 통하여 학습자들의 호기심을 자극하여 보다 쉽게 교수-학습 과정에 몰입하게 함으로서 학습 효과를 증진시킨 결과로 판단된다.

  • PDF

지능형 로봇 아이로비큐(IrobiQ)를 활용한 학교폭력 예방 프로그램 개발 (Contents Development of IrobiQ on School Violence Prevention Program for Young Children)

  • 현은자;이하원;연혜민
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.455-466
    • /
    • 2013
  • 본 연구의 목적은 지능형 로봇 IrobiQ를 활용한 유아용 학교폭력 예방교육 프로그램 [모두 지킴이]를 개발하는 것이다. 개발 내용은 첫째, 현장에서 실제 발생될 수 있는 폭력 유형인 집단 따돌림(왕따), 성폭력 그리고 기본 인성교육이다. 둘째, 각 주제에 적합한 활동형태는 대집단, 개별, 소집단, 자유선택활동 및 학교와 부모의 연계를 목적으로 하는 부모교육이다. 셋째, 활동유형은 동시, 동화, 동요, 미술, 이야기 나누기 등이다. 넷째, 콘텐츠는 이미지, TTS(text to speech), 터치기능, 음량인식기능 및 녹음기능 등을 활용하여 제작하였다. 본 콘텐츠를 유아에게 적용하고 30명의 전문가들을 대상으로 시연하여 수용성 설문을 실시한 결과, 긍정 반응을 보였다. 본 연구의 결과는 로봇을 활용한 학교 폭력 예방 프로그램의 효과를 최적화하기 위한 기초 자료로서 상호 작용성을 보다 증진시킬 수 있는 추후 연구를 제안한다.

인공 신경망의 한국어 운율 발생에 관한 연구 (The Study on Korean Prosody Generation using Artificial Neural Networks)

  • 민경중;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.337-340
    • /
    • 2004
  • 한국어 문-음성 합성 시스템(TTS: Text-To-Speech)은 합성음의 자연스러움을 증가시키기 위해 운율 발생 알고리듬을 만들어 시스템에 적용하고 있다. 운율 법칙은 각국의 언어에 대한 언어학적 정보나 자연음에서 구한 운율에 대한 지식을 기반으로 음성 합성 시스템에 적용하고 있다. 그러나 이렇게 구한 운율 법칙이 자연음에 존재하는 모든 운율 법칙을 포함할 수도 없고, 또 추출한 운율 법칙이 틀린 법칙이라면, 합성음의 자연감이나 이해도는 떨어질 것이므로, TTS의 실용화에 장애가 될 수 있다. 이러한 점을 감안하여 본 논문에서는 자연음에 내재하는 운율을 학습할 수 있는 인공 신경망을 이용한 운율발생 신경망을 제안하였다. 훈련단계에서 인공 신경망의 입력 단에 한국어 문장의 음소 열을 차례로 이동시켜 인가하면 입력 단의 중앙에 해당하는 음소의 운율 정보가 출력되도록 훈련시킬 때, 목표 패턴을 이용한 감독학습을 통해, 자연음에 내재하는 운율을 학습하도록 하였다. 평가 단계에서 문장의 음소 열을 입력하고, 추정율을 측정하여 인공 신경망이 한국어 문장에 내재하는 운율을 학습하여 발생시킬 수 있음을 살펴보았다.

  • PDF

시각장애인 보조를 위한 영상기반 휴먼 행동 인식 시스템 (Image Based Human Action Recognition System to Support the Blind)

  • 고병철;황민철;남재열
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.138-143
    • /
    • 2015
  • 본 논문에서는 시각장애인의 장면인식 보조를 위해, 귀걸이 형 블루투수 카메라와 행동인식 서버간의 통신을 통해 휴먼의 행동을 인식하는 시스템을 제안한다. 먼저 시각장애인이 귀걸이 형 블루투수 카메라를 이용하여 원하는 위치의 장면을 촬영하면, 촬영된 영상은 카메라와 연동된 스마트 폰을 통해 인식서버로 전송된다. 인식 서버에서는 영상 분석 알고리즘을 이용하여 휴먼 및 객체를 검출하고 휴먼의 포즈를 분석하여 휴먼 행동을 인식한다. 인식된 휴먼 행동 정보는 스마트 폰에 재 전송되고 사용자는 스마트 폰을 통해 text-to-speech (TTS)로 인식결과를 듣게 된다. 본 논문에서 제안한 시스템에서는 실내 외에서 촬영된 실험데이터에 대해서 60.7%의 휴먼 행동 인식 성능을 보여 주었다.

시각 장애인용 신문 구독 프로그램을 위한 이미지에서 표 구조 인식 (Table Structure Recognition in Images for Newspaper Reader Application for the Blind)

  • 김지웅;이강;김경미
    • 한국멀티미디어학회논문지
    • /
    • 제19권11호
    • /
    • pp.1837-1851
    • /
    • 2016
  • Newspaper reader mobile applications using text-to-speech (TTS) function enable blind people to read newspaper contents. But, tables cannot be easily read by the reader program because most of the tables are stored as images in the contents. Even though we try to use OCR (Optical character reader) programs to recognize letters from the table images, it cannot be simply applied to the table reading function because the table structure is unknown to the readers. Therefore, identification of exact location of each table cell that contains the text of the table is required beforehand. In this paper, we propose an efficient image processing algorithm to recognize all the cells in tables by identifying columns and rows in table images. From the cell location data provided by the table column and row identification algorithm, we can generate table structure information and table reading scenarios. Our experimental results with table images found commonly in newspapers show that our cell identification approach has 100% accuracy for simple black and white table images and about 99.7% accuracy for colored and complicated tables.

시각장애인용 웹사이트 자동생성 툴 개발 (Development of Automatic Creating Web-Site Tool for the Blind)

  • 백현기;하태현
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권4호
    • /
    • pp.467-474
    • /
    • 2007
  • 본 연구는 시각장애인을 위해 음성 인식, 음성 합성 기술을 이용하여 일반인과 마찬가지로 개인의 특성에 맞는 홈페이지를 구축하게 하는 웹 사이트 자동 생성 툴을 개발 하였다. 이 연구에서 개발한 툴을 이용하여 시각 장애인은 개인 맞춤 정보 생성 기능과 관리기능을 통해 일반인과 의사소통을 원활하게 할 수 있다. 또한 이 툴은 기본적인 명령어를 음성인식으로 처리할 수 있게 지원하며, 음성출력이 지원되는 TTS등을 추가적으로 제공한다. 따라서 본 연구개발의 결과물은 시각장애인들이 사회적 소외감을 없애며, 정보화 시대에 동등한 위치에서 생활 할 수 있도록 하는데 중요한 역할을 할 것이다.

  • PDF

로봇보조언어교육을 통한 초등 영어 학습자의 운율 변화 (The Prosodic Changes of Korean English Learners in Robot Assisted Learning)

  • 인지영;한정혜
    • 정보교육학회논문지
    • /
    • 제20권4호
    • /
    • pp.323-332
    • /
    • 2016
  • 로봇의 발음인식과 진단 그리고 발음빠르기는 로봇보조언어교육의 가장 중요한 상호작용이다. 이 연구는 한국인 초등 영어 학습자를 위하여 음율적 오류를 수정함으로써 원어민과 같은 억양을 산출하기 위한 로봇음성합성기의 효과성을 측정하기 위한 것이다. 이를 위해 초등 4학년 영어학습자들의 F0 범위값과 발화 속도라는 음성음향적 변수를 측정하여 분석하였고, 그 결과를 정규 영어교육의 시작하지 않은 1학년 학습자와 비교하였다. 로봇음성합성기를 활용한 언어학습에서 두 집단은 F0값보다 발화속도 변인에 반응하였다.

히어 캠 임베디드 플랫폼 설계 (HearCAM Embedded Platform Design)

  • 홍선학;조경순
    • 디지털산업정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.79-87
    • /
    • 2014
  • In this paper, we implemented the HearCAM platform with Raspberry PI B+ model which is an open source platform. Raspberry PI B+ model consists of dual step-down (buck) power supply with polarity protection circuit and hot-swap protection, Broadcom SoC BCM2835 running at 700MHz, 512MB RAM solered on top of the Broadcom chip, and PI camera serial connector. In this paper, we used the Google speech recognition engine for recognizing the voice characteristics, and implemented the pattern matching with OpenCV software, and extended the functionality of speech ability with SVOX TTS(Text-to-speech) as the matching result talking to the microphone of users. And therefore we implemented the functions of the HearCAM for identifying the voice and pattern characteristics of target image scanning with PI camera with gathering the temperature sensor data under IoT environment. we implemented the speech recognition, pattern matching, and temperature sensor data logging with Wi-Fi wireless communication. And then we directly designed and made the shape of HearCAM with 3D printing technology.

HMM 기반 TTS와 MusicXML을 이용한 노래음 합성 (Singing Voice Synthesis Using HMM Based TTS and MusicXML)

  • 칸 나지브 울라;이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.53-63
    • /
    • 2015
  • 노래음 합성이란 주어진 가사와 악보를 이용하여 컴퓨터에서 노래음을 생성하는 것이다. 텍스트/음성 변환기에 널리 사용된 HMM 기반 음성합성기는 최근 노래음 합성에도 적용되고 있다. 그러나 기존의 구현방법에는 대용량의 노래음 데이터베이스 수집과 학습이 필요하여 구현에 어려움이 있다. 또한 기존의 상용 노래음 합성시스템은 피아노 롤 방식의 악보 표현방식을 사용하고 있어 일반인에게는 익숙하지 않으므로 읽기 쉬운 표준 악보형식의 사용자 인터페이스를 지원하여 노래 학습의 편의성을 향상시킬 필요가 있다. 이 문제를 해결하기 위하여 본 논문에서는 기존 낭독형 음성합성기의 HMM 모델을 이용하고 노래음에 적합한 피치값과 지속시간 제어방법을 적용하여 HMM 모델 파라미터 값을 변화시킴으로서 노래음을 생성하는 방법을 제안한다. 그리고 음표와 가사를 입력하기 위한 MusicXML 기반의 악보편집기를 전단으로, HMM 기반의 텍스트/음성 변환 합성기를 합성기 후단으로서 사용하여 노래음 합성시스템을 구현하는 방법을 제안한다. 본 논문에서 제안하는 방법을 이용하여 합성된 노래음을 평가하였으며 평가결과 활용 가능성을 확인하였다.