통합 검색 | Korea Science

Modelling Duration In Text-to-Speech Systems

정현성
- 대한음성학회지:말소리
- /
- 제49호
- /
- pp.159-174
- /
- 2004
The development of the durational component of prosody modelling was overviewed and discussed in text-to-speech conversion of spoken English and Korean, showing the strengths and weaknesses of each approach. The possibility of integrating linguistic feature effects into the duration modelling of TTS systems was also investigated. This paper claims that current approaches to language timing synthesis still require an understanding of how segmental duration is affected by context. Three modelling approaches were discussed: sequential rule systems, Classification and Regression Tree (CART) models and Sums-of-Products (SoP) models. The CART and SoP models show good performance results in predicting segment duration in English, while it is not the case in the SoP modelling of spoken Korean.
PDF

한국어 특성 기반의 STT 엔진 정확도를 위한 정량적 평가방법 연구 (A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics)

민소연;이광형;이동선;류동엽
- 한국산학기술학회논문지
- /
- 제21권7호
- /
- pp.699-707
- /
- 2020
딥러닝 기술의 발전으로 STT(Speech To Text), TTS(Text To Speech), 챗봇(ChatBOT), 인공지능 비서 등 다양한 분야에 음성처리 관련 기술이 적용되고 있다. 특히, STT는 음성 기반 관련 서비스의 기반이며, 인간의 언어를 텍스트로 변환시키기 때문에 IT관련 서비스에 대한 다양한 응용을 할 수 있다. 따라서 최근 일반 사기업, 공공기관 등 여러 수요처에서 관련 기술에 대한 도입을 시도하고 있다. 하지만 정량적으로 수준을 평가할 수 있는 일반적인 IT 솔루션과는 달리 STT엔진에 대한 정확성을 평가하는 기준과 방법이 모호하며 한국어의 특성을 고려하지 않기 때문에 정량적인 평가 기준 적용이 어렵다. 따라서 본 연구에서는 한국어의 특성에 기반한 STT엔진 변환 성능 평가에 대한 가이드를 제공함으로써 엔진제작사는 한국어 특성에 기반한 STT변환을 수행 할 수 있으며, 수요처에서는 더 정확한 평가를 수행할 수 있다. 실험 데이터에서 기존 방식에 비해 35% 더 정확한 평가를 수행할 수 있다.
https://doi.org/10.5762/KAIS.2020.21.7.699 인용 PDF KSCI

시각 장애인을 위한 Bluetooth 4.0 기반의 실내 위치 추정 및 안내 시스템 (An Indoor Localization and Guidance System for the Visually Impaired Person Based on Bluetooth 4.0)

배선영
- 한국콘텐츠학회논문지
- /
- 제16권8호
- /
- pp.202-208
- /
- 2016
시각장애인의 활동범위가 늘어나면서 복잡하고 대형화된 건물들 속에서 목적지까지 안전하게 찾아가기란 쉽지 않다. 시각장애인을 위해 GPS 신호나 음성 알림 정보, 점자 유도 블록, 음향 신호기 등을 활용한 안내 시스템이 있지만 이는 대부분 실외 안내 시스템으로 실내에서는 적합하지 않다. 이에 본 논문에서는 보편화된 스마트 폰을 이용하여 시각장애인에게 해당 목적지에 대한 방향, 거리, 높이, 장애물 등의 목적지까지의 다양한 정보를 음성기술인 TTS(Text to Speech)와 촉각기술인 햅틱(Haptic) 그리고 블루투스 4.0기반의 근거리 무선통신 기술인 비콘을 이용하여 사용자에게 알려 줄 수 있는 실내 위치 추정 및 안내 시스템을 제안한다. 제한된 시스템의 실험 결과에서 사용자는 목적지까지의 최적 경로를 검색하여 TTS와 Haptic 기술을 이용해 안전하고 정확하게 안내받을 수 있었다.
https://doi.org/10.5392/JKCA.2016.16.08.202 인용 PDF KSCI

대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법 (A DB Pruning Method in a Large Corpus-Based TTS with Multiple Candidate Speech Segments)

이정철;강태호
- 한국음향학회지
- /
- 제28권6호
- /
- pp.572-577
- /
- 2009
대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.
https://doi.org/10.7776/ASK.2009.28.6.572 인용 PDF KSCI

TTS기반 언어장애인을 위한 보완·대체 의사소통 MLS 시스템 설계 (Design of Augmentative and Alternative Communication MLS System for Language Disabilities Persons Based on TTS)

오승훈;오진일;박성준;박석천
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2013년도 추계학술발표대회
- /
- pp.1238-1240
- /
- 2013
본 논문에서는 AAC기술과 TTS기술을 조사 및 분석하여 스마트폰의 가장기본적인 기능인 전화와 문자전달 기능을 일반적으로 의사소통이 어려운 언어장애인들에게 보완 대체 의사소통의 수단을 제공하는 MLS시스템을 제안하고, Text to Speech기능과 의사소통기능, TTS전화기능, 설정기능을 설계하였다.
https://doi.org/10.3745/PKIPS.y2013m11a.1238 인용 PDF

시간영역에서의 파형분석에 의한 무제한 어휘 합성 및 음절 유형별 규칙합성음 음질평가 (Speech Synthesis for the Korean large Vocabulary Through the Waveform Analysis in Time Domains and Evauation of Synthesized Speech Quality)

강찬희;진용옥
- 한국음향학회지
- /
- 제13권1호
- /
- pp.71-83
- /
- 1994
본 논문은 한국어 문어면환(TTS : Text-to-Speech) 시스템내에서의 음성합성시 음질 및 자연성 개선을 위한 연구 결과이다. 합성방법으로는 단음절단위의 파형을 시간영역에서 분석(표1)하여 규칙합성에 필요한 매개변수(표2)를 추출하여 규칙합성시켰다. 실험에 사용된 음절은 한국어 발음 대사전의 빈도순위에 따라 V형 19개, CV형 80개, VC형 30개, CVC형 100개등 총 229음절을 선정하여 규칙합성시켰다. 규칙합성음의 평가방법으로는 229개의 규칙합성음중 음절 유형별로 15개씩 무작위로 추출한 합성음을 사전지식이 없는 임의의 그룹을 선정하여 이해도, 명료도, 잡음감, 자연성등 4가지 항목에 대하여 주관적인 오피니온 평가를 수행하였다. 실험결과, 합성음의 음질은 대단히 명료한 수준이었으며, 운율요소의 제어결과는 지속시간(장단)과 악센트(강약)의 제어(그림 9, 그림 10)가 가능하였으며, 피치주기(억양)의 제어도 Lagrange 보간법을 사용함으로써 가능하였다(그림 11, 그림 12).
PDF

CTI 호출 제어 방식을 이용한 행정 업무 지원 시스템의 개발 (A Development of Administrative Affairs Supporting System using Call Control Mode of CTI)

최준기;조성범;정상수;이상정
- 한국컴퓨터정보학회논문지
- /
- 제4권2호
- /
- pp.46-60
- /
- 1999
최근들어 CTI(Computer Telephony Integration) 기술은 영상 회의, 파일 전송, 음성 사서함, 자동 메시지 전송, 자동 재다이얼 기능 등의 전통적인 분야에서부터 통합 메시징 및 네트워크 팩스 분야에 이르기까지 다양한 분야에 걸쳐서 활용되고 있다. 본 논문에서는 전화망을 이용한 CTI 응용분야로 대학에서 입시기간동안 수험생들의 전화 과중에 따른 업무와 학사 행정 서비스를 개선할 수 있는 CTI를 이용한 응용 시스템에 대하여 연구한다. 구현된 시스템은 최근 주목받고 있는 객체 모델링 기법(Object Modeling Technique)을 이용하여 데이터베이스를 설계하고, CTI 호출 제어 시스템을 이용하여 합격자 확인 자동 호출(Automatic Calling System), 합격자 발표 자동 안내(Automatic Response System) 등을 지원하도록 개발한다. 특히 합격자 자동 호출 시스템 구현시 합격 여부를 통지해 줄 때의 음성처리를 위하여 TTS(Text To speech) 모듈을 설계 구현한다.
PDF

Algorithm for Concatenating Multiple Phonemic Units for Small Size Korean TTS Using RE-PSOLA Method

Bak, Il-Suh;Jo, Cheol-Woo
- 음성과학
- /
- 제10권1호
- /
- pp.85-94
- /
- 2003
In this paper an algorithm to reduce the size of Text-to-Speech database is proposed. The algorithm is based on the characteristics of Korean phonemic units. From the initial database, a reduced phoneme unit set is induced by articulatory similarity of concatenating phonemes. Speech data is read by one female announcer for 1000 phonetically balanced sentences. All the recorded speech is then segmented by phoneticians. Total size of the original speech data is about 640 MB including laryngograph signal. To synthesize wave, RE-PSOLA (Residual-Excited Pitch Synchronous Overlap and Add Method) was used. The voice quality of synthesized speech was compared with original speech in terms of spectrographic informations and objective tests. The quality of the synthesized speech is not much degraded when the size of synthesis DB was reduced from 320 MB to 82 MB.
PDF

MPEG-4TTS 현황 및 전망

한민수
- 전자공학회지
- /
- 제24권9호
- /
- pp.91-98
- /
- 1997
Text-to-Speech(WS) technology has been attracting a lot of interest among speech engineers because of its own benefits. Namely, the possible application areas of talking computers, emergency alarming systems in speech, speech output devices for speech-impaired, and so on. Hence, many researchers have made significant progresses in the speech synthesis techniques in the sense of their own languages and as a result, the quality of current speech synthesizers are believed to be acceptable to normal users. These are partly why the MPEG group had decided to include the WS technology as one of its MPEG-4 functionalities. ETRI has made major contributions to the current MPEG-4 775 appearing in various MPEG-4 documents with relatively minor contributions from AT&T and NW. Main MPEG-4 functionalities presently available are; 1) use of original prosody for synthesized speech output, 2) trick mode functions for general users without breaking synthesized speech prosody, 3) interoperability with Facial Animation(FA) tools, and 4) dubbing a moving/anlmated picture with lip-shape pattern informations.
PDF

음절 유형별 규칙합성음 음질평가 (The Evaluation of Speech Quality Synthesized by Rule According to Korean Syllable Types)

강찬희
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
- /
- pp.93-97
- /
- 1993
본 논문은 한국어 문어변환(TTS:Text-to-Speech) 시스템내에서의 음성합성시 음질 및 자연성 개선을 위한 연구 결과이다. 합성음 평가방법으로는 한국어 발음대사전에 수록된 빈도수 순위대로 추출한 음절(V형: 19개, CV형:80개, VC형:30개, CVC형: 100개, 총 229개)을 대상으로 규칙합성시킨 1음절어(합성음절수:229개)중 음절유형별로 15개씩 총 60개 음절을 20초간 3회 반복음의 녹음 테이프를 작성한 합성음에 대하여 사전지식이 없는 임의의 그룹을 선정하여 이해도, 명료도, 잡음감, 자연성 등 4 가지 항목에 대하여 오피니온 평가를 수행한 결과를 제시하였다.
PDF

검색결과 139건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)