• 제목/요약/키워드: 음성문자변환

Search Result 52, Processing Time 0.027 seconds

Development of HTMLtoVTML Conversion Agent using Embedded Text and Priori Structural Knowledge (내장 문자와 사전 구조 지식을 이용한 HTMLtoVXML 변환 에이전트 개발)

  • Jang, Young-Gun
    • The KIPS Transactions:PartD
    • /
    • v.10D no.2
    • /
    • pp.343-350
    • /
    • 2003
  • This paper presents a new agent which convert HTML contents to VXML contents automatically for voice services via web. In this paper, I propose an interactive hybrid sequential contents selection method to select desired contents fast and robustly from known web pages. It uses real time structural features as well as embedded text and/or priori structural knowledge such as link symbol position. To verify its effectiveness, a full agent system is implemented and tested. The method reflects user intention more accurately than conventional selections using structural features and is more robust to variations of HTML programming techniques. The agent is fast and has less computational burden than methods use XML or XHTML conversion as intermediate stage.

Design and Implementation of Simple Text-to-Speech System using Phoneme Units (음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현)

  • Park, Ae-Hee;Yang, Jin-Woo;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.3
    • /
    • pp.49-60
    • /
    • 1995
  • This paper is a study on the design and implementation of the Korean Text-to-Speech system which is used for a small and simple system. In this paper, a parameter synthesis method is chosen for speech syntheiss method, we use PARCOR(PARtial autoCORrelation) coefficient which is one of the LPC analysis. And we use phoneme for synthesis unit which is the basic unit for speech synthesis. We use PARCOR, pitch, amplitude as synthesis parameter of voice, we use residual signal, PARCOR coefficients as synthesis parameter of unvoice. In this paper, we could obtain the 60% intelligibility by using the residual signal as excitation signal of unvoiced sound. The result of synthesis experiment, synthesis of a word unit is available. The controlling of phoneme duration is necessary for synthesizing of a sentence unit. For setting up the synthesis system, PC 486, a 70[Hz]-4.5[KHz] band pass filter for speech input/output, amplifier, and TMS320C30 DSP board was used.

  • PDF

A Study on Speech Synthesizer Using Distributed System (분산형 시스템을 적용한 음성합성에 관한 연구)

  • Kim, Jin-Woo;Min, So-Yeon;Na, Deok-Su;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.3
    • /
    • pp.209-215
    • /
    • 2010
  • Recently portable terminal is received attention by wireless networks and mass capacity ROM. In this result, TTS(Text to Speech) system is inserted to portable terminal. Nevertheless high quality synthesis is difficult in portable terminal, users need high quality synthesis. In this paper, we proposed Distributed TTS (DTTS) that was composed of server and terminal. The DTTS on corpus based speech synthesis can be high quality synthesis. Synthesis system in server that generate optimized speech concatenation information after database search and transmit terminal. Synthesis system in terminal make high quality speech synthesis as low computation using transmitted speech concatenation information from server. The proposed method that can be reducing complexity, smaller power consumption and efficient maintenance.

Voice Recognition Speech Correction Application Using Big Data Analysis (빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션)

  • Kim, Han-Kyeol;Kim, Do-Woo;Lim, Sae-Myung;Hong, Du-Pyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

Implementation of TTS Engine for Natural Voice (자연음 TTS(Text-To-Speech) 엔진 구현)

  • Cho Jung-Ho;Kim Tae-Eun;Lim Jae-Hwan
    • Journal of Digital Contents Society
    • /
    • v.4 no.2
    • /
    • pp.233-242
    • /
    • 2003
  • A TTS(Text-To-Speech) System is a computer-based system that should be able to read any text aloud. To output a natural voice, we need a general knowledge of language, a lot of time, and effort. Furthermore, the sound pattern of english has a variable pattern, which consists of phonemic and morphological analysis. It is very difficult to maintain consistency of pattern. To handle these problems, we present a system based on phonemic analysis for vowel and consonant. By analyzing phonological variations frequently found in spoken english, we have derived about phonemic contexts that would trigger the multilevel application of the corresponding phonological process, which consists of phonemic and allophonic rules. In conclusion, we have a rule data which consists of phoneme, and a engine which economize in system. The proposed system can use not only communication system, but also utilize office automation and so on.

  • PDF

A Character-Converting System Implementation by Keypad Mapping of DTMF Telephone Set (복합주파수 전화기의 번호판 매핑에 의한 문자 변환 시스템 구현)

  • 김용환;장우현;신유식;서광석;김종교;정항근
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.60-65
    • /
    • 1998
  • 전화기의 선택 및 제어 신호는 직류 임펄스의 수에 의한 방법을 사용하였으나 현재 는 복합 주파수 방식을 널리 사용하고 있으며, 음성을 이용한 서비스들도 복합 주파수 방식 에 의해 제공되고 있다. 본 논문에서는 전화기의 복합 주파수 신호를 한글 자소로 변환하는 번호판 매핑 방법을 제시하였으며, 이 방식을 이용하여 상용되는 음성 정보 서비스의 검색 코드 입력 방식을 재구성해 보았다. 즉, 여러 가지 서비스에서도 한글 문장을 사용할 수 있 음을 보였다. 또한, 전화 통화시 사용되는 문장을 번호판 매핑 방식을 적용하여 구성함으로 써 전화기에서의 문장 편집 및 문장 정보 교환의 가능성을 보였다.

  • PDF

A Study on the Text-to-Speech Conversion Using the Formant Synthesis Method (포만트 합성방식을 이용한 문자-음성 변환에 관한 연구)

  • Choi, Jin-San;Kim, Yin-Nyun;See, Jeong-Wook;Bae, Geun-Sune
    • Speech Sciences
    • /
    • v.2
    • /
    • pp.9-23
    • /
    • 1997
  • Through iterative analysis and synthesis experiments on Korean monosyllables, the Korean text-to-speech system was implemented using the phoneme-based formant synthesis method. Since the formants of initial and final consonants in this system showed many variations depending on the medial vowels, the database for each phoneme was made up of formants depending on the medial vowels as well as duration information of transition region. These techniques were needed to improve the intelligibility of synthetic speech. This paper investigates also methods of concatenating the synthesis units to improve the quality of synthetic speech.

  • PDF

The Development of Customized Communication System for the Senior Living Alone (독거노인을 위한 맞춤형 의사소통 시스템의 개발)

  • Kim, Ga-Young;Lee, Hyun-Dong;Kim, Dong-Hyun;Cho, Dae-Soo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.183-184
    • /
    • 2018
  • 우리나라의 노인자살률은 OECD 국가 중에 1위이다. 인위적 고독사인 '자살'의 가장 큰 원인인 우울증을 의사소통을 통해 예방하고자 한다. 본 논문에서는 상황에 따라 독거노인에게 스피커가 먼저 질문하는 형식인 시스템을 제안한다. 음성인식 시스템인 스피커를 활용하여 독거노인의 의사소통을 증대시키고, 질문뿐만이 아니라 식사 여부, 약 복용 여부 관련 일상 알람도 주기 때문에 규칙적인 생활을 하는 데 도움을 준다.

  • PDF

A Design of RC Car Controller by Voice Recognition of Smartphone (스마트폰 음성인식을 통한 RC카 제어기 설계)

  • Lee, Juwon;Kim, Bogun;Kim, Jinmin;Park, Seoljin;Kim, Jinil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.770-771
    • /
    • 2017
  • 스마트폰 어플로 구글의 STT API를 이용하여 음성인식을 적용한다. 이는 문자열로 변환하고 블루투스 통신을 통하여 아두이노 RC카로 정보를 전달하여 동작하도록 제어한다. 아두이노 RC카에 부착한 라인센서와 초음파센서를 통해 차선변경의 유/무와 앞/뒤 차량 간의 거리를 측정하여 비상등을 자동으로 점등할 수 있도록 한다. 본 연구의 결과로써 운전자간의 예의범절을 갖춘 운행과 초보운전자들의 미숙한 상황대처를 보완할 수 있을 것으로 기대된다.

  • PDF

Deep Learning Model for Metaverse Environment to Detect Metaphor (메타버스 환경에서 음성 혐오 발언 탐지를 위한 딥러닝 모델 설계)

  • Song, Jin-Su;Karabaeva, Dilnoza;Son, Seung-Woo;Shin, Young-Tea
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.621-623
    • /
    • 2022
  • 최근 코로나19로 인해 비대면으로 소통할 수 있는 플랫폼에 대한 관심이 증가하고 있으며, 가상 세계의 개념을 도입한 메타버스 플랫폼이 MZ세대의 새로운 SNS로 떠오르고 있다. 아바타를 통해 상호 교류가 가능한 메타버스는 텍스트 기반의 소통뿐만 아니라 음성과 동작 시선 등을 활용하여 변화된 의사소통 방식을 사용한다. 음성을 활용한 소통이 증가함에 따라 다른 이용자에게 불쾌감을 주는 혐오 발언에 대한 신고가 증가하고 있다. 그러나 기존 혐오 발언 탐지 시스템은 텍스트를 기반으로 하여 사전에 정의된 혐오 키워드만 특수문자로 대체하는 방식을 사용하기 때문에 음성 혐오 발언에 대해서는 탐지하지 못한다. 이에 본 논문에서는 인공지능을 활용한 음성 혐오 표현 탐지 시스템을 제안한다. 제안하는 시스템은 음성 데이터의 파형을 통해 은유적 혐오 표현과 혐오 발언에 대한 감정적 특징을 추출하고 음성 데이터를 텍스트 데이터로 변환하여 혐오 문장을 탐지한 결과와 결합한다. 향후, 제안하는 시스템의 현실적인 검증을 위해 시스템 구축을 통한 성능평가가 필요하다.