• Title/Summary/Keyword: 텍스트/음성변환

Search Result 74, Processing Time 0.031 seconds

Designing Voice Interface for The Disabled (장애인을 위한 음성 인터페이스 설계)

  • Choi, Dong-Wook;Lee, Ji-Hoon;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.697-699
    • /
    • 2019
  • IT 기술의 발달에 따라 전자기기의 이용량은 증가하였지만, 시각장애인들이나 지체 장애인들이 이용하는 데에 어려움이 있다. 따라서 본 논문에서는 Google Cloud API를 활용하여 음성으로 프로그램을 제어할 수 있는 음성 인터페이스를 제안한다. Google Cloud에서 제공하는 STT(Speech To Text)와 TTS(Text To Speech) API를 이용하여 사용자의 음성을 인식하면 텍스트로 변환된 음성이 시스템을 통해 응용 프로그램을 제어할 수 있도록 설계한다. 이 시스템은 장애인들이 전자기기를 사용하는데 많은 편리함을 줄 것으로 예상하며 나아가 장애인들뿐 아니라 비장애인들도 활용 가능할 것으로 기대한다.

Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information (한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

문장음성 변환시스템 글소리II를 위한 읽기규칙

  • Choe, Un-Cheon;Ji, Min-Je;Lee, Yong-Ju
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.201-210
    • /
    • 1992
  • 이 논문은 문장음성 변환시스템인 글소리II를 위한 읽기규칙에 관한 것이다. 읽기규칙이란 텍스트를 소리나는대로 읽어주는 모든 처리를 말한다. 읽기규칙의 가장 대표적인 음운변동규칙을 비롯하여 모음의 발음, 장음처리, 숫자읽기, 약어 및 기호읽기 등이 포함된다. 이 논문에서는 음운변동규칙을 6개의 대규칙과 22개의 소규칙으로 정리하고, 대규칙들 사이의 적용순서를 정의하였다. 그리고 단어의 장단이 중시되는 우리말의 특성을 반영할 수 있도록 장음처리부분을 추가하였다. 위의 읽기규칙으로 처리할 수 없는 부분에 대해서는 예외발음사전을 이용하고 있다.

  • PDF

The Reading Rule and Transformation of Mathmatical Expression in the Content MathML (내용 MathML에서의 수식 독음 규칙 및 변환)

  • Seo, Seung-Hee;Park, Soo-Hyun;Lim, Soon-Bum
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.374-376
    • /
    • 2012
  • 최근 독서 장애인을 위한 국제 디지털 음성 도서 표준인 DAISY를 통해 장애인의 고등 교육을 위한 연구가 활성화되고 있으나 그림이나 수식과 같은 특수요소는 음성도서로 만들어 활용하기 어렵다. 이를 위해, 본 연구에서는 중학교 교과과정에 포함된 내용 MathML 엘리먼트에 대한 한글 독음 규칙을 정의하였다. 또한, 정의한 한글 독음 규칙에 따라 내용 MathML로 표현된 수식을 독음 텍스트로 변환하는 프로그램을 XSLT로 구현하였다.

Design of an AR-based Accessibility Improvement System for the Hearing Impaired (AR기반 청각장애인 접근성 향상 시스템 설계)

  • Hyun-Jun Jeong;Sang-Hoo Park;Tae-Hong Kim;Su-Bin Jeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1020-1021
    • /
    • 2023
  • 장애인의 사회활동 증대는 개인의 삶의 질 향상 및 사회의 다양성과 포용성 증진에 중요하다. 특히 청각장애인은 환경적, 신체적 장애로 인해 사회적 접근성에 제한을 받는다. 이를 해결하기 위해 AR 글래스 기반의 NEAR를 개발하였다. NEAR는 음성자막 변환 및 위험 알람 기능을 제공하여 청각장애인의 사회활동 제약을 해소한다. STT 기능은 입력 음성을 텍스트로 변환하며, MFCC 기능은 다양한 상황의 소리를 감지하여 위험 알림을 제공한다. 이 연구는 청각장애인의 사회적 참여 향상 및 사회의 포용성 증진에 기여할 것으로 기대된다.

A Study on the Creation of Digital Self-portrait with Intertextuality (상호텍스트성을 활용한 디지털 자화상 창작)

  • Lim, Sooyeon
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.1
    • /
    • pp.427-434
    • /
    • 2022
  • The purpose of this study is to create a self-portrait that provides an immersive experience that immerses the viewer into the problem of self-awareness. We propose a method to implement an interactive self-portrait by using audio and image information obtained from viewers. The viewer's voice information is converted into text and visualized. In this case, the viewer's face image is used as pixel information composing the text. Text is the result of a mixture of one's own emotions, imaginations, and intentions based on personal experiences and memories. People have different interpretations of certain texts in different ways.The proposed digital self-portrait not only reproduces the viewer's self-consciousness in the inner aspect by utilizing the intertextuality of the text, but also expands the meanings inherent in the text. Intertextuality in a broad sense refers to the totality of all knowledge that occurs between text and text, and between subject and subject. Therefore, the self-portrait expressed in text expands and derives various relationships between the viewer and the text, the viewer and the viewer, and the text and the text. In addition, this study shows that the proposed self-portrait can confirm the formativeness of text and re-create spatial and temporality in the external aspect. This dynamic self-portrait reflects the interests of viewers in real time, and has the characteristic of being updated and created.

A Study on Intelligent ebook Multilingual TTS Service based on HTML5 (HTML5기반 지능형 전자책 다국어 TTS 서비스에 관한 연구)

  • Ryu, Ho-Bin;Kim, Ha-Kyung;Hong, Seong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.815-817
    • /
    • 2016
  • 웹 기술의 발전은 인간 사회의 변화에 많은 영향을 주고 있다. 웹 발전 분야에서도 전자책 기술 발전은 확연하게 달라지고 있으며, 단순 텍스트 정보만을 제공하는 기술을 넘어 음성서비스를 위한 기술 분야에도 많은 연구가 활발하게 진행되고 있다. 따라서 본 논문에서는 웹 표준 기술인 HTML5기반 지능형 전자책 다국어 TTS 서비스를 위한 관련 연구 조사와 전자책 사용자의 편리성 및 접근성을 강화하기 위한 전자책 제작 및 서비스 방법에 대하여 연구하였다. 본 연구의 목적은 전자책 사용자들에게 텍스트를 포함한 전자책에서 텍스트 및 여러 객체들에 주제 혹은 설명을 TTS 서비스가 가능하도록 하고, 사용자의 선택적 영역과 언어에 따라 다국어 TTS가 자동 변환되어 서비스 할 수 있도록 연구 개발 하는 것이다.

A Study on the Effective Command Delivery of Commanders Using Speech Recognition Technology (국방 분야에서 전장 소음 환경 하에 음성 인식 기술 연구)

  • Yeong-hoon Kim;Hyun Kwon
    • Convergence Security Journal
    • /
    • v.24 no.2
    • /
    • pp.161-165
    • /
    • 2024
  • Recently, speech recognition models have been advancing, accompanied by the development of various speech processing technologies to obtain high-quality data. In the defense sector, efforts are being made to integrate technologies that effectively remove noise from speech data in noisy battlefield situations and enable efficient speech recognition. This paper proposes a method for effective speech recognition in the midst of diverse noise in a battlefield scenario, allowing commanders to convey orders. The proposed method involves noise removal from noisy speech followed by text conversion using OpenAI's Whisper model. Experimental results show that the proposed method reduces the Character Error Rate (CER) by 6.17% compared to the existing method that does not remove noise. Additionally, potential applications of the proposed method in the defense are discussed.

Automatic Generatio of Korean Pronunciation Variants (TTS 시스템을 위한 한국어 발음열 자동 생성)

  • 차선화
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.413-418
    • /
    • 1998
  • 음성 합성 시스템의 한 모듈로서 한국어 문자열을 음소열로 자동 변환하는 시스템을 구현하였다. 문자열을 음소열로 변환할 때에는 한국어 음운현상에 대한 체계적인 분석 과정이 필요하다. 한국어의 음운 변화 현상은 단일 형태소 내부와 여러 형태소가 결합하여 한 어절을 이루는 경우 그 형태소 경계, 그리고 어절 경계에서 서로 다른 음운규칙이 적용된다. 따라서 언절이나 문장 등의 입력을 음소열로 변환하기 위해서는 형태소 분석, 태깅작업이 반드시 수행되어야 올바른 발음열을 유도할 수 있다. 본 논문에서 제안한 시스템은 한국어의 형태음운현상을 반영하기 위해 형태소 분석을 선행한 후, 한국어에서 빈번하게 발생하는 음운 변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 선택적으로 적용하여 형태소, 어절, 언절 또는 문장 등의 다양한 형태의 입력에 대해 발음열을 생성한다. 기존의 연구에서 분리되어 있던 형태소 태거와 변환시스템을 통합하여 사용자 편의성을 높였으며 텍스트 기반의 형태소 분석기를 사용하기 때문에 원형이 복원되는 형태소들에 대한 처리 루틴을 두어 오류를 감소 시켰다.

  • PDF

A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose (한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법)

  • Cho, Su Hyun;Oh, Hayoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.8
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Capturing is a matter of viewing images and describing images in language. The problem is an important problem that can be solved by keeping, understanding, and bringing together two areas of image processing and natural language processing. In addition, by automatically recognizing and describing images in text, images can be converted into text and then into speech for visually impaired people to help them understand their surroundings, and important issues such as image search, art therapy, sports commentary, and real-time traffic information commentary. So far, the image captioning research approach focuses solely on recognizing and texturing images. However, various environments in reality must be considered for practical use, as well as being able to provide image descriptions for the intended purpose. In this work, we limit the universally available Korean and English image captioning models and text generation techniques for the purpose of image captioning.