• Title/Summary/Keyword: 음성기반

Search Result 2,233, Processing Time 0.037 seconds

Building of Remote Control System for Steering Gear Using Miniature Ship (모형선박을 이용한 원격 조타제어시스템의 구축)

  • 서기열;홍태호;김화영;박계각
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.05a
    • /
    • pp.287-291
    • /
    • 2003
  • 현대의 선박운항에 있어서 선내 노동의 경감과 운항의 안정성 및 경제성 확보를 위하여 선박 자동화 및 원격 조종화가 이루어지고 있다. 또한, 선박조종 및 작업제어를 위하여 컴퓨터를 이용한 통합제어 시스템에 관한 연구도 활발하게 진행되고 있다. 그러나 소형선박 빛 어선과 같은 환경에서의 지능형 시스템에 관한 연구는 많이 부족한 실정이다. 인공지능기법을 이용하여 보다 인간 친화적인 시스템을 구현하고, 음성인식기술을 이용하여 원격으로 선박 조타기를 제어하여 조업자의 부담경감 및 인원절감의 효과를 가져올 수 있는 선박 조종시스템의 개발이 절실하다. 본 논문에서는 PC를 기반으로 하여 원격으로 모형 선박의 조타기를 제어하는 시스템을 구축하였다. 구체적인 연구 방법으로는, 음성인식기술과 지능형 학습 기법을 바탕으로 음성지시기반학습 시스템을 구축하고, 퍼지 조타수 조작모델을 구현하여 PC 기반 원격 제어시스템을 구현하였다. 또한, 구축된 원격 조타제어시스템을 축소된 선박모형(Miniature Ship) 시스템에 적용하여 그 효용성을 확인하였다.

  • PDF

The Design and Implementation of the Mobile Messenger based on Voice Recognition (음성 인식 기반의 모바일 메신저 설계 및 구현)

  • Yu, Sang-Chul;Yu, Byung-Seok;Kim, Yu-Mi;Lee, Yu-Jin;Koh, Hoon;Yun, Sung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1694-1697
    • /
    • 2012
  • 음성 인식은 인간이 발성하는 음성을 컴퓨터 프로그램을 이용하여 문자 정보로 변환하는 기술이다. 음성은 사람마다 각기 다르기 때문에 인식률도 각각 차이가 나게 되어 범용 인터페이스로 사용되기에는 적합하지 않다. 하지만 최근 구글, 다음 등 대형 포털을 중심으로 서버 기반의 음성 인식 서비스가 제공되면서 사용자 인터페이스로 음성을 이용하는 것이 주요 이슈로 부각되고 있다. 카카오톡과 같은 메신저 프로그램은 네트워크를 이용하여 그룹 내의 사용자들 간에 메시지를 주고받는다. 여기에 사용되는 터치 자판은 간격이 좁아서 오타가 많이 발생하고, 긴 문장을 입력할 때 시간이 많이 걸리며, 운전 중에 사용할 경우 사고 위험이 높아지는 단점이 있다. 이러한 문제들을 해결하기 위해서는 음성 인식 인터페이스를 접목하는 것이 이상적이다. 본 논문에서는 음성 인식 기반의 스마트폰용 모바일 메신저 프로그램을 설계 및 구현하였다. 외부의 음성 인식 서버를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환하며, 채팅 서버를 통해 메시지를 전달한다.

A Study on Revitalization and Development of Digital Talking Book Based on the DAISY Format (DAISY 포맷 기반의 디지털음성도서 개발 및 서비스 방안 연구)

  • Jang, Bo-Seong;Kim, Gyu-Hwan;Yi, Hyun-Jung
    • Journal of Korean Library and Information Science Society
    • /
    • v.40 no.3
    • /
    • pp.295-315
    • /
    • 2009
  • This study suggested a scheme of revitalization and development of digital talking books(DTB) for the print disable people. In Korea, the number of print disabled people is quickly increasing because of increasing of the acquired blind and the elderly in population. To promote information service and to encourage active participation from the group categorized as print disabled people, library is required two distinctive considerations, design and implementation of authoring tool for DTB and policy and administrative consideration for revitalization for DTB service to the print disable people.

  • PDF

Speech Enhancement using RNN Phoneme based VAD (음소기반의 순환 신경망 음성 검출기를 이용한 음성 향상)

  • Lee, Kang;Kang, Sang-Ick;Kwon, Jang-woo;Lee, Samgmin
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.5
    • /
    • pp.85-89
    • /
    • 2017
  • In this papers, we apply high performance hardware and machine learning algorithm to build an advanced VAD algorithm for speech enhancement. Since speech is made of series of phoneme, using recurrent neural network (RNN) which consider previous data is proper method to build a speech model. It is impossible to study every noise in real world. So our algorithm is builded by phoneme based study. we detect voice present frames in noisy speech signal and make enhancement of the speech signal. Phoneme based RNN model shows advanced performance in speech signal which has high correlation among each frames. To verify the performance of proposed algorithm, we compare VAD result with label data and speech enhancement result in various noise environments with previous speech enhancement algorithm.

Implementation of Voice Support Calendar Management System Using TTS (TTS를 이용한 음성지원 일정관리 시스템의 구현)

  • Lee Se-Hwan;Kim Bong-Hyun;Kim Seung-Youn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.501-504
    • /
    • 2006
  • 본 논문에서는 텍스트로 구성된 문서에 대한 음성 변환 시스템의 각 분야에 대해 기술하고, 음성합성 기술인 TTS기반의 음성지원 일정관리 시스템 설계 및 구현 부분에 대하여 설계한다. 이를 위해서 음성합성 기술의 개념 및 원리와 구조 등을 이해하고, 시스템 설계 및 구현을 하고자 한다. 시스템 설계 구현부에는 Speech SDK 5.1(음성합성엔진)을 사용하여 음성합성 기술부분을 처리하고, 이를 바탕으로 C# 언어를 사용하여 구현한다. 기존 텍스트기반의 일정관리 시스템 설계 부분에다가 음성합성 기능을 추가하여 텍스트의 지루함을 탈피하고, 음성 기술을 접목시켰다. 본 논문에 사용되는 엔진은 영문위주의 음성합성이므로 시스템 설계 부분에 있어 음성처리 부분을 영문으로 하여 결과물을 산출하였다. 최종적으로 실험에 의해 제안한 방법의 유용성을 입증한다.

  • PDF

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance (STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습)

  • Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

Statistical Voice Activity Defector Based on Signal Subspace Model (신호 준공간 모델에 기반한 통계적 음성 검출기)

  • Ryu, Kwang-Chun;Kim, Dong-Kook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.7
    • /
    • pp.372-378
    • /
    • 2008
  • Voice activity detectors (VAD) are important in wireless communication and speech signal processing, In the conventional VAD methods, an expression for the likelihood ratio test (LRT) based on statistical models is derived in discrete Fourier transform (DFT) domain, Then, speech or noise is decided by comparing the value of the expression with a threshold, This paper presents a new statistical VAD method based on a signal subspace approach, The probabilistic principal component analysis (PPCA) is employed to obtain a signal subspace model that incorporates probabilistic model of noisy signal to the signal subspace method, The proposed approach provides a novel decision rule based on LRT in the signal subspace domain, Experimental results show that the proposed signal subspace model based VAD method outperforms those based on the widely used Gaussian distribution in DFT domain.

Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector (우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기)

  • Jo, Q-Haing;Kang, Sang-Ki;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.8
    • /
    • pp.397-402
    • /
    • 2007
  • In this paper, we apply a support vector machine(SVM) that incorporates an optimized nonlinear decision rule over different sets of feature vectors to improve the performance of statistical model-based voice activity detection(VAD). Conventional method performs VAD through setting up statistical models for each case of speech absence and presence assumption and comparing the geometric mean of the likelihood ratio (LR) for the individual frequency band extracted from input signal with the given threshold. We propose a novel VAD technique based on SVM by treating the LRs computed in each frequency bin as the elements of feature vector to minimize classification error probability instead of the conventional decision rule using geometric mean. As a result of experiments, the performance of SVM-based VAD using the proposed feature has shown better results compared with those of reported VADs in various noise environments.

A Design and Implementation of the Real-Time VoIP Terminal System Based on Linux (리눅스 기반 실시간 처리 VoIP 단말기 시스템의 설계 및 구현)

  • Lee, Myeong-Geun;Lee, Sang-Jeong;Seo, Jeong-Min;Im, Jae-Yong
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.345-352
    • /
    • 2001
  • In this paper, a VoIP (Voice on Internet Protocol) terminal system, which can process voice in real time based on Linux, is designed and implemented. The hardware of it is designed using a i486 processor and a DSP codec chip which encodes and decodes voice data in real time. As an operating system, RTLinux, which is a real-time operating system based on Linux, is ported to manage real-time voice processing. The voice processing module of the system uses G.723.1 voice codec of ITU-T standard. It transfers voice data within 30ms to assure good voice quality. In order to satisfy the real time requirements and QoS (Quality-of-Service) for the voice data, the real-time voice processing device driver is designed and implemented. To verify the system, the chatting application program is developed and tested for QoS of the system.

  • PDF

CycleGAN for Enhancement of Degraded Speech by Face Mask (마스크 착용에 의해 왜곡된 음성의 품질 향상을 위한 CycleGAN 기술)

  • Lim, Yujin;Yu, Jeongchan;Seo, Eunmi;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.63-64
    • /
    • 2022
  • 마스크 착용은 대화나 통화 등의 의사소통에 불편함을 초래하고 음성의 품질과 명료도를 떨어트린다. 이를 해결하기 위해 음성 향상 기술이 필요하며, 머신러닝 기반의 다양한 음성 향상 방법이 개발되었다. 지도 학습을 위해 마스크 착용 유무에 따라 일대일로 대응된 음성 데이터를 확보하는 것은 매우 어렵고, 따라서 일대일로 대응된 데이터가 필수적이지 않은 비지도 학습이 요구된다. 본 논문에서는 비지도 학습방식을 사용하면서 콘텍스트를 유지하며 특징을 변경할 수 있는 CycleGAN을 이용하여 마스크 착용에 의한 음성 왜곡을 복원 시키는 기술을 제안한다. 스펙트로그램 기반으로 마스크 착용에 의해 왜곡된 음성을 마스크 미착용 음성으로 변환하여 음성의 품질을 향상시켰다. 청취평가를 진행한 결과 품질이 향상된 음원의 선호도가 더 높음을 확인하였으며 스펙트로그램을 통해 3 kHz 이상의 고대역 에너지가 증가하는 것을 확인하였다. 이를 통해 CycleGAN을 이용한 비지도 학습으로 마스크 착용에 의해 왜곡된 음성의 품질을 향상시킬 수 있음을 확인하였다.

  • PDF