• Title/Summary/Keyword: 음성기반

Search Result 2,238, Processing Time 0.027 seconds

Packet Loss Concealment Algorithm Based on Robust Voice Classification in Noise Environment (잡음환경에 강인한 음성분류기반의 패킷손실 은닉 알고리즘)

  • Kim, Hyoung-Gook;Ryu, Sang-Hyeon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.33 no.1
    • /
    • pp.75-80
    • /
    • 2014
  • The quality of real-time Voice over Internet Protocol (VoIP) network is affected by network impariments such as delays, jitters, and packet loss. This paper proposes a packet loss concealment algorithm based on voice classification for enhancing VoIP speech quality. In the proposed method, arriving packets are classified by an adaptive thresholding approach based on the analysis of multiple features of short signal segments. The excellent classification results are used in the packet loss concealment. Additionally, linear prediction-based packet loss concealment delivers high voice quality by alleviating the metallic artifacts due to concealing consecutive packet loss or recovering lost packet.

Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications (휴대 멀티미디어 단말용 음성인식 시스템 개발)

  • 김승희
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.59-62
    • /
    • 1998
  • 본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.

  • PDF

The development of an application invocation using speech recognition on PDA (PDA용 음성명령기 개발)

  • Lee Sang-Chul;Jung Yong-Jun
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2002.08a
    • /
    • pp.213-219
    • /
    • 2002
  • 본 논문은 상용 OS 인 windows CE 기반의 PDA에서 음성으로 각 응용 프로그램 을 실행하는 방법 및 구성을 제시한다. PDA는 기존 desktop PC 에 비해 사용자 입력수단이 많지 않고, 그 사용법조차 까다롭다. 예를 들어 SIP(Soft Input Panel)을 이용하여 채팅을 하거나 인터넷 웹 브라우저에 주소입력조차 쉽지 않다. 이에 KT의 자체 개발한 음성인식엔진을 이용하여 PDA내 응용프로그램 과 사용자입력 요구사항을 원활히 연결, 보다 편리한 사용자 입력인터페이스를 제공한다. KT의 음성인식엔진은 corpus 기반으로 HMM 모델을 이용, 사용자 음성을 인식하여 그 결과를 출력한다. 본 논문에서는 PDA에서의 이러한 음성인식엔진을 이용, 다수의 응용프로그램을 실행하고 제어하는 구성과 패턴을 제시한다.

  • PDF

THREE PHASE VERIFICATION FOR SPOKEN DIALOG CLARIFICATION (음성기반의 확인대화를 위한 3단계 검증 방법)

  • Jung, Sang-Keun;Lee, Cheong-Jae;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.127-133
    • /
    • 2005
  • 음성 기반의 대화 처리는 음성인식 오류, 음성언어이해 오류, 대화 처리 오류 등 많은 오류를 수반하며 진행된다. 이러한 오류들로 인해 시스템이 인지하는 사용자의 의도는 최초의 사용자 의도와는 그 차이가 벌어지게 된다. 사람과 사람사이의 대화에서도 역시 이러한 의도의 차이는 발생하게 되며, 사람은 이러한 의도의 차이를 확인대화를 통해서 좁혀가게 된다. 본 연구는 이러한 사람과 사람사이의 확인대화를 음성대화시스템에 적용하는 방법론에 대해 논한다. 확인대화의 신뢰도와 오류수정율을 높이기 위하여 오류감지 단계를 3단계로 나누고 그 3단계의 오류 정보를 이용하여, 확인대화전문가 시스템을 통한 다단계 오류수정 방법을 보인다.

  • PDF

Design and Implementation of Speech-Training System for Voice Disorders (발성장애아동을 위한 발성훈련시스템 설계 및 구현)

  • 정은순;김봉완;양옥렬;이용주
    • Journal of Internet Computing and Services
    • /
    • v.2 no.1
    • /
    • pp.97-106
    • /
    • 2001
  • In this paper, we design and implement complement based speech training system for voice disorder. The system consists of three level of training: precedent training, training for speech apprehension and training for speech enhancement. To analyze speech of voice disorder, we extracted speech features as loudness, amplitude, pitch using digital signal processing technique. Extracted features are converted to graphic interface for visual feedback of speech by the system.

  • PDF

Design and Implementation of Voice Mail Transmission Systems on WWW (Web을 이용한 음성메일 전송 시스템 설계 및 구현)

  • 임종철;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.421-423
    • /
    • 2000
  • 인터넷 사용자가 급증히 증가함에 따라 인터넷을 통한 멀티미디어 서비스에 관심이 집중되고 있다. 인터넷을 통한 화상회의나 인터넷 폰, 음성 메일 등이 그 대표적인 예이다. 그 중에서도 대부분의 사람들은 전자 메일을 통해 정보를 공유한다. 현재 대부분의 메일 Agent 프로그램들은 음성 메일을 보낼 수 없으며, 또한 웹을 기반으로 구축된 메일 시스템도 그러하다. 본 논문에서는 Web을 기반으로 하여 음성 메일을 전송하는 시스템을 설계하였다. 현재 웹 응용 시스템을 구축하는 핵심 기술로서 부상하고 있는 서블릿을 사용하여 사용자를 대신해 메일을 전송하는 Mail Agent를 구현하였다. 실시간의 음성처리가 필요하므로 이를 위해 RIP를 사용하였으며, 사용자의 음성을 Capture하고 RIP를 통해 Mail Agent로 보내기 위해 애플릿을 사용하였다. 본 시스템의 모든 컴포넌트들을 자바로 구현함으로써 최대한의 이식성을 얻을 수 있었다.

  • PDF

Emotion Recognition Using Output Data of Image and Speech (영상과 음성의 출력 데이터를 이용한 감정인식)

  • Oh, Jae-Heung;Jeong, Keun-Ho;Joo, Young-Hoon;Park, Chang-Hyun;Sim, Kwee-Bo
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2097-2099
    • /
    • 2003
  • 본 논문에서는 영상과 음성의 데이터를 이용한 사람의 감정을 인식하는 방법을 제안한다. 제안된 방법은 영상과 음성의 인식률에 기반 한다. 영상이나 음성 중 하나의 출력 데이터만을 이용한 경우에는 잘못된 인식에 따른 결과를 해결하기가 힘들다. 이를 보완하기 위해서 영상과 음성의 출력을 이하여 인식률이 높은 감정 상태에 가중치를 줌으로써 잘못된 인식의 결과를 줄일 수 있는 방법을 제안한다. 이를 위해서는 각각의 감정 상태에 대한 영상과 음성의 인식률이 추출되어져 있어야 하며, 추출된 인식률을 기반으로 가중치를 계산하는 방법을 제시한다.

  • PDF

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Dobot-based Omok platform using Voice recognition (음성인식을 활용한 Dobot 기반 오목 플랫폼)

  • Park, Sang-Yong;Lee, Kang Hee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.19-21
    • /
    • 2020
  • 해가 갈수록 여러 요인들로 인하여 장애인 인구는 증가하고 있다. 하지만 이러한 장애인들을 위한 주변기기의 발전은 미흡한 상황이며 더욱이 장애인들의 여가를 위한 놀이문화, 기술들은 더욱 발전이 더딘 상태이다. 여가 활동은 장애인의 행복에도 직관적인 영향을 끼치는 중요한 부분이다. 따라서 본 논문에서는 장애인들 중 손과 같은 신체를 움직이기 어려운 중증 지체장애인을 위한 오목 플랫폼을 제안한다. 본 논문에서 구현한 오목 플랫폼은 음성인식을 기반으로 사용자가 오목알을 착수하고 싶은 좌표를 음성으로 입력시키면 Dobot 즉 로봇암을 통하여 착수점에 오목알을 착수한다. 실험에선 Google Vocie To Text API를 Python 환경에서 사용하여 사용자의 음성입력을 받았으며 Dobot Studio의 Script에서 입력된 음성 값을 오목판에 1대1로 맵핑시켜 정확한 위치에 착수할 수 있도록 구현하였다. 본 논문의 연구 결과를 응용하면 오목에만 국한되는게 아닌 다양한 보드게임을 구현할 수 있다.

  • PDF

Customized Speech Synthesis for Children with Characteristic Behavioral Patterns (어린이 행동 패턴에 기반한 개별화된 음성 합성)

  • Lee, Ho-Joon;Park, Jong-C.
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.571-578
    • /
    • 2006
  • 음성을 통한 사용자 간의 정보 교환 방법은 추가적인 훈련 과정이나 장비가 필요하지 않고 공간 제약이 거의 없기 때문에 노약자 등 사용자의 연령대에 관계없이 사용될 수 있다. 또한 음성 정보는 시각이나 촉각 등 다른 정보 수단과의 상호 작용으로 상승 효과를 유발할 수 있기 때문에 사람과 기계 사이의 인터페이스로 활용될 경우 정보 전달력을 높이면서 사용자 친화적인 서비스를 제공할 수 있다. 그러나 동일한 상황에서 동일한 유형의 음성 정보가 사용자에게 지속적으로 제공될 경우 표현상의 단조로움으로 인해 정보 전달력이 급감할 수 있는 문제점도 지니고 있다. 따라서 음성을 통한 정보 전달의 경우 동일 상황이라 하더라도 사용자의 행동 패턴, 심리 상태, 주변 환경 등에 따라 차별화된 문장 구조 및 어휘의 선택으로 긴장감을 유지시켜 줄 수 있어야 한다. 본 논문에서는 5 세 전후의 어린이를 대상으로 그들의 행동 패턴 분석에 기반하여 개별화된 음성 합성 결과를 제공하는 시스템을 제안한다. 이를 위해 유치원이라는 물리적 공간에서 어린이들의 주된 행동 패턴을 분석하고, 현직 유치원 교사를 대상으로 동일한 정보를 전달하는 조건을 통하여 어린이의 행동 패턴과 위치 정보, 연령 및 성격에 따른 발화 문장의 문장 구조와 어휘적 특성을 파악한다. 최종적으로, 개별화된 음성 합성 결과를 위해 유치원 공간을 시뮬레이션 하고 RFID 를 이용하여 어린이의 행동 패턴 및 위치 정보를 파악한다. 그리고 각 상황에 따라 분석된 발화문의 문장 구조와 어휘 특성을 반영하여 음성으로 합성될 문장의 문장 구조 및 어휘를 재구성하여 사용자 개별화된 음성 합성 결과를 생성한다. 이러한 결과를 통해 어린이의 행동 패턴이 발화문의 문장 구조 및 어휘에 미치는 영향에 대해서 살펴보고 재구성된 결과 발화문을 평가한다.

  • PDF