• Title/Summary/Keyword: 음성 신호 처리

Search Result 474, Processing Time 0.022 seconds

An Implementation of Realtime News Service Using RSS and VoiceXML (RSS와 VoiceXML을 이용한 실시간 뉴스 서비스의 구현)

  • Kwon, Hyeng-Joon;Kim, Dong-Gyu;Hong, Kwang-Seok
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2006.06a
    • /
    • pp.9-12
    • /
    • 2006
  • 높은 컴퓨터 보급률에 따른 인터넷의 대중화로 인하여 새로운 소식을 원하는 사람들은 기존의 정해진 시각에 전달되는 지면 신문보다 인터넷을 통해 새로운 소식을 접하는 경향이 높아지면서, 국내의 각 언론사들은 RSS(RDF Site Summary)문서를 제공하기 시작하였다. 차세대 웹인 시맨틱 웹의 여러 가지 규격 및 기술 중에서도 그 유용함과 편리성을 인정받아 우리 생활에 가장 먼저 적용되고 있는 RSS는 컨텐츠 배급을 위해 나온 XML형태의 규격 중 하나로서 웹사이트에서 사용자가 원하는 정보의 갱신된 내용을 신속하게 사용자에게 전달하는 자동 정보 수집 기술이다. 본 논문에서는 특정 언론사에서 제공하는 RSS문서에 음성인식 및 합성기술을 기반으로 동작하는 다른 XML형태의 규격인 음성 확장성 생성 언어(VoiceXML)를 접목하여 휴대전화 및 유선전화로 새로운 뉴스를 접할 수 있는 서비스를 제안하고 구현하였다. 실험 결과, 시간과 장소에 구애받지 않고 신뢰성 있는 언론사의 새로운 뉴스를 실시간으로 전달받을 수 있음을 확인하였다.

  • PDF

Designing on improved combined mapping based on soft-decision for wideband LSP coefficients pattern estimation (광대역 LSP 계수의 패턴 추론을 위한 연판정 기반 개선된 조합 매핑 설계)

  • Jeon, Jong-geun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.805-807
    • /
    • 2018
  • 본 논문은 인공 대역 확장에서 스펙트럼 포락선 확장 시 발생하는 스펙트럼 왜곡을 줄이는 개선된 조합 매핑(Improved combined mapping) 알고리즘을 제안한다. 벡터양자화를 기반으로 하는 코드북 매핑(Codebook mapping)과 스펙트럼 포락선(Spectrum Envelope)의 선형 의존도를 이용한 선형 매핑(Linear mapping)을 사용하여 각각 확장된 광대역 LSP(Line Spectrum Pair)를 추론하고, 연판정(Soft-decision)을 통해 최적화된 LSP를 추론한다. 제안된 알고리즘으로 합성된 음성신호의 스펙트럼 왜곡(Spectrum Distortion)이 기존 조합매핑으로 얻은 음성 신호의 스펙트럼 왜곡보다 더 적은 왜곡을 갖는 결과를 나타내었다.

A study on Speech Recognition Using Recurrent Neural Predictive HMM (회귀신경망 예측 HMM을 이용한 음성 인식에 관한 연구)

  • 박경훈;한학용;김수훈;허강인
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.153-156
    • /
    • 2000
  • 본문에서는 예측형 회귀신경망과 HMM의 하이브리드 네트워크인 회귀신경망 예측 HMM을 구성하였다. 회귀신경망 예측 HMM은 예측형 회귀신경망을 HMM의 각 상태마다 예측기로 정의하여 일정치인 평균벡터 대신에 과거의 특징벡터의 영향을 받아 동적으로 변화하는 신경망에 의한 예측치를 이용하므로 학습패턴 설정자체가 시변성을 반영하는 동적 네트워크의 특성을 가진다. 따라서 음성과 같은 시계열 패턴의 인식에 유리하다. 회귀신경망 예측 HMM은 예측형 회귀신경망의 구조에 따라 Elman망 예측 HMM과 Jordan망 예측 HMM으로 구분하였다. 실험에서는 회귀신경망 예측 HMM의 상태수를 4, 5, 6으로 증가시켜 각 상태 수별로 예측차수 및 중간층 유니트 수의 변화에 따른 인식성능을 조사하였다. 실험결과 평가용. 데이터에 대하여 Elman망예측 HMM은 상태수가 6이고, 예측차수가 3차, 중간층 유니트의 수가 15차원일 때, Jordan망 예측 HMM의 경우 상태수가 5이고, 예측차수가 3차, 중간층 유니트의 수가 10차원일 때 각각 99.5%로 우수한 결과를 얻었다.

  • PDF

A Survey on Adversarial Attacks Against ASR Systems (ASR 시스템에 대한 오디오 적대적 공격 연구 동향 분석)

  • Na Hyun Kim;Yeon Joon Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.215-216
    • /
    • 2023
  • 오디오 적대적 공격 연구는 최근 몇 년 동안 빠르게 발전해 왔다. 이전에는 음성 신호를 직접 수정하거나 추가하여 공격을 수행하는 방법이 일반적이었지만 최근에는 딥러닝 모델을 이용한 적대적 공격 기술이 주목을 받고 있다. 이러한 적대적 공격은 현재 다양한 분야에 널리 쓰이는 ASR 시스템에 심각한 보안 위협이 될 수 있다. 이에 본 논문에서는 현재까지의 음성신호 적대적 공격 기술과 방어기술의 연구 흐름을 분석하여 더욱 강건한 ASR 시스템을 구축하는 데 기여하고자 한다.

On a Processing Time Reduction of Cepstrum-Based Pitch Alteration in Time-Frequency Hybrid Domain (켑스트럼 기반 혼성영역 피치변경법의 처리시간 단축에 관한 연구)

  • Jo, Wang-Rae;Kim, Jong-Kuk;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.1
    • /
    • pp.41-47
    • /
    • 2010
  • The pitch alteration technique for voice conversion is classified in time domain, frequency domain and hybrid domain. The Hybrid domain method has a merit of clearness and natural-ness of pitch altered speech but has the major drawback of long processing time. In this paper, we proposed a new method that can reduce the processing time of pitch alteration in time-frequency hybrid domain. We omitted the bit-reversing process of FFT and IFFT in changing the processing domain. Therefore we can reduce the processing time by 86.26% to the conventional method with same quality.

Implementation of Sentence Construction using Lexical Information (어휘 정보를 이용한 문장완성의 구현)

  • 황인정;이은실;민홍기
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2003.06a
    • /
    • pp.10-13
    • /
    • 2003
  • 본 연구는 어휘 정보를 이용하여 구어체 문장구성을 하였다. 구어체 문장구성의 목적은 언어생활이 불편한 사람들을 위한 통신보조기기에 사용하기 위해서이다. 통신보조기기는 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 그러므로 문장을 구성하기 위해서 어휘 정보를 통신보조기기의 개념에 맞도록 변형하여 도입하였다. 어휘는 도메인별로 발췌하고 분류하였으며, 각 어휘에 대해 시소러스와 하위범주화사전을 만들었다. 어휘정보에 관한 상세한 정보는 문장구성과 재사용 그리고 문맥상 어색한 문장검출을 위해 중요한 자료가 된다.

  • PDF

Robust Blind Source Separation to Noisy Environment For Speech Recognition in Car (차량용 음성인식을 위한 주변잡음에 강건한 브라인드 음원분리)

  • Kim, Hyun-Tae;Park, Jang-Sik
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.12
    • /
    • pp.89-95
    • /
    • 2006
  • The performance of blind source separation(BSS) using independent component analysis (ICA) declines significantly in a reverberant environment. A post-processing method proposed in this paper was designed to remove the residual component precisely. The proposed method used modified NLMS(normalized least mean square) filter in frequency domain, to estimate cross-talk path that causes residual cross-talk components. Residual cross-talk components in one channel is correspond to direct components in another channel. Therefore, we can estimate cross-talk path using another channel input signals from adaptive filter. Step size is normalized by input signal power in conventional NLMS filter, but it is normalized by sum of input signal power and error signal power in modified NLMS filter. By using this method, we can prevent misadjustment of filter weights. The estimated residual cross-talk components are subtracted by non-stationary spectral subtraction. The computer simulation results using speech signals show that the proposed method improves the noise reduction ratio(NRR) by approximately 3dB on conventional FDICA.

  • PDF

Design and Implementation of RISC Processor for Speech Coding (음성부호 처리에 적합한 RISC 프로세서의 설계 및 구현)

  • Kim, Jin;Lee, Jun-Yong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.18-20
    • /
    • 2000
  • 디지털 음성통신을 위한 빠르고 쉬운 내장 프로세서(Embedded processor)가 요구되어짐에 따라 음성신호 압축 복원 알고리즘인 ADPCM과 LD-CELP의 구현에 가장 빈번히 사용되는 연산의 특성을 조사하였다. ARM6 processor core의 기본 구성요소들과 명령어집합을 기반으로 하여 음성부호화 알고리즘의 연산의 특성을 효율적으로 처리하기 위한 명령어와 구조를 추가한 범용 프로세서의 구조를 제안하고 VHDL로 기술하여 동작을 검증하였다. ARM6의 ALU logic에 leading zero count를 위한 회로를 추가하였고 opcode를 변경하였으며, LPC 계수 연산을 위해 제안된 MAC을 도입하여 효율적인 구현이 가능하도록 설계하였다.

  • PDF

Review of Standard Sound Quality Assessment Methods for the Transmitted and Processed Sounds (음질 평가법의 표준과 연구 동향 - 전송 처리음 분야)

  • Oh, Wongeun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.32 no.3
    • /
    • pp.214-226
    • /
    • 2013
  • Assessing the quality of audio signals is an important consideration in making high quality sounds and various methods have been developed. This paper provides a general framework of sound quality and a technical overview of the international standard methods which are described in ITU-T, ITU-R, IEC and ANSI Recommendations in the speech intelligibility, speech quality, and audio quality areas. In addition, some recent findings and future works are included.

A Study on the Development of Automatic Schedule Management System through Speech Recognition Text Analysis (음성인식 텍스트 분석을 통한 자동 일정 관리 시스템 개발에 관한 연구)

  • Lee, Hae-Mi;Cho, We-Duke
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.279-282
    • /
    • 2022
  • 컴퓨터가 마이크 등의 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술인 음성 인식 기술과 인공지능 기술을 결합한 음성 대화 시스템에 대한 연구 진행 및 제품 출시가 활발하게 이루어지고 있다. 기존의 시스템을 사용하면서 날짜와 시간 외의 정보 추출 정도가 빈약하거나 자동 등록이 되지 않는 문제점을 확인하였다. 음성 인식 기술을 통해 얻은 텍스트에서 보다 많은 정보를 추출하고, 자동 등록 및 알림과 맛집 등 추가 정보 제공 시스템을 구축하는 것을 목표로 하였다.