• Title/Summary/Keyword: 음성 신호

Search Result 1,513, Processing Time 0.025 seconds

On a Study of Analysis Using Shifted Window in the Speech Signal (Shifted Window를 이용한 음성신호의 분석에 관한 연구)

  • Kang Eun Young;Min SoYeon;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.131-134
    • /
    • 2000
  • 음성신호처리에서 스펙트럼 분석은 매우 중요하다. 하지만 스펙트럼 분석을 위해서 사용되는 윈도우에 의해 생기는 누설에러지 때문에 음성신호의 스펙트럼 정보가 왜곡된다. 본 논문에서는 스펙트럼 분석 시 발생되는 창함수 사용에 의해 생기는 누설에너지를 최소화하기 위한 새로운 창함수를 제안하고자 한다. 그 형태는 전체 창함수크기의 반을 방형창으로 나머지 반을 해밍창으로 하고 창의 처음 부분은 $\pm$20표본에서 영점을 찾아주는 것이다. 이 창함수의 특징은 신호분석에 있어서 왜곡은 크지만 그 형태에 있어서 가장 이상적인 방형창함수의 장점과 side lobe가 작아 비교적 왜곡이 적은 해밍창함수의 장점을 취한 것이라 하겠다. 실제 음성 신호에의 적용에 있어서 방형창과 해밍창의 적용비는 신호의 종류 및 용도에 따라 달리할 수 있다. 제안한 창함수는 해밍창함수 보다는 좁은 main lobe 특성으로 음성신호의 단구간 스펙트럼 분석시 음성의 빠른 변화특성을 적절히 보여줄 수 있고 방형창보다는 side lobe의 영향을 줄일 수 있다.

  • PDF

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Implementation of Environmental Noise Remover for Speech Signals (배경 잡음을 제거하는 음성 신호 잡음 제거기의 구현)

  • Kim, Seon-Il;Yang, Seong-Ryong
    • 전자공학회논문지 IE
    • /
    • v.49 no.2
    • /
    • pp.24-29
    • /
    • 2012
  • The sounds of exhaust emissions of automobiles are independent sound sources which are nothing to do with voices. We have no information for the sources of voices and exhaust sounds. Accordingly, Independent Component Analysis which is one of the Blind Source Separaton methods was used to segregate two source signals from each mixed signals. Maximum Likelyhood Estimation was applied to the signals came through the stereo microphone to segregate the two source signals toward the maximization of independence. Since there is no clue to find whether it is speech signal or not, the coefficients of the slope was calculated by the autocovariances of the signals in frequcency domain. Noise remover for speech signals was implemented by coupling the two algorithms.

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance (STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습)

  • Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

A Study on Realization of Speech Recognition System based on VoiceXML for Railroad Reservation Service (철도예약서비스를 위한 VoiceXML 기반의 음성인식 구현에 관한 연구)

  • Kim, Beom-Seung;Kim, Soon-Hyob
    • Journal of the Korean Society for Railway
    • /
    • v.14 no.2
    • /
    • pp.130-136
    • /
    • 2011
  • This paper suggests realization method for real-time speech recognition using VoiceXML in telephony environment based on SIP for Railroad Reservation Service. In this method, voice signal incoming through PSTN or Internet is treated as dialog using VoiceXML and the transferred voice signal is processed by Speech Recognition System, and the output is returned to dialog of VoiceXML which is transferred to users. VASR system is constituted of dialog server which processes dialog, APP server for processing voice signal, and Speech Recognition System to process speech recognition. This realizes transfer method to Speech Recognition System in which voice signal is recorded using Record Tag function of VoiceXML to process voice signal in telephony environment and it is played in real time.

Pitch Detection Using Wavelet Transform (웨이브렛 변환을 이용한 피치검출)

  • 손영호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1997.06a
    • /
    • pp.5-8
    • /
    • 1997
  • 음성신호는 성대를 통과한 공기 흐름의 성질에 따라 유성음과 무성음으로 구분될 수 있다. 그 중 유성음에서는 성대의 규칙적인 지동이 존재하게 된는 데 이때 성대가 닫히는 순간을 GCI(Glotal Closure Instant)라 하며 성대 진동의 기본주기를 피치라고 한다. 이러한 피치는 음성합성, 음성인식, 피치동기 음성신호의 분석등에 중요한 파라미터 중의 하나이다. 본 논문에서는 가우시안 함수의 일차미분형태를 갖는 웨이브렛 함수를 사용할 경우 신호의 급격한 변화부분을 검출할 수 있다는 성질을 이용하여 음성 신호의 GCI를 찾아내고 이를 이용하여 피치를 검출하였다.

  • PDF

Chaotic Speech Secure Communication Using Feedback Masking Techniques (피드백 마스킹 기법을 사용한 카오스 음성비화통신)

  • 이익수;여지환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.353-356
    • /
    • 2002
  • 본 논문은 카오스 신호를 이용하여 안전한 음성신호의 전송을 위한 아날로그 비화통신 시스템의 성능분석에 관한 연구이다. 기존의 카오스 동기화 및 카오스 변조통신 알고리즘을 개선하여 실제 통신환경에서 발생하는 다양한 조건들을 적용하여 음성신호의 복원능력을 모의실험으로 분석하였다. 일반적인 PC 제어기법과 제안한 피드백 마스킹 기법을 사용하여 송신단에서 음성신호를 카오스 신호로 마스킹하여 변조하고, 통신채널에 잡음신호를 추가하여 전송하였다. 수신단에서는 카오스 응답시스템을 이용하여 음성신호를 복조하고, 복원성능을 계산하기 위하여 아날로그 복원 에러신호의 평균전력을 제안하여 계산하였다. 실험결과 마스킹 정도, 파라미터들의 민감성, 채널잡음 등에 대하여 PC 제어기법보다 피드백 제어기법의 복원성능이 우수함을 확인할 수 있었다. 또한 로렌쯔 카오스 시스템을 비화통신시스템에 사용할 경우 파라미터들의 조합으로 암호키를 구성해야 하므로 키값들의 선정에 기준이 되는 파라미터 변화율에 대응하는 복원에러율의 관계를 실험 값으로 구하였다.

Distribution of the Slopes of Autocovariances of Speech Signals in Frequency Bands (음성 신호의 주파수 대역별 자기 공분산 기울기 분포)

  • Kim, Seonil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.5
    • /
    • pp.1076-1082
    • /
    • 2013
  • The frequency bands were discovered which maximize the slopes of autocovariances of speech signals in frequency domain to increase the possibility of segregation between speech signals and background noise signal. A speech signal is divided into blocks which include multiples of sampled data, then those blocks are transformed to frequency domain using Fast Fourier Transform(FFT). To find linear equation by Linear Regression, the coefficients of autocovariance within blocks of some frequency band are used. The slope of the linear equation which is called the slope of autocovariance is varied from band to band according to the characteristics of the speech signal. Using speech signals of a man which consist of 200 files, the coefficients of the slopes of autocovariances are analyzed and compared from band to band.

Classification of Signals Segregated using ICA (ICA로 분리한 신호의 분류)

  • Kim, Seon-Il
    • 전자공학회논문지 IE
    • /
    • v.47 no.4
    • /
    • pp.10-17
    • /
    • 2010
  • There is no general method to find out from signals of the channel outputs of ICA(Independent Component Analysis) which is what you want. Assuming speech signals contaminated with the sound from the muffler of a car, this paper presents the method which shows what you want, It is anticipated that speech signals will show larger correlation coefficients for speech signals than others. Batch, maximum and average method were proposed using 'ah', 'oh', 'woo' vowels whose signals were spoken by the same person who spoke the speech signals and using the same vowels whose signals are by another person. With the correlation coefficients which were calculated for each vowel, voting and summation methods were added. This paper shows what the best is among several methods tried.

Current Status and the Prospect of Speech Signal Processing Technology in Korea (한국에서의 음성 신호 처리 기술의 현황과 전망)

  • 안수길
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.17-23
    • /
    • 1995
  • 최근 우리나라에서는 음성신호처리 기술을 바탕으로한 여러 가지 시스템이 상용화되고, 또 그에 따라 관련분야의 연구도 더욱 활발해지고 있다. 본 고에서는 최근 몇 년간 발표되었던 연구결과들을 바탕으로 현재 국내에서 dam성신호처리 관련분야에서의 연구현황을 소개하고 향후의 연구방향 및 미래의 연구 경향을 예측해보고자 g나다. 이를 위해서, 음성신호처리 분야를 음성분석, 음성 합성, 음성 인식, 음성 부호화의 네 세부 분야로 나누고 각 분야별로 국내 현황 그리고 앞으로의 전망을 제시한다.

  • PDF