• 제목/요약/키워드: speech source

검색결과 281건 처리시간 0.027초

정상 음성의 목소리 특성의 정성적 분류와 음성 특징과의 상관관계 도출 (Qualitative Classification of Voice Quality of Normal Speech and Derivation of its Correlation with Speech Features)

  • 김정민;권철홍
    • 말소리와 음성과학
    • /
    • 제6권1호
    • /
    • pp.71-76
    • /
    • 2014
  • In this paper voice quality of normal speech is qualitatively classified by five components of breathy, creaky, rough, nasal, and thin/thick voice. To determine whether a correlation exists between a subjective measure of voice and an objective measure of voice, each voice is perceptually evaluated using the 1/2/3 scale by speech processing specialists and acoustically analyzed using speech analysis tools such as the Praat, MDVP, and VoiceSauce. The speech parameters include features related to speech source and vocal tract filter. Statistical analysis uses a two-independent-samples non-parametric test. Experimental results show that statistical analysis identified a significant correlation between the speech feature parameters and the components of voice quality.

음성신호의기본주파수 검출 (On a Detection for the Fundamental Frequency of Speech Signals)

  • 배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.42-47
    • /
    • 1994
  • A pitch detector is an essential component in a variety of speech processing systems. Besides providing valuable insights into the nature of the exciation source for speech production, the pitch contour of an utterance is useful for recognizing speakers, aids-to-the handicapped, and is required in almost all speech analysis-synthesis system. Because of the importance of the pitch detection, a wide variety algorithms for pitch detection have been proposed in speech procesing literature. Thus, in this paper we discuss th evarious type of pitch detection algorithms which have been proposed until now. Then we provide th eperformance measurements for seven pitch detection algorithms.

  • PDF

음성기술을 이용한 정신피로 측정에 관한 타당성 연구 (A Validity Study on Measurement of Mental Fatigue Using Speech Technology)

  • 송승규;김종열;장준수;권철홍
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.3-10
    • /
    • 2013
  • This study proposes a method to measure mental fatigue using speech technology, which has not been used in previous research and is easier than existing complex and difficult methods. It aims at establishing a relationship between the human voice and mental fatigue based on experiments to measure the influence of mental fatigue on the human voice. Two monotonous tasks of simple calculation such as finding the sum of three one digit numbers were used to measure the feeling of monotony and two sets of subjective questionnaires were used to measure mental fatigue. While thirty subjects perform the experiment, responses to the questionnaire and speech data were collected. Speech features related to speech source and the vocal tract filter were extracted from the speech data. According to the results, speech parameters deeply related to mental fatigue are a mean and standard deviation of fundamental frequency, jitter, and shimmer. This study shows that speech technology is a useful method for measuring mental fatigue.

오픈소스기반의 지능형 개인 도움시스템(IPA) 개발방법 연구 (A Study on the Intelligent Personal Assistant Development Method Base on the Open Source)

  • 김길현;김영길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.89-92
    • /
    • 2016
  • 최근 시리(siri)와 같이 사람의 말을 인식하고 대답해주는 서비스를 스마트폰 혹은 웹서비스로 제공해주고 있다. 이러한 지능형 처리를 위해서는 음성을 받아 드리고 웹상의 빅테이타를 검색하고 구문으로 분석, 정확도 부여등의 구현이 필요하다. 본 논문에서는 공개된 소스를 기반으로 하여 음성인식하는 ASR(Automatic Speech Recognition), 질문에 대한 내용을 데이터로 분석하고 응답을 만드는 QAS (Question Answering System), 결과를 음성으로 전달하는 TTS(Text to Speech) 로 구분하고 하나의 시스템으로 구현하는 연구와 분야별 적용될 수 있는 방법을 제안하고자 한다.

  • PDF

자동차 주행 환경에서의 음성 전달 명료도와 음성 인식 성능 비교 (Comparison of Speech Intelligibility & Performance of Speech Recognition in Real Driving Environments)

  • 이광현;최대림;김영일;김봉완;이용주
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.99-110
    • /
    • 2004
  • The normal transmission characteristics of sound are hardly obtained due to the various noises and structural factors in a running car environment. It is due to the channel distortion of the original source sound recorded by microphones, and it seriously degrades the performance of the speech recognition in real driving environments. In this paper we analyze the degree of intelligibility under the various sound distortion environments by channels according to driving speed with respect to speech transmission index(STI) and compare the STI with rates of speech recognition. We examine the correlation between measures of intelligibility depending on sound pick-up patterns and performance in speech recognition. Thereby we consider the optimal location of a microphone in single channel environment. In experimentation we find that high correlation is obtained between STI and rates of speech recognition.

  • PDF

다채널 위너 필터의 주성분 부공간 벡터 보정을 통한 잡음 제거 성능 개선 (Improved speech enhancement of multi-channel Wiener filter using adjustment of principal subspace vector)

  • 김기백
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.490-496
    • /
    • 2020
  • 본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 단일 음원인 경우는 음성 상관 행렬의 주성분 부공간에서 음성 성분을 추정할 수 있다. 이 때, 음성 상관 행렬은 음성과 간섭 잡음의 교차 상관도가 음성 상관 행렬에 비해 무시할만한 수준이라는 가정하에 신호 상관 행렬에서 간섭 잡음의 상관 행렬을 차감하여 추정하게 된다. 그러나 간섭 잡음 수준이 높아지게 되면 이러한 가정이 더 이상 유효하지 않게 되며 이에 따라 주성분 부공간 추정 오차도 증가하게 된다. 본 연구에서는 음성 존재 확률과 목적 신호의 방향 벡터를 이용하여 주성분 부공간을 보정하는 방법을 제안한다. 주성분 부공간에서 다채널 음성 존재 확률을 유도하고 주성분 부공간 벡터를 보정하는데 적용하였다. 실험을 통해 제안하는 방법이 잡음 환경에서 다채널 위너 필터의 성능을 향상시키는 것을 확인할 수 있다.

배경 잡음을 제거하는 음성 신호 잡음 제거기의 구현 (Implementation of Environmental Noise Remover for Speech Signals)

  • 김선일;양성룡
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.24-29
    • /
    • 2012
  • 자동차 배기음은 음성과 무관한 거의 독립적인 음원이라고 볼 수 있다. 따라서 자동차 배기음과 섞인 음성 신호의 경우에 두 음원에 대한 사전 정보가 없는 상황이므로 Blind Source Separation 의 한 방법인 Independent Component Analysis를 이용하여 분리해 내었다. 스테레오 마이크를 통해 섞여 들어 온 두 음원을 분리해 내기 위해 Maximum Likelyhood Estimation을 이용하여 각 신호들 사이의 독립성을 최대화 하는 방향으로 분리하였다. 분리된 신호는 어느 쪽이 음성 신호인지 알 수 없으므로 주파수 영역에서 자기 공분산을 구한 후 이 공분산 값들의 기울기를 이용하여 음성 신호와 자동차 배기음 신호을 구분하였으며 이 두 알고리즘을 결합하여 음성 신호 잡음 제거기를 구현하였다.

지능로봇에 적합한 잡음 환경에서의 원거리 음성인식 전처리 시스템 (Remote speech recognition preprocessing system for intelligent robot in noisy environment)

  • 권세도;정홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.365-366
    • /
    • 2006
  • This paper describes a pre-processing methodology which can apply to remote speech recognition system of service robot in noisy environment. By combining beamforming and blind source separation, we can overcome the weakness of beamforming (reverberation) and blind source separation (distributed noise, permutation ambiguity). As this method is designed to be implemented with hardware, we can achieve real-time execution with FPGA by using systolic array architecture.

  • PDF

회의실 유리창 진동음의 명료도 분석 (Speech Intelligibility Analysis on the Vibration Sound of the Window Glass of a Conference Room)

  • 김윤호;김희동;김석현
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2006년도 추계학술대회논문집
    • /
    • pp.150-155
    • /
    • 2006
  • Speech intelligibility is investigated on a conference room-window glass coupled system. Using MLS(Maximum Length Sequency) signal as a sound source, acceleration and velocity responses of the window glass are measured by accelerometer and laser doppler vibrometer. MTF(Modulation Transfer Function) is used to identify the speech transmission characteristics of the room and window system. STI(Speech Transmission Index) is calculated by using MTF and speech intelligibility of the room and the window glass is estimated. Speech intelligibilities by the acceleration signal and the velocity signal are compared and the possibility of the wiretapping is investigated. Finally, intelligibility of the conversation sound is examined by the subjective test.

  • PDF

회의실 유리창 진동음의 음성 명료도 분석 (Speech Intelligibility Analysis on the Vibration Sound of the Glass Window of a Conference Room)

  • 김희동;김윤호;김석현
    • 한국소음진동공학회논문집
    • /
    • 제17권4호
    • /
    • pp.363-369
    • /
    • 2007
  • The purpose of the study is to obtain acoustical information to prevent eavesdropping of the glass window. Speech intelligibility was investigated on the vibration sound detected from the glass window of a conference room. Objective test using speech transmission index(STI) was performed to estimate quantitatively the speech intelligibility. STI was determined based on tile modulation transfer function(MTF) of the room-glass window system. Using Maximum Length Sequency(MLS) signal as a sound source, impulse responses of the glass window and MTF were determined by signals from accelerometers and laser doppler vibrometer. Finally, speech intelligibility of the interior sound and window vibration were compared under different sound pressure levels and amplifier gains to confirm the effect of measurement condition on the speech intelligibility.