• 제목/요약/키워드: Speech detection

검색결과 472건 처리시간 0.025초

Recursive Least-Square 알고리즘을 이용한 한국어 음소분류에 관한 연구 (A Study on Korean Phoneme Classification using Recursive Least-Square Algorithm)

  • 김회린;이황수;은종관
    • 한국음향학회지
    • /
    • 제6권3호
    • /
    • pp.60-67
    • /
    • 1987
  • 본 논문에서는 recursive least-square(RLS) 알고리즘을 이용한 한국어 음소분류방법에 관하여 연구하였다. 각 음소의 특징벡터는 prewindowed RLS lattice 알고리즘을 사용하여 추출하는 방법을 제안하였고, 각 음소의 기준패턴은 추출된 특징벡터들을 벡터양자화하여 구성하였다. 제안된 음소인식방식의 성능시험을 위하여 한국어 음소중 자음11개와 모음 8개가 포함된 7개의 한국어 도시명을 발음하여 사용하였으며 초기의 각 음소의 기준패턴으로는 음성신호의 파형을 관찰하여 추출한 표준패턴(prototype)을 사용하였다. 컴퓨터 simulation의 결과로는 화자종속 음소인식의 경우 약간의 음소규칙을 고려할 때 약$85\%$의 음소인식율을 얻었으나, 화자독립 음소인식의 경우는 이보다 훨씬 낮은 인식율을 보였다.

  • PDF

Design of Smart Device Assistive Emergency WayFinder Using Vision Based Emergency Exit Sign Detection

  • 이민우;비나야감 마리아판;비투무키자 조셉;이정훈;조주필;차재상
    • 한국위성정보통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.101-106
    • /
    • 2017
  • In this paper, we present Emergency exit signs are installed to provide escape routes or ways in buildings like shopping malls, hospitals, industry, and government complex, etc. and various other places for safety purpose to aid people to escape easily during emergency situations. In case of an emergency situation like smoke, fire, bad lightings and crowded stamped condition at emergency situations, it's difficult for people to recognize the emergency exit signs and emergency doors to exit from the emergency building areas. This paper propose an automatic emergency exit sing recognition to find exit direction using a smart device. The proposed approach aims to develop an computer vision based smart phone application to detect emergency exit signs using the smart device camera and guide the direction to escape in the visible and audible output format. In this research, a CAMShift object tracking approach is used to detect the emergency exit sign and the direction information extracted using template matching method. The direction information of the exit sign is stored in a text format and then using text-to-speech the text synthesized to audible acoustic signal. The synthesized acoustic signal render on smart device speaker as an escape guide information to the user. This research result is analyzed and concluded from the views of visual elements selecting, EXIT appearance design and EXIT's placement in the building, which is very valuable and can be commonly referred in wayfinder system.

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF

PDA 환경에서 자동화자 확인의 계산량 개선을 위한 연구 (A Study for Complexity Improvement of Automatic Speaker Verification in PDA Environment)

  • 서창우;임영환;전성채;장남영
    • 융합신호처리학회논문지
    • /
    • 제10권3호
    • /
    • pp.170-175
    • /
    • 2009
  • 본 논문은 PDA 디바이스에서 개인정보를 보호하기 위한 자동화자확인 시스템을 제안한다. 최근 M-커머스와 같은 모바일 환경을 위한 PDA의 용량이 확장되고 사용이 증가되고 있다. 그러나 너무 많은 계산량 때문에 PDA 디바이스에서 자동화자확인의 실질적인 응용은 여전히 많은 어려움이 존재한다. 본 논문에서는 이러한 문제점을 해결하기 위해서 음성발성 동안 스펙트럼 차감법과 음성 검출과 같은 전처리를 수행함으로써 계산량을 줄일 수 있는 방법을 적용하였다. 또한 빠른 처리 결과를 얻기 위한 은닉마코프모델의 최적 상태 정합과 시퀀스 확률비 테스트를 적용하였다. 전체적인 시스템은 PDA디바이스의 제한된 메모리와 낮은 CPU 속도에 적합하도록 간결하게 구현하였다.

  • PDF

프레임 단위의 AELMS를 이용한 잡음 제거 알고리즘 (Noise Reduction Algorithm using Average Estimator Least Mean Square Filter of Frame Basis)

  • 안찬식;최기호
    • 디지털융복합연구
    • /
    • 제11권7호
    • /
    • pp.135-140
    • /
    • 2013
  • 잡음 추정과 검출 알고리즘에서는 LMS Filter를 이용하여 변화하는 잡음 환경에 빠르게 적응할 수 있도록 한다. 하지만 LMS Filter는 잡음 추정을 위한 일정 시간 동안 적응 시간이 필요하며 신호의 변화가 일어날 경우 더 많은 적응 시간이 소요되는 단점을 가지고 있다. 따라서 이를 보완하기 위하여 프레임 단위의 AELMS Filter를 이용한 잡음 제거 방법을 제안한다. 본 논문은 잡음 환경에서 입력되는 신호를 프레임 단위로 분할하고 평균과 분산을 이용한 예측 LMS Filter를 구성하여 잡음을 제거하므로 잡음 환경이 변화하더라도 빠른 적응 시간으로 잡음을 제거한다. 또한 환경 잡음과 음성 신호가 혼합되어 입력될 때 잡음을 제거하여 음성의 고유 특성을 유지하고 음성 정보 손상을 줄이기 위한 방법이다. 프레임 단위의 AELMS Filter를 이용한 잡음 제거 방법으로 잡음 제거 성능을 평가하였다. 실험 결과 변화하는 환경 잡음을 제거하여 얻은 감쇠도가 평균 6.8dB 향상되었다.

Electroglottographic Measurements of Glottal Function in Voice according to Gender and Age

  • Ko, Do-Heung
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.97-102
    • /
    • 2011
  • Electroglottography (EGG) is a common method for providing non-invasive measurements of glottal activity. EGG has been used in vocal pathology as a clinical or research tool to measure vocal fold contact. This paper presents the results of pitch, jitter, and closed quotient (CQ) measurements in electroglottographic signals of young (mean = 22.7 years) and elderly (mean = 74.3 years) male and female subjects. The sustained corner vowels /i/, /a/, and /u/ were measured at around 70 dB SPL since the most notable among EGG variables is the phonation intensity, which showed positive correlation with closed phase. The aim of this paper was to measure EGG data according to age and gender. In CQ, there was a significant difference between young and elderly female subjects while there was no significant difference between young and elderly male subjects. The mean value for young males was higher than that for elderly males while the mean value for young females was lower than that for elderly females. Thus, it can be said that in mean values, increased CQ was related to decreased age for females, while CQ decreased for males as the speaker's age decreased. Although the laryngeal degeneration due to increased age seems to occur to a lesser extent in females, the significant increase of CQ in elderly female voices could not be explained in terms of age-related physiological changes. In standard deviation of pitch and jitter, the mean values for young and elderly males were higher than that for young and elderly females. That is, male subjects showed higher in mean values of voice variables than female subjects. This result could be considered as a sign of vocal instability in males. It was suggested that these results may provide powerful insights into the control and regulation of normal phonation and into the detection and characterization of pathology.

  • PDF

미숙아와 만삭아 울음의 음향 및 생리학적 특성 (Acoustic and Physiological Characteristics of Pre-term and Full-term Infants' Cries)

  • 이현숙;배재연;고도흥
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.37-42
    • /
    • 2010
  • The purpose of this study is to first discriminate and assess those infants who appear healthy in appearance but who could face possible risk factors in the future and, secondly, to identify those infants who may have difficulties in their developmental stages. The subjects of this study consisted of 35 full-term infants (39-40 weeks) and 33 pre-term infants (34-35 weeks). The infants' voices were recorded for three minutes, for which EDIROL by Roland and a stand-type microphone made by SONY were used. This was done to discern the value of the Breath unit (B-unit) and the fundamental frequencies ($F_0$). It was found that there were significant differences in terms of F0 since the pre-term infants had higher F0 than the full-term infants, showing a result of 436.4 Hz for the full-term infants and 460 Hz for the pre-term infants (p<.05) There was an average rate of 4.01 for the full-term infants and 4.02 (SD=1.69) for the pre-term infants in shimmer. For NHR, it was observed .44 for the full-term infants and .50 for the pre-term infants, thus revealing no significant differences in these observations. This study shows that the crying of newborn babies is related to their physical conditions and it is a sensatory response to these conditions. Furthermore, this study could be helpful for the early detection and measurement of newborn babies who look clinically healthy but could be at risk through acoustic and physiological analyses.

  • PDF

Google ML Kit를 이용한 요가 자세 훈련 애플리케이션 구현 (Implementation of Yoga Posture Training Application Using Google ML Kit)

  • 김형민;윤종현;박수현;유윤섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.178-180
    • /
    • 2022
  • 본 논문은 Java 기반의 Firebase용 ML Kit로부터 구한 요가 강사의 요가 자세의 랜드마크를 기반으로 사용자가 요가 자세 훈련할 수 있는 애플리케이션 구현을 소개한다. ML Kit를 이용해 사용자의 자세를 분류하고 각 관절에 해당하는 랜드마크를 구한다. 구해진 랜드마크의 관절들이 이루는 각도를 통해 요가 자세에 대한 정확도 측정 기준값을 설정한다. 전문 요가 강사의 요가 자세에 대한 기준 랜드마크와 ML Kit를 통한 사용자의 포즈에 대한 랜드마크 사이의 정확도를 비교한다. 정확도 기준값에 따라서 오동작과 정동작 정보를 TTS(Text-to-Speech)를 통해 사용자에게 제공해준다. Firebase로 효과적인 사용자관리를 하고, 사용자 요가 자세가 정확도 기준값에 부합하는 운동을 했을 경우에 카운터와 타이머를 통해 운동량을 디스플레이하는 시스템을 설명한다.

  • PDF

고음질 음성합성을 위한 LSP를 이용한 피치검출 성능향상에 관한 연구 (A Study on the Pitch Extraction Improvement Using LSP for the Synthesis of High Speech Quality)

  • 서지호;김종국;배명진
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.69-75
    • /
    • 2010
  • 본 논문에서는 스펙트럼 신호를 최대한 평탄화시킴으로써 포만트의 영향을 제거하고 고조파 성분을 분리해 내어 이를 피치검출에 사용한다. 스펙트럼 신호로부터 포만트의 영향과 천이진폭의 영향을 제거하기 위해 주파수 대역을 LSP(Line Spectrum Pair)를 기준으로 서브밴드로 나누고 각각의 서브밴드에서 기울기를 취한 후에 역기울기로 스펙트럼을 보상한다. 실험 결과 제안한 방법이 LPC법, Lifter법, Cepstrum법을 이용하여 평탄화시킬 때 보다 평탄화 정도가 좋아짐을 알 수 있다. 또한 제안한 방법 이외에 가장 양호한 성능을 나타낸 LPC법을 이용하여 피치를 구했을 때 제안한 방법의 조오율이 평균 1.30% 감소하였다. 또한 제안한 방법은 잡음을 부가한 음성의 경우에도 낮은 에러율을 보여 배경잡음에 강하다는 것을 알 수 있었다.

신호 준공간 모델에 기반한 통계적 음성 검출기 (Statistical Voice Activity Defector Based on Signal Subspace Model)

  • 류광춘;김동국
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.372-378
    • /
    • 2008
  • 음성 검출기 (VAD, Voice Activity Detector)는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성 검출방식은 이산 푸리에 변환 (DFT, Discrete Fourier Transform)영역에서 통계적인 모델을 기반으로 하여 우도비검정 (LRT, Likelihood Ratio Test)을 하게 된다. 그리고 이 값을 임계값과 비교하며 음성인지 아닌지 판단하게 된다. 본 논문에서는 신호 준공간 (Signal Subspace)에 기반한 새로운 통계적 음성 검출 기법을 제안하다. 확률적인 주성분 분석 (PPCA, Probabilistic Principal Component Analysis)은 신호 준공간 방법에서 잡음신호에 대한 확률적인 모델을 얻기 위해 사용된다. 제안된 기법은 신호 준공간 영역에서 우도비검정에 기반을 두는 결정규칙을 적용하였다. 음성 검출 실험 결과는 신호 준공간 모델에 근거한 음성 검출기 기법이 주파수 영역에 기반한 가우시안 (Gaussian) 음성 검출기 보다 향상된 검출 결과를 보여준다.