Search | Korea Science

Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator (고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구)

Lee, JiYeoun
- Journal of Digital Convergence
- /
- v.14 no.11
- /
- pp.249-255
- /
- 2016
Since the elderly voices include a lot of noise caused by physiological changes in respiration, phonation, and resonance, the performance of the convergence health-care equipments such as speech recognition, synthesis, analysis program done by elderly voice is deteriorated. Therefore it is necessary to develop researches to operate health-care instruments with elderly voices. In this study, a voice activity detection using a symmetric higher-order differential energy function (SHODEO) was developed and was compared with auto-correlation function(ACF) and the average magnitude difference function(AMDF). It was confirmed to have a better performance than other methods in the voice interval detection. The voice activity detection will be applied to a voice interface for the elderly to improve the accessibility of the smart devices.
https://doi.org/10.14400/JDC.2016.14.11.249 인용 PDF KSCI

Segmental duration modelling for Korean text-to-speech synthesis (한국어 음성합성에서 음운지속시간 모델화)

Lee YangHee
- Proceedings of the KSPS conference
- /
- 1996.02a
- /
- pp.125-135
- /
- 1996
본 논문에서는 자연스러운 음성을 합성하기 위하여, 한국어 음운지속시간의 변화에 있어서 문절과 구내의 음절수와 음절의 위치에 의한 영향과 인접하는 음운의 영향에 대하여 통계적으로 분석하였고, 분석된 시간 특징을 제어 요소로 하는 회귀트리를 생성하여 음운 지속시간을 모델 화하였다. 또한, 제안된 음운 지속시간 모델에 의해 예측실험을 행하여, 측정치와 예측치간의 다중 상관계수가 0.74정도이고, 각 음운의 예측오차의 75%이상이 25ms이내로 제안된 모델의 타당성이 입증되었다.
PDF

Relationship between formants and constriction area of vocal tract in 9 Korean standard vowels (우리말 9개 모음에서 음 대와 성도내 좁힘의 관계에 관한 연구)

서경식;김광문;최홍식;정태섭;곽도식;이현복
- Proceedings of the KSLP Conference
- /
- 1993.12a
- /
- pp.17-17
- /
- 1993
한국어 모음 발성시 책은 Videovelopharyngogram과 동시에 녹음된 음성을 분석하여, 각 모음별로 성도내 좁힘에 대한 성문으로부터의 거리를 측정하고, 음 대를 구하여 그 상관관계를 알아보았다. 측정 인원은 표준말을 사용하는 것으로 판정된 성인 남녀 각 5명으로 하고, 측정방법으로 Simens Pantoscop 를 이용하여 Videovelopharyngogram을 얻고, DT282-F-6 SE board로 digitized된 음성을 CSpeech version 3. 의 software로 분석하였다.(중략)
PDF

성대결절의 음성평가에서 주관적 평가와 객관적 평가간의 관계 분석

윤영선;이은경;손영익;백정환;추광철
- Proceedings of the KSLP Conference
- /
- 1999.11a
- /
- pp.181-181
- /
- 1999
배경 : 음성평가에서는 기기를 이용한 객관적인 평가뿐만 아니라 청지각에 의한 주관적 평가가 매우 비중 있게 다루어져 왔다. 목적 : 본 연구에서는 객관적인 평가 중 음향학적 분석인 MDVP(Multidimensional Voice Program)의 지표들과 주관적 평가로 알려진 GRBAS점수를 비교하여 이들의 상관관계 정도를 성대결절을 대상으로 알아보고자 하였다. (중략)
PDF

VCV Chain Analysis for Korean Speech Synthesis (한국어 음성 합성을 위한 VCV연쇄음 분석에 관한 연구)

Kim, Sung-Joo;Oh, Yung-Hwan
- Annual Conference on Human and Language Technology
- /
- 1992.10a
- /
- pp.173-184
- /
- 1992
본 논문에서는 일반적인 음성 합성 시스템과 모음-자음-모음(VCV) 연쇄음을 단위로 한 규칙 합성에 대해 고찰하고, 한국어의 음성 합성을 위한 VCV 연쇄음의 종류와 각 연쇄음의 빈도 및 사용예를 조사하기 위하여 약11만 단어의 어휘 목록과 3만 6천행 가량의 한글 문서를 분석, 연구한 결과를 기술하였다. 본 연구의 결과, 한국어의 음성 합성에는 약 2500여 증류의 VCV 연쇄음이 필요함을 확인하였다.
PDF

A Study on the Performance Evaluation for the Integrated Voice/Data Transmission with FDDI (FDDI 음성/데이타 집적 전송에서의 성능 분석에 관한 연구)

홍성식;박호균;이재광;류황빈
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.17 no.3
- /
- pp.277-287
- /
- 1992
In this paper, we study the performance eualuations of the FDDI Network, by mathmeticlal analysis and simulation, in which the Integrated Voice/Data transmission system with voice traffic in synchronous mode and data traffic inasynchronous mode.For the mean waiting times of Voice/Data packet, we use two-state of Marcov models for voice traffic with talkspurt and silenci state, and the data traffic would traffic would transmit at the silence state of voice traffic. By the mean wating times, we analyze the relations between synchronous and asynchronous mode. As a result, using Sync/Async mode with voice and data, voice was not under influnece of data traffic. and in the same time,data can be tanaxmitted in a short waiting time, too.
PDF

A Proposal of Collaborating Bluetooth Basestation in Hot Spot Area with Its Performance Analysis (핫스팟지역에서 협동방식 블루투스기지국의 제안과 성능분석)

Kim, Dong-Won;Cho, Dong-Uk;Lyu, Won
- Proceedings of the Korea Information Processing Society Conference
- /
- 2003.05b
- /
- pp.1369-1372
- /
- 2003
가까운 장래에 싼 가격의 블루투스가 여러 가지 이동, 휴대 장치에 내장되어 다양한 응용서비스를 제공할 것이다. 본 논문에서는 공항이나 쇼핑몰 등 사람들이 많이 몰리는 공공장소와 같은 핫스팟(hot spot) 지역에서 블루투스 기지국을 통한 음성서비스 제공을 위하여 다수의 기지국을 유서 LAN으로 협동시켜 각각 기지국별로 따로 제공되던 음성 채널들을 집합화(aggregation) 함으로써 보다 많은 음성 서비스 채널들을 동시에 수용할 수 있는 방법을 제시하고 성능을 분석하였다. 단독으로 동작하는 기지국은 ACL채널을 사용하는 경우 7개까지의 채널 수용이 가능하므로 이상적인 경우에서도 오버랩 영역의 기지국의 개수가 n이면 7n 만큼 채널의 증가가 가능한 반면 협동으로 동작하면 블록킹 율도 개선되면서 집합화된 채널들을 보간(interpolation) 기법을 통한 통계적 사용으로 음성 패킷의 허용 손실 범위 내에서 음성채널의 수를 약 14n 정도까지 확장할 수 있다. 또한 음성전송과 데이터 전송이 혼합 서비스 될 때 수용하는 음성 채널의 수에 따른 데이터 전송지연시간 특성을 분석하였다.
PDF

A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술)

Lee, ChangSu;Ko, YoungJoong
- Annual Conference on Human and Language Technology
- /
- 2014.10a
- /
- pp.3-8
- /
- 2014
대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.
PDF

Performance Improvement of Speech Recognition Based on Independent Component Analysis (독립성분분석법을 이용한 음성인식기의 성능향상)

김창근;한학용;허강인
- Proceedings of the Korea Institute of Convergence Signal Processing
- /
- 2001.06a
- /
- pp.285-288
- /
- 2001
In this paper, we proposed new method of speech feature extraction using ICA(Independent Component Analysis) which minimized the dependency and correlation among speech signals on purpose to separate each component in the speech signal. ICA removes the repeating of data after finding the axis direction which has the greatest variance in input dimension. We verified improvement of speech recognition ability with training and recognition experiments when ICA compared with conventional mel-cepstrum features using HMM. Also, we can see that ICA dealt with the situation of recognition ability decline that is caused by environmental noise.
PDF

An Analysis on the Pitch Variation Of the Emotional Speech (감정 음성의 피치 변화 분석)

Chun Heejin;Chung Jihye;Kim Byungil;Lee Yanghee
- Proceedings of the Acoustical Society of Korea Conference
- /
- autumn
- /
- pp.93-96
- /
- 1999
감정을 표현하는 음성 합성 시스템을 구현하기 위해서 이전 논문에서는 음운 및 운율 요소(피치, 에너지, 지속시간, 스펙트럼 인벨로프)가 각 감정 음성에 미치는 영향에 대한 분석을 수행하였다. 본 논문에서는 네 가지 감정 표현(평상, 화남, 기쁨, 슬픔)을 나타내는 음성 데이터에 대해 음절 세그먼트와 라벨링을 행한 감정 음성 데이터베이스를 토대로 감정 표현에 많은 영향을 미치는 요소인 피치가 어떻게 변화하는지를 분석하였다. 통계적인 방법을 이용하여 감정별 피치를 정규화 하였으며, 감정 음성 데이터베이스 내의 문장별 피치 패턴에 대해 분석하였다. 그 결과 감정별 피치의 평균 ZScore는 화남이 가장 작았으며, 기쁨, 평상, 슬픔의 순으로 높았다. 또한 감정별 피치의 범위 변화는 슬픔이 가장 작았으며, 평상, 화남, 기쁨의 순으로 높았다. 문장별 피치의 패턴은 감정 표현에 따라 전체적으로 대부분 유사하게 나타났으며, 문장의 처음 부분은 화남의 경우 다른 감정에 비해 대체로 높게 변화하였고, 화남과 기쁨의 경우 문장의 뒷부분에서 다른 감정에 비해 피치가 상승하는 것을 볼 수 있었다.
PDF

Search Result 3,062, Processing Time 0.037 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)