Search | Korea Science

Speech Recognition in Time-varying Noisy Environments using the Histogram Technique (히스토그램 처리방법을 이용한 시변 잡음환경에서의 음성인식)

권영욱;김형순
- The Journal of the Acoustical Society of Korea
- /
- v.17 no.3
- /
- pp.47-51
- /
- 1998
잡음 환경에서의 음성인식을 위해서는 일반적으로 전처리 과정에서 잡음의 스펙트 럼을 잘 추정할 필요가 있다. 본 논문에서는 시변잡음 환경에서 히스토그램 처리방법에 의 해 잡음의 스펙트럼을 추정하고 이를 제거하는 방법으로 스펙트럼 차감법을 사용하였다. 히 스토그램 처리방법은 음성/비음성 구간의 구분을 할 필요가 없으며 서서히 변화하는 잡음의 스펙트럼도 추정할 수 있다는 점에서 기존 방식에 비해 장점을 지닌다. 다양한 SNR 조건하 에서 시간에 따라 에너지, 그리고 주파수가 변화하는 유색 가우시안 잡음을 부가시킨 음성 에 대해, 화자독립 고립단어 인식실험을 수행하였다. 실험결과, 히스토그램 처리방법에 기반 을 둔 스펙트럼 차감법을 적용할 경우가 기존의 잡음 스펙트럼 추정방법에 비해 인식성능이 우수하였다.
PDF

A Comparative Study of Recognition Rate According to the Variance of Speech Bandwidth (대역폭 변화에 따른 음성 인식률 비교연구)

Sohn, Il-Hyun;Doh, Sam-Joo;Koo, Myoung-Wan
- Annual Conference on Human and Language Technology
- /
- 1992.10a
- /
- pp.193-199
- /
- 1992
이 논문에서는 123개 단어의 한국어 음성에 대하여 음성의 대역폭 변화에 따른 인식률을 비교하였다. 인식률 비교실험을 위해 hidden Markov model과 음소와 유사한 131개의 한국어 subword 유니트를 사용한 화자독립 격리단어 인식 시스팀을 사용하였다. 이 실험은 대역폭이 각각 0 - 4.5kHz 및 0.3 - 3.3kHz인 두가지 종류의 음성 데이타베이스를 사용하였다. 훈련과정에서 corrective training의 반복회수를 2로 하고 state transition duration 정보를 사용하였을 때, 0 - 4.5kHz 와 0.3 - 3.3kHz 대역폭에 대해 각각 98.8 % 및 98.2 % 의 최고 인식률을 얻었다. 이로부터 전화대역폭에서도 음성인식률은 크게 저하되지 않음을 알 수 있다.
PDF

CHMM Modeling using LMS Algorithm for Continuous Speech Recognition Improvement (연속 음성 인식 향상을 위해 LMS 알고리즘을 이용한 CHMM 모델링)

Ahn, Chan-Shik;Oh, Sang-Yeob
- Journal of Digital Convergence
- /
- v.10 no.11
- /
- pp.377-382
- /
- 2012
In this paper, the echo noise robust CHMM learning model using echo cancellation average estimator LMS algorithm is proposed. To be able to adapt to the changing echo noise. For improving the performance of a continuous speech recognition, CHMM models were constructed using echo noise cancellation average estimator LMS algorithm. As a results, SNR of speech obtained by removing Changing environment noise is improved as average 1.93dB, recognition rate improved as 2.1%.
https://doi.org/10.14400/JDPM.2012.10.11.377 인용 PDF

Correlation Analysis of Between Spicy Food and Voice Signals (매운 음식과 음성신호와의 상관성 분석)

Kim, Bong-Hyun;Cho, Dong-Uk
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.05a
- /
- pp.799-801
- /
- 2013
최근 들어 봄과 가을이 짧아지고 여름이 길어지면서 매운 음식을 즐겨 먹는 현대인들이 증가하고 있다. 매운 음식은 더위 속에서 건강을 지키기 위해 만들어진 과학적인 음식으로 기후가 덥고 습한 환경에서 매운 음식으로 땀을 빼야 몸이 가뿐해진다고 알려져 있다. 따라서 본 논문에서는 매운 음식을 섭취함으로써 인체 기관에 미치는 기능적 변화를 음성신호 분석학적 방법의 적용으로 연구를 수행하였다. 이를 위해 20대 남성 15명을 대상으로 매운 음식을 섭취하기 전과 후의 음성을 수집하고 음성분석 요소를 적용한 실험을 수행하여 상호간의 비교, 분석을 통해 매운 음식과 음성신호 변화와의 상관성 분석을 수행하였다.
https://doi.org/10.3745/PKIPS.y2013m05a.799 인용 PDF

Effect Analysis of Kidney Cupping Therapy based on Voice Signal Analysis (음성신호 분석 기반의 신장 부항요법 효과 분석)

Cho, Dong-Uk;Jeong, Yeon-Ho;Ka, Min-Kyoung;Kim, Bong-Hyun
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.11a
- /
- pp.1474-1475
- /
- 2013
부항은 열 또는 음압(陰壓)장치에 의하여 부항단지 안에 음압을 조성하여 피부에 붙임으로써 피를 뽑거나 울혈(鬱血)을 일으키며 물리적 자극을 주어 병을 치료한다. 부항으로 얻어지는 물리적인 자극은 혈액순환을 촉진하고, 죽은피를 빼냄으로써 혈관을 자극하고 그로인해 다양한 효과를 얻는다. 따라서 본 논문에서는 신장에 해당하는 명문혈을 자극하여 신장과 관련된 음성분석 요소의 변화를 측정하였다. 이를 위해 신장에 이상이 없는 피실험자 10명을 선정하고 신장에 해당하는 명문혈을 자극하기 전과 후의 음성을 수집하였다. 실험은 음성분석 요소 중 신장과 관련된 1 Formant Bandwidth를 적용하여 신장 명문혈 자극 전과 후의 변화를 측정, 분석하였다. 실험 결과, 90%의 피실험자가 값이 감소하는 현상을 보였으며, 이를 통해 명문혈 자극에 따른 신장과 음성신호와의 상관성을 분석할 수 있었다.
https://doi.org/10.3745/PKIPS.y2013m11a.1474 인용 PDF

Speech emotion recognition based on CNN - LSTM Model (CNN - LSTM 모델 기반 음성 감정인식)

Yoon, SangHyeuk;Jeon, Dayun;Park, Neungsoo
- Proceedings of the Korea Information Processing Society Conference
- /
- 2021.11a
- /
- pp.939-941
- /
- 2021
사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.
https://doi.org/10.3745/PKIPS.y2021m11a.939 인용 PDF

A Study on the Rejection Capability based on Utterance Verification for Speech Recognition (발화 검증에 의한 음성인식 거절기능 연구)

김우성
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06c
- /
- pp.67-70
- /
- 1998
본 논문에서는 단어독립 음성인식 시스템을 위한 음성인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 때 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 본 연구에서는 단어독립 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하 평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.
PDF

Voice Packet Playout Scheduling for High Quality Voice Communication Based on Wide Band VoIP (광대역 VoIP 기반 고품질 음성통화를 위한 음성패킷 재생 스케줄링 방식)

Choi, Hong-Jae;Kim, Hyoung-Gook
- Proceedings of the Korea Multimedia Society Conference
- /
- 2012.05a
- /
- pp.353-354
- /
- 2012
광대역 VoIP 네트워크 환경에서는 불안정한 네트워크 환경으로 인해 음성패킷이 불규칙적으로 수신되어 음성데이터의 재생이 원활하지 못하다. 이러한 문제점을 해결하기 위해 본 논문에서는 네트워크 상태에 따라 원활하게 음성패킷을 재생시키는 스케줄링 방식을 제안한다. 제안하는 방식은 수신단에 도착한 패킷 헤더정보를 이용해 네트워크 지터를 추정하고, 추정된 지터와 지터버퍼와 음성프레임버퍼에 존재하는 패킷수 및 음성프레임 개수, 음성클래스정보에 따라 음성프레임의 길이를 변화시켜 재생시킴으로써 수신단의 버퍼링 지연을 줄이고 출력신호의 음성왜곡을 최소화한다. 제안하는 스케줄링 방식의 성능측정을 위해 버퍼링 지연과 PESQ를 기존 음성패킷 재생 스케줄링 방식과 비교한다.
PDF

Voice Change Associated with Swallowing Disorder Caused by a Stroke After Neuromuscular Electrical Stimulation (뇌졸중으로 인한 삼킴장애 환자의 경부근육전기자극치료에 따른 음성 변화)

Byeon, Hae-Won
- Journal of the Korea Academia-Industrial cooperation Society
- /
- v.13 no.4
- /
- pp.1665-1671
- /
- 2012
The purpose of this study was to look into changes in voice using acoustic analysis during the process of neuromuscular electrical stimulation targeting dysphagia treatment. Fifteen man with dysphagia caused by stroke was treated neuromuscular electrical stimulation for two months and intensity of voice, $F_0$, Jitter, Shimmer, NNE were measured. The results of this study that improvement in functions of dysphagia and Jitter, Shimmer were stabilized. But there was not significantly changes of $F_0$. NNE was improved after the intervention, but still showed abnormal levels. This result suggests a possibility of effects that Neuromuscular electrical stimulation has on stabilization of Jitter, Shimmer and intensity of voice.
https://doi.org/10.5762/KAIS.2012.13.4.1665 인용 PDF KSCI

A study on the robust context-dependent acoustic models by considering the state splitting and the time variant of speech (음성의 시간변이와 상태분할을 고려한 강건한 문맥의존 음향모델에 관한 연구)

오세진;김광동;노덕규;정현열
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.04c
- /
- pp.229-231
- /
- 2003
일반적으로 음성은 시간함수로 표현되며 음성인식에서 표준모델을 모델링하는 것은 매우 중요한 문제이다. 음절 단어, 연속음성을 발성할 때 자음과 모음에 따라 발성시간에 차이가 있으며 이를 잘 모델링하는 것 또한 음성인식에서는 중요한 문제라고 할 수 있다. 따라서 본 연구에서는 강건한 음향모델을 학습하기 위해 시간의 변화와 상태분할과정에서의 모델의 변화를 고려하여 다양한 구조의 초기모델을 작성하였다. 각 초기모델에 의한 HM-Net 문맥의존 음향모델은 음소결정트리 기반 SSS 알고리즘(PDT-SSS)을 이용하였다. PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 음성의 시간변이를 고려한 강건한 문맥의존 음향모델을 작성하기 위해 설정한 각 모델의 구조에 대한 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행한 결과. 음소인식의 경우 상태수 2000개에서 2상태 구조의 모델에 비해 4상태 구조가 약 11.4% 향상된 인식성능과 39.2초의 인식시간을 단축할 수 있었다. 또한 단어인식의 경우 상태수 2000개에서 1상태 구조의 모델에 비해 4상태 구조가 약 5% 향상된 인식성능과 4상태 구조에서 한 단어를 인식하는데 평균 0.8초가 소요되었다. 따라서 강건한 문맥의존 음향모델을 작성하기 위해 수행한 초기모델의 구조에 관한 연구가 향후 음성인식 시스템을 구축하는데 유효함을 확인할 수 있었다.
PDF

Search Result 1,373, Processing Time 0.027 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)