Search | Korea Science

Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance (효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표)

Ji, Seung-eun;Kim, Wooil
- Journal of the Korea Institute of Information and Communication Engineering
- /
- v.21 no.12
- /
- pp.2291-2297
- /
- 2017
This paper describe to extract speech measure algorithm for evaluating a speech database, and presents generating method of a speech quality measure using DNN(Deep Neural Network). In our previous study, to produce an effective speech quality measure, we propose a combination of various speech measures which are highly correlated with WER(Word Error Rate). The new combination of various types of speech quality measures in this study is more effective to predict the speech recognition performance compared to each speech measure alone. In this paper, we describe the method of extracting measure using DNN, and we change one of the combined measure from GMM(Gaussican Mixture Model) score used in the previous study to DNN score. The combination with DNN score shows a higher correlation with WER compared to the combination with GMM score.
https://doi.org/10.6109/jkiice.2017.21.12.2291 인용 PDF KSCI

A study on real-time implementation of speech recognition and speech control system using dSPACE board (dSPACE 보드를 이용한 음성인식 명령처리시스템 실시간 구현에 관한 연구)

김재웅;정원용
- Proceedings of the Korea Institute of Convergence Signal Processing
- /
- 2000.12a
- /
- pp.173-176
- /
- 2000
음성은 인간이 가진 가장 편리한 제어전송수단으로 이를 통한 제어는 인간에게 많은 편리함을 제공할 것이다. 본 논문에서는 다층구조 신경망(Multi-Layer Perceptron)을 이용하여 간단한 음성인식 명령처리시스템을 Matlab 상에서 구성해 보았다. 음성인식을 통한 제어의 목적을 위해 화자종속, 고립단어인식기를 목표로 설정하여 연구를 수행하였다. 음성의 시작점과 끝점을 검출하기 위해 단구간 에너지와 영교차율(ZCR)을 이용하였고 인식기의 특징파라미터로는 12차 LPC켑스트럼 계수를 사용하였다. 그리고 신경망의 출력값을 기동, 정지시에 활성화되도록 3개의 계층으로 하였고, 신경망의 뉴런의 개수를 각각 12, 12, 2으로 설정하였다. 먼저 기준음성패턴으로 학습시킨 후에 Matlab 환경하에 동작하는 dSPACE 실시간처리보드에 변환된 C프로그램을 다운로드하고, 음성을 입력하여 인식 후 dSPACE보드의 D/A컨버터의 출력단에 연결된 DC모터를 기동, 정지제어를 수행하였다. 실시간 음성인식 명령처리 시스템 구현을 통하여 원격제어와 같은 음성명령을 통한 제어가 가능함을 확인할 수 있었다.
PDF

Verification of Extended TRW Algorithm for DDoS Detection in SIP Environment (SIP 환경에서의 DDoS 공격 탐지를 위한 확장된 TRW 알고리즘 검증)

Yum, Sung-Yeol;Ha, Do-Yoon;Jeong, Hyun-Cheol;Park, Seok-Cheon
- Journal of Korea Multimedia Society
- /
- v.13 no.4
- /
- pp.594-600
- /
- 2010
Many studies are DDoS in Internet network, but the study is the fact that is not enough in a voice network. Therefore, we designed the extended TRW algorithm that was a DDoS attack traffic detection algorithm for the voice network which used an IP data network to solve upper problems in this article and evaluated it. The algorithm that is proposed in this paper analyzes TRW algorithm to detect existing DDoS attack in Internet network and, design connection and end connection to apply to a voice network, define probability function to count this. For inspect the algorithm, Set a threshold and using NS-2 Simulator. We measured detection rate by an attack traffic type and detection time by attack speed. At the result of evaluation 4.3 seconds for detection when transmitted INVITE attack packets per 0.1 seconds and 89.6% performance because detected 13,453 packet with attack at 15,000 time when transmitted attack packet.
PDF KSCI

Design of an Automatic Speech translation system on the Telephone Line (전화망을 통한 자동음성번역 서비스 시스템 설계)

Lee Sung-Joo;Lee Yunggik;Yang Jea-Woo
- Proceedings of the Acoustical Society of Korea Conference
- /
- spring
- /
- pp.57-60
- /
- 2002
본 논문에서는 현재 ETRI에서 개발 중인 유/무선 전화망을 통한 다국어간 대화체 음성번역서비스 시스템에 대해서 소개한다. 전화망을 통한 자동음성번역서비스 시스템은 여행대화영역을 서비스 대상영역으로 하고 있고 자동음성번역서비스를 필요로 하는 사용자들은 동일한 장소에서 대면하고 있으며 서로 다른 언어를 사용하기 때문에 서로 의사 소통에 어려움을 겪고 있다고 가정한다. 따라서 여기서 말하는 자동음성번역 시스템의 특징은 인간과 기계간의 인터페이스를 그 대상으로 하는 것이 아니라 인간과 인간사이의 인터페이스를 그 대상으로 하고 있다는 정이다. 인간과 인간사이의 인터페이스 상황에서는 인간의 이해력이 시스템 오류를 정정할 수 있는 여지를 지니고 있다. 따라서 시스템이 사용자의 말하는 의도 혹은 개념만 잘 전달할 수 있다면 서로 다른 언어를 사용하는 사용자들 사이에서도 이러한 시스템을 통한 의사소통이 가능하다. 자동음성번역서비스 시스템은 크게 음성인식모듈 문장해석 및 번역 모듈, 음성합성모듈, 시스템통합 모듈 그리고 전화망 인터페이스 모듈로 나뉜다. 여기서는 자동음성번역 서비스 시스템의 각 모듈들의 주요 특징과 상호 인터페이스 방법에 대해서 소개한다.
PDF

Digit Recognition Rate Comparision in DHMM and Neural Network (DHMM과 신경망에서 숫자음 인식률 비교)

박정환;이원일;황태문;이종혁
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2002.05a
- /
- pp.171-174
- /
- 2002
음성 신호는 언어정보, 개인성, 감정 등의 여러 가지 정보를 포함한 음향학적인 신호인 동시에 가장 자연스럽고 널리 쓰이는 의사소통 수단의 하나이다. 본 연구에서는 저장된 음성 신호에서 추출한 특징 파라미터를 사용한 경우와 음성 특징파라미터에 입술 패턴에 대한 영상정보를 통시에 사용한 경우 DHMM과 신경망을 통하여 각각 인식률을 비교해 보았다. 그 결과 입술패턴에 대할 영상정보도 음성인식에 사용 할 수 있음을 알 수 있었다.
PDF

The Study of Voice Traffic Comparison From PSTN with the BcN after converting (PSTN에서 BcN으로 전환 후 음성 트래픽 비교에 관한 연구)

Lee, Young-Hag;Kim, Seok;Han, Seung-Jo
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2007.10a
- /
- pp.600-603
- /
- 2007
미래 지식정보사회는 컴퓨터, 통신, 방송 등 모든 정보통신 기기가 하나의 네트워크에 연결되는 BcN 기반의 네트워크사회(Broadband Network Society)로 빠르게 진화할 전망이다. BeN은 엑세스망, IP전달망, 제어/서비스망(교환망 IP전환)의 3개 계층을 모두 포함하는 개념이나 엑세스망, IP전달망은 기존과 통일한 IP방식으로 추진 중이어서 IP기반의 제어/서비스망 신규 구축 및 교환망의 IP로의 전환을 협의의 BcN이라 정의 한다. PSTN에서 BcN망으로 전환 시 BeN망의 구성 요소는 소프트스위치, TGW, AGW, SGW, 응용서버, 미디어서버 등이 있다. PSTN망이 BcN망으로 전환시 크게 3단계의 과정을 거친다. 1단계로 2007년 상반기에 전남 목포지역의 지능망 서비스가 불가한 시외교환기가 BcN으로 전환되었다. 전환 후의 IP망을 경유하는 음성호의 트래픽을 측정한 결과는 발생호는 증가하였으며 완료율은0.06% 감소하였지만 관리 기준내의 양호한 수준이었다. 향후 음성호의 통화 품질을 높이기 위해서 품질 측정을 통한 기준 미달 항목을 조치하고 트래픽 측정을 통한 소통율, 완료율 불량 구간에 대한 지속적인 개선 활동을 해야 한다.
PDF

A Study on the Verify Group Neural Network and Weight Initialization for Continuous Speech Recognition (연속 음성 인식을 위한 그룹 식별 신경망과 연결 강도 초기화에 대한 연구)

최기훈
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1995.06a
- /
- pp.73-75
- /
- 1995
연속 음성 인식을 위한 신경망과 학습속도를 줄이기 위한 연결강도 초기화에 관해 다루고 있다. 우선 음소를 여러개의 그룹으로 나눈 후 각각의그룹에 대한 음소를 인식하는 신경망과 자신의 그룹을 판별하는 VGNN 으로 신경망을 구성한다. 여기서 구성되는 신경망은 각각의 음소를 인식하는 출력을 낼 뿐 아니라, 입력이 자신의 그룹에 속하는지 그렇지 않은지를 판별하는 출력을 낸다. 이런 신경망을 학습시키는 데 상당한 시간이 걸리므로 이 신경망의 학습속도를 줄이기 위해 학습 데이터를 사용하여 신경망의 연결 강도를 초기화한다.
PDF

A Study on the Intelligent Man-Machine Interface System: The Experiments of the Recognition of Korean Monotongs and Cognitive Phenomena of Korean Speech Recognition Using Artificial Neural Net Models (통합 사용자 인터페이스에 관한 연구 : 인공 신경망 모델을 이용한 한국어 단모음 인식 및 음성 인지 실험)

Lee, Bong-Ku;Kim, In-Bum;Kim, Ki-Seok;Hwang, Hee-Yeung
- Annual Conference on Human and Language Technology
- /
- 1989.10a
- /
- pp.101-106
- /
- 1989
음성 및 문자를 통한 컴퓨터와의 정보 교환을 위한 통합 사용자 인터페이스 (Intelligent Man- Machine interface) 시스템의 일환으로 한국어 단모음의 인식을 위한 시스템을 인공 신경망 모델을 사용하여 구현하였으며 인식시스템의 상위 접속부에 필요한 단어 인식 모듈에 있어서의 인지 실험도 행하였다. 모음인식의 입력으로는 제1, 제2, 제3 포르만트가 사용되었으며 실험대상은 한국어의 [아, 어, 오, 우, 으, 이, 애, 에]의 8 개의 단모음으로 하였다. 사용한 인공 신경망 모델은 Multilayer Perceptron 이며, 학습 규칙은 Generalized Delta Rule 이다. 1 인의 남성 화자에 대하여 약 94%의 인식율을 나타내었다. 그리고 음성 인식시의 인지 현상 실험을 위하여 약 20개의 단어를 인공신경망의 어휘레벨에 저장하여 음성의 왜곡, 인지시의 lexical 영향, categorical percetion등을 실험하였다. 이때의 인공 신경망 모델은 Interactive Activation and Competition Model을 사용하였으며, 음성 입력으로는 가상의 음성 피쳐 데이타를 사용하였다.
PDF

An Architecture of Call Controller using Database on the Converged-LAN System (통합 LAN 시스템에서 데이터베이스를 활용한 호 제어기 구조)

박미룡;이규호
- Proceedings of the Korean Institute of Information and Commucation Sciences Conference
- /
- 2002.05a
- /
- pp.152-156
- /
- 2002
인터넷 기반의 전화서비스 연구가 진행이 되면서, 음성과 데이터의 통합을 이루고자 하는 연구가 진행이 되었으며, 기존 데이터 통신망은 통합된 망 환경으로 진화하게 되었다. 통합망에서 음성 서비스를 위한 호 제어기는 다양한 단말의 요구 조건을 수용하여야 하며, 특히 음성 서비스 제어를 위한 표준화된 프로토콜들을 수용할 수 있어야 한다. 본 논문에서는 통합망에서 다양한 프로토콜을 수용할 수 있는 통합망 호 제어기의 구조를 제시한다. 특히 데이터베이스 관리 시스템을 이용하여 망 관리 정보기반의 호 제어기를 설계하며, 망 관리 정보를 바탕으로 호 제어기 기능 블록들이 운용이 되도록 설계한다. 본 연구의 결과로 제시된 통합 호 제어기의 모델을 바탕으로 구내망의 호 제어기를 개발하고자한다.
PDF

Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks (신경망 기반 음성, 영상 및 문맥 통합 음성인식)

김명원;한문성;이순신;류정우
- Journal of the Institute of Electronics Engineers of Korea CI
- /
- v.41 no.3
- /
- pp.67-77
- /
- 2004
The recent research has been focused on fusion of audio and visual features for reliable speech recognition in noisy environments. In this paper, we propose a neural network based model of robust speech recognition by integrating audio, visual, and contextual information. Bimodal Neural Network(BMNN) is a multi-layer perception of 4 layers, each of which performs a certain level of abstraction of input features. In BMNN the third layer combines audio md visual features of speech to compensate loss of audio information caused by noise. In order to improve the accuracy of speech recognition in noisy environments, we also propose a post-processing based on contextual information which are sequential patterns of words spoken by a user. Our experimental results show that our model outperforms any single mode models. Particularly, when we use the contextual information, we can obtain over 90% recognition accuracy even in noisy environments, which is a significant improvement compared with the state of art in speech recognition. Our research demonstrates that diverse sources of information need to be integrated to improve the accuracy of speech recognition particularly in noisy environments.
PDF KSCI

Search Result 876, Processing Time 0.03 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)