• Title/Summary/Keyword: Speech Database

Search Result 332, Processing Time 0.034 seconds

Trend on the Speech Database of SAMSUNG Advanced Institute of Technology (SAIT) (삼성종합기술원의 음성 DB 구축현황)

  • 김상룡
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.283-284
    • /
    • 1995
  • 삼성종합기술원의 음성 인식, 합성 분야의 음성 데이터 베이스 구축 현황과 향후 연구 방향에 대하여 기술한다. 삼성종합기술원에서는 1989년 한국어 문음 변환기술 개발을 시작하여 그 동안 남성음, 여성음 합성 시스템을 발표하였고, 최근에는 시각장애자용 컴퓨터를 개발하여 전국 13개 시각 장애자 학교에 기정한 바 있다. 음성 인식 분야는 100 단어 내외으 소용량 화자 종속 시스템을 개발하여 키폰용 음성인식 다이얼 장치를 실용화하였다. 약 5년여에 걸친 연구 결과 자체적으로 구축하게 된 음성 DB는 크게 남, 여 합성용 DB와 인식용 DB로 요약할 수 있다. 이러한 경험을 바탕으로 향후 국내외 대학, 연구소 등과 공동연구를 통해 상품화 수준의 문음 변환기술과 대용량, 화자독립 음성인식 시스템을 개발하고자 한다. 궁극적으로는 휴대용 통역기의 요소 기술을 확보하여 제한된 영역에서 자동 통역기를 상품화하는데 이바지할 계획이다.

  • PDF

Current Status of Speech Database at ETRI (ETRI의 음성데이타베이스 구축현황)

  • 이영직
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.265-271
    • /
    • 1995
  • 한국전자통신연구소의 음성 데이터베이스 구축 현황을 기술한다. 현재 한국전자통신연구소에서는 음성인식 연구를 위해 단어음성, 정형 문장 음성 등의 데이터베이스를 구축, 보유하고 있다. 음성인식용 데이터베이스는 정해진 단어, 분장을 20명 내지 100명이 발성한 것으로, 일부는 음소 단위까지 레이블링이 되어 있다. 또 음성합성 연구를 위해 합성단위 및 운율데이타베이스를 가지고 있는데 이는 한 명 혹은 남녀 각각 3명이 발성한 것으로, 일부는 피치 등이 수록되어 있다. 문장 데이터베이스는 언어 정보처리를 위해 교재, 문학, 경제, 과학 분야의 문장을 총 480만 어절 가지고 있으며, 이 중 일부에 품사 정보를 추가하였다. 한국전자통신연구소는 국내 음성 연구의 발전에 기여하고자 음성 연구의 기반 자료가 되는 음성 데이터베이스를 국내 대학 및 산업체에 배포하고 있다 음성 데이터베이스는 음성 연구의 기반이 되는 자료임에도 불구하고 많은 비용과 노력이 들어 일반 대학에서는 쉽게 만들 수 없었다. 이에 ETRI는 한국통신이 출연한 "자동통역 요소기술개발" 과제으 LQNTKSANF인 여러 종류의 음성 데이터베이스와 관련 프로그램을 공급하여 국내 음성 연구의 기반 확립에 기여하고자 한다. 기여하고자 한다.

  • PDF

Recognition of Noise Quantity by Neural Network using Linear Predictive Coefficient (선형예측계수를 사용한 신경회로망에 의한 잡음량의 인식)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.10a
    • /
    • pp.379-382
    • /
    • 2008
  • In order to reduce the noise quantity in a conversation under the noisy environment, it is necessary for the signal processing system to process adaptively according to the noise quantity in order to enhance the performance. There fore this paper presents a recognition method for noise quantity by linear predictive coefficient using a three layered neural network, which is trained using three kinds of speech that is degraded by various background noises. In the experiment, the average values of the recognition results were 97.6% or more for various noises using Aurora2 database.

  • PDF

The storage structure and retrieval mechanism for korean speech database (한국어 음성 데이타베이스의 저장 구조와 검색 기법)

  • Song, Gun-Seop;Park, Yeong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.321-330
    • /
    • 1991
  • 기존의 데이타베이스에 음성 데이타를 저장하여 음성 데이타 베이스를 구축하고자 할 경우, 음성 데이타의 특성이 가변장(variable length)이며, 튜플(음소 단위)의 길이가 매우 긴 패턴 데이타이므로 기존의 데이타베이스 시스템에서는 지원할 수 없다. 또, 현재의 음성 인식 시스템에서는 패턴 데이타를 순차적인 검색 방법으로 검색하고 있어 빠른 검색 방법이 요구된다. 본 논문에서는 음성 데이타를 음소 단위로 인식하기 위해 음소 패턴 데이타를 저장하고, 유사한 특성을 갖는 부류와 음소 길이에 의한 분류를 혼합한 방법을 이용하여 빠른 시간에 검색을 할 수 있게 하기 위한 저장 구조와 검색 알고리즘을 제시한다.

  • PDF

Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks

  • Farhadipour, Aref;Veisi, Hadi;Asgari, Mohammad;Keyvanrad, Mohammad Ali
    • ETRI Journal
    • /
    • v.40 no.5
    • /
    • pp.643-652
    • /
    • 2018
  • Dysarthria is a degenerative disorder of the central nervous system that affects the control of articulation and pitch; therefore, it affects the uniqueness of sound produced by the speaker. Hence, dysarthric speaker recognition is a challenging task. In this paper, a feature-extraction method based on deep belief networks is presented for the task of identifying a speaker suffering from dysarthria. The effectiveness of the proposed method is demonstrated and compared with well-known Mel-frequency cepstral coefficient features. For classification purposes, the use of a multi-layer perceptron neural network is proposed with two structures. Our evaluations using the universal access speech database produced promising results and outperformed other baseline methods. In addition, speaker identification under both text-dependent and text-independent conditions are explored. The highest accuracy achieved using the proposed system is 97.3%.

Performance Assessment of Several Established Pitch Detection Algorithms in Voices of Benign Vocal Fold Lesions (양성후두 질환 음성에 대한 여러 기존 피치검출 알고리즘의 성능 평가)

  • Jang, Seung-Jin;Choi, Seong-Hee;Kim, Hyo-Min;Choi, Hong-Shik;Yoon, Young-Ro
    • Proceedings of the IEEK Conference
    • /
    • 2007.07a
    • /
    • pp.407-408
    • /
    • 2007
  • Robust pitch estimation is an important study in many areas of speech processing. In voice pathology, diverse statistics extracted form pitch were commonly used to test voice quality. In this study, we compared several established pitch detection algorithms (PDAs) for verification of adequacy of the PDAs. In the database of total pathological voices of 99 and normal voices of 30, an analysis of errors related with pitch detection was evaluated between pathological and normal voices, or among the types of pathological voices such as benign vocal fold lesions; polyp, nodule, and cysts. Consequently, it is required to survey the severity of tested voice in order to obtain accurate pitch estimates.

  • PDF

A Situation-Based Dialogue Management with Dialogue Examples (대화 예제를 이용한 상황 기반 대화 관리 시스템)

  • Lee, Cheon-Jae;Jung, Sang-Keun;Lee, Geun-Bae
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.113-115
    • /
    • 2005
  • In this paper, we present POSSDM (POSTECH Situation-Based Dialogue Manager) for a spoken dialogue system using a new example and situation-based dialogue management techniques for effective generation of appropriate system responses. Spoken dialogue system should generate cooperative responses to smoothly control dialogue flow with the users. We introduce a new dialogue management technique incorporating dialogue examples and situation-based rules for EPG (Electronic Program Guide) domain. For the system response inference, we automatically construct and index a dialogue example database from dialogue corpus, and the best dialogue example is retrieved for a proper system response with the query from a dialogue situation including a current user utterance, dialogue act, and discourse history. When dialogue corpus is not enough to cover the domain, we also apply manually constructed situation-based rules mainly for meta-level dialogue management.

  • PDF

Improved Error Backpropagation by Elastic Learning Rate and Online Update (가변학습율과 온라인모드를 이용한 개선된 EBP 알고리즘)

  • Lee, Tae-Seung;Park, Ho-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.568-570
    • /
    • 2004
  • The error-backpropagation (EBP) algerithm for training multilayer perceptrons (MLPs) is known to have good features of robustness and economical efficiency. However, the algorithm has difficulty in selecting an optimal constant learning rate and thus results in non-optimal learning speed and inflexible operation for working data. This paper Introduces an elastic learning rate that guarantees convergence of learning and its local realization by online upoate of MLP parameters Into the original EBP algorithm in order to complement the non-optimality. The results of experiments on a speaker verification system with Korean speech database are presented and discussed to demonstrate the performance improvement of the proposed method in terms of learning speed and flexibility fer working data of the original EBP algorithm.

  • PDF

High Performance MLP-based Speaker Verification System (MLP에 기반한 고성능 화자증명 시스템)

  • Lee, Tae-Seung;Park, Ho-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.571-573
    • /
    • 2004
  • Speaker verification systems based on multilayer perceptrons (MLPs) have good prospects in reliability and flexibility required as a successful authentication system. However, the poor learning speed of the error backpropagation (EBP) which is representative learning method of MLPs is the major defect to be complemented to achieve real-time user enrollments. In this paper, we implement an MLP-based speaker verification system and apply the existing two methods of the omitting patterns in instant learning (OIL) and the discriminative cohort speakers (DCS) to approach real-time enrollment. An evaluation of the system on a Korean speech database demonstrates the feasibility of the system as a speaker verification system of high performance.

  • PDF

A Development of an URL Navigator using Speech Recognition (음성인식을 이용한 URL Navigator 개발)

  • Jeon, Han-Gil;Hong, In-Suk;Kim, Yoon-Joong
    • Annual Conference of KIPS
    • /
    • 2009.04a
    • /
    • pp.122-125
    • /
    • 2009
  • 기존의 인터넷 익스플로러는 높은 보급률의 이점을 지니고 있지만 인터넷을 이용하기 위한 기본지식의 필요성과 키보드, 마우스와 같은 장치를 이용한 입력방식은 장애인 및 고령층의 사용자들이 이용하기에는 불편하다. 이와 같은 문제점을 해결하고자 본 논문에서는 웹 서비스 기술을 이용하여 기존의 음성인식 시스템을 웹 서비스로 재구성하고 클라이언트가 음성인식 웹 서비스를 요청하고 음성명령이 가능하도록 인터넷 익스플로러에 음성명령이 가능한 Navigaotr를 Toolbar 형태의 프로그램을 구현하였다. 본 시스템은 클라이언트가 사용하는 음성 Navigator Toolbar와 웹 서비스를 통해서 음성 서비스를 제공하는 음성 서비스 프로바이더로 구성된다. 음성 Navigator Toolbar는 인터넷 환경에서 음성데이터를 바이너리 포맷형식인 DIME을 이용하여 음성 서비스 프로바이더로 전송하고 반환 결과를 가지고 URL Navigator를 통해 인터넷 페이지를 이동시킨다. 음성 서비스 프로바이더는 사용자가 전송한 음성데이터를 인식기를 통해 인식하고 결과를 가지고 정보 Database를 검색하여 실제 인터넷 주소를 사용자에게 반환한다.