• 제목/요약/키워드: Speech Processing

검색결과 959건 처리시간 0.025초

G.733.1 MP-MLQ 고정 코드북 검색 시간 단축에 관한 연구 (The Research of Reducing the Fixed Codebook Search Time of G.723.1 MP-MLQ)

  • 김정진;장경아;목진덕;배명진;홍성훈;성유나
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.1131-1134
    • /
    • 1999
  • In general CELP type vocoders provide good speech quality around 4.8kbps. Among them, G.723.1 developed for Internet Phone and videoconferencing includes two vocoders, 5.3kbps ACELP and 6.3kbps MO-MLQ. Since 6.3kbps MP-MLQ requires large amount of computation for fixed codebook search, it is difficult to realize real time processing. In order to improve the problem this paper proposes the new method that reduces the processing time up to about 50% of codebook search time. We first decide the grid bit, then search the codebook. Grid bit is selected by comparison between synthetic speech, which is synthesized with only odd or even pulses of target vector. and DC removed original speech. As a result, we reduced the total processing time of G.723.1 MP-MLQ up to about 26.08%. In objective quality test 11.19㏈ of segSNR was obtained, and in subjective quality test there was almost no speech degradation.

  • PDF

청각보철장치를 위한 어음 발췌기의 FPGA 구현 (FPGA Implementation of Speech Processor for Cochlear Implant)

  • 박석준;홍민석;신중인;박상희
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1998년도 추계학술대회
    • /
    • pp.163-164
    • /
    • 1998
  • In this paper the digital speech processing part of cochlear implant for sensorineural disorderly patients is implemented and simulated. We implement the speech processing part by dividing into three small parts - Filterbank, Pitch Detect, and Bandmapping parts. With the result, we conclude digital speech processing algorithm is implemented in FPGA perfectly. This means that cochlear implant can be made very small size.

  • PDF

청각 장애인을 위한 음성 신호의 자극패턴 추출에 관한 연구 (A Research on Speech Processing and Coding Strategy for Cochlear Implants)

  • 채대곤;변정근;최두일;백승화;박상희
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1993년도 추계학술대회
    • /
    • pp.175-179
    • /
    • 1993
  • A Study on the speech processing and coding strategy for cochlear implants have been developed to create a speech signal processing system which extracts stimulus parameter including formants, pitch, amplitude information. In this study we have presented the method which extracts characteristic information of speech signal and adapt patients with hearing handicap.

  • PDF

PASS: A Parallel Speech Understanding System

  • Chung, Sang-Hwa
    • Journal of Electrical Engineering and information Science
    • /
    • 제1권1호
    • /
    • pp.1-9
    • /
    • 1996
  • A key issue in spoken language processing has become the integration of speech understanding and natural language processing(NLP). This paper presents a parallel computational model for the integration of speech and NLP. The model adopts a hierarchically-structured knowledge base and memory-based parsing techniques. Processing is carried out by passing multiple markers in parallel through the knowledge base. Speech-specific problems such as insertion, deletion, and substitution have been analyzed and their parallel solutions are provided. The complete system has been implemented on the Semantic Network Array Processor(SNAP) and is operational. Results show an 80% sentence recognition rate for the Air Traffic Control domain. Moreover, a 15-fold speed-up can be obtained over an identical sequential implementation with an increasing speed advantage as the size of the knowledge base grows.

  • PDF

CRFs와 TBL을 이용한 자동화된 음성인식 후처리 방법 (An Automatic Post-processing Method for Speech Recognition using CRFs and TBL)

  • 선충녕;정형일;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.706-711
    • /
    • 2010
  • 음성 인식기의 오류는 음성기반 응용 시스템들의 성능에 크게 영향을 주기 때문에 오류를 줄이기 위한 효과적인 처리 방법이 필요하다. 기존의 후처리 기법들은 수동 작업을 통한 코퍼스나 규칙으로 후처리를 수행하는 것이 일반적이다. 본 논문에서는 문제나 인식기의 특성에 무관하게 자동으로 학습할 수 있는 후처리 모델을 제안한다. 후처리의 문제를 오류의 인식과 수정으로 구분하고 오류 검출 문제는 순차적인 분류 문제로 간주하여 conditional random fields(CRFs)를 사용하고 오류 수정 규칙은 transformation-based learning(TBL)을 이용하여 자동 생성하여 적용하였다. 제안한 방법을 여행 예약 영역의 음성 인식기에 적용한 결과 삽입, 삭제, 치환 오류를 각각 25.85%, 3.57%, 7.42%을 수정하였으며, 이로 인해 인식기의 어휘 오류율을 2% 감소시킬 수 있었다.

다중신호처리를 이용한 인터렉티브 시스템 (Interactive System using Multiple Signal Processing)

  • 김성일;양효식;신위재;박남천;오세진
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.282-285
    • /
    • 2005
  • This paper discusses the interactive system for smart home environments. In order to realize this, the main emphasis of the paper lies on the description of the multiple signal processing on the basis of the technologies such as fingerprint recognition, video signal processing, speech recognition and synthesis. For essential modules of the interactive system, we adopted the motion detector based on the changes of brightness in pixels as well as the fingerprint identification for adapting home environments to the inhabitants. In addition, the real-time speech recognizer based on the HM-Net(Hidden Markov Network) and the speech synthesis were incorporated into the overall system for interaction between user and system. In experimental evaluation, the results showed that the proposed system was easy to use because the system was able to give special services for specific users in smart home environments, even though the performance of the speech recognizer was not better than the simulation results owing to the noisy environments.

  • PDF

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 (UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS)

  • 이정철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.91-98
    • /
    • 2010
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다. 그리고 클러스터링방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 청취실험 결과 높은 MOS를 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

청각 계통에서의 음성신호처리 (Speech signal processing in the auditory system)

  • 이재혁;심재성;백승화;박상희
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1987년도 한국자동제어학술회의논문집; 한국과학기술대학, 충남; 16-17 Oct. 1987
    • /
    • pp.680-683
    • /
    • 1987
  • The speech signal processing in the auditory system can be analysized based on two representations : Average discharge rate and Temporal discharge pattern. But the average discharge rate representation is restricted by the narrow dynamic range because of the rate saturation and the two tone suppression phenomena, and the temporal discharge pattern representation needs a sophisticate frequency analysis and synchrony measure. In this paper, a simple representation is proposed : using a model considering the interaction of Cochlear fluid-BM movement and a haircell model, the feature of speech signals (formant frequency and pitch of vowels) is easily estimated in the Average Synchronized Rate.

  • PDF

적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법 (Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data)

  • 신미르;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.174-180
    • /
    • 2024
  • 본 논문에서는 wav2vec 2.0과 KcELECTRA 모델을 활용하여 멀티모달 학습을 통한 감정 분류 방법을 탐색한다. 음성 데이터와 텍스트 데이터를 함께 활용하는 멀티모달 학습이 음성만을 활용하는 방법에 비해 감정 분류 성능을 유의미하게 향상시킬 수 있음이 알려져 있다. 본 연구는 자연어 처리 분야에서 우수한 성능을 보인 BERT 및 BERT 파생 모델들을 비교 분석하여 텍스트 데이터의 효과적인 특징 추출을 위한 최적의 모델을 선정하여 텍스트 처리 모델로 활용한다. 그 결과 KcELECTRA 모델이 감정 분류 작업에서 뛰어난 성능이 보임을 확인하였다. 또한, AI-Hub에 공개되어 있는 데이터 세트를 활용한 실험을 통해 텍스트 데이터를 함께 활용하면 음성 데이터만 사용할 때보다 더 적은 양의 데이터로도 더 우수한 성능을 달성할 수 있음을 발견하였다. 실험을 통해 KcELECTRA 모델을 활용한 경우가 정확도 96.57%로 가장 우수한 성능을 보였다. 이는 멀티모달 학습이 감정 분류와 같은 복잡한 자연어 처리 작업에서 의미 있는 성능 개선을 제공할 수 있음을 보여준다.

MMSE-STSA 추정치에 기반한 후처리를 갖는 마이크로폰 배열을 이용한 음성 개선 (Speech Enhancement Using Microphone Array with MMSE-STSA Estimator Based Post-Processing)

  • 권홍석;손종목;배건성
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.187-190
    • /
    • 2002
  • In this paper, a speech enhancement system using microphone array with MMSE-STSA (Minimum Mean Square Error-Short Time Spectral Amplitude) estimator based post-processing is proposed. Speech enhancement is first carried out by conventional delay-and-sum beamforming (DSB). A new MMSE-STSA estimator is then obtained by refining MMSE-STSA estimators from each microphone, which is applied to the output of conventional DSB to obtain additional speech enhancement. Computer simulation for white and pink noises show that the proposed system is superior to other approaches.

  • PDF