• 제목/요약/키워드: 음성기반

검색결과 2,238건 처리시간 0.03초

음성합성시 에너지 정규화가 음질에 미치는 영향 (Effect of Energy Normalization on the Quality of Synthetic Speech)

  • 정은석;최의선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF

응급구조 음향데이터 분석을 위한 Gabor 필터뱅크 기반의 특징추출 알고리즘에 대한 연구 (A study on Gabor Filter Bank-based Feature Extraction Algorithm for Analysis of Acoustic data of Emergency Rescue)

  • 황인영;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1345-1347
    • /
    • 2015
  • 본 논문에서는 응급상황이 신고되는 상황에서 수보자에게 전달되는 신고자의 주변음향신호로부터 신고자의 주변상황을 추정하기 위하여 음향의 주파수적 특성 및 변화특성의 모델링 성능이 뛰어난 Gabor 필터뱅크 기반의 특징벡터 추출 기술 및 분류 성능이 뛰어난 심화신경망을 도입한다. 제안하는 Gabor 필터뱅크 기반의 특징벡터 추출 기법은 비음성 구간 검출기를 통하여 음성/비음성을 구분한 후에 비음성 구간에서 23차의 Mel-filter bank 계수를 추출한 후에 이로부터 Gabor 필터를 이용하여 주변상황 추정을 위한 특징벡터를 추출하고, 이로부터 학습된 심화신경망을 통하여 신고자의 장소적 정보를 추정한다. 제안된 기법은 여러 가지 시나리오 환경에서 평가되었으며, 우수한 분류성능을 보였다.

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

분산형 시스템을 적용한 음성합성에 관한 연구 (A Study on Speech Synthesizer Using Distributed System)

  • 김진우;민소연;나덕수;배명진
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.209-215
    • /
    • 2010
  • 최근 광대역 무선 통신망의 보급과 소형 저장매체의 대용량화로 인하여 이동형 단말기가 주목 받고 있다. 이로 인해 이동형 단말기에 문자정보를 청취할 수 있도록 문자를 음성으로 변환해 주는 TTS(Text-to-Speech) 기능이 추가되고 있다. 사용자의 요구사항은 고음질의 음성합성이지만 고음질의 음성합성은 많은 계산량이 필요하기 때문에 낮은 성능의 이동형 단말기에 는 적합하지 않다. 본 논문에서 제안하는 분산형 음성합성기 (DTTS)는 고음질 음성합성이 가능한 코퍼스 기반 음성합성 시스템을 서버와 단말기로 나누어 구성한다. 서버 음성합성 시스템은 단말기에서 전송된 텍스트를 데이터베이스 검색 후 음성파형 연결정보를 생성하여 단말기로 전송하고, 단말기 음성합성 시스템은 서버 음성합성 시스템에서 생성된 음성파형 연결정보와 단말기에 존재하는 데이터베이스를 이용하여 간단한 연산으로 고음질 합성음을 생성할 수 있는 시스템이다. 제안하는 분산형 합성기는 단말기에서의 계산량을 줄여 저가의 CPU 사용, 전력소모의 감소, 효율적인 유지보수를 할 수 있도록 하는 장점이 있다.

기계학습 기반의 장애 음성 검출 시스템 (Machine Learning based Speech Disorder Detection System)

  • 정준영;김기백
    • 방송공학회논문지
    • /
    • 제22권2호
    • /
    • pp.253-256
    • /
    • 2017
  • 본 논문에서는 기계학습 기반의 분류 방법을 이용하여 장애 음성을 검출하고자 한다. 음성 장애 중 마비말 장애는 뇌성마비, 파킨슨 질환, 뇌졸중 등 주로 뇌질환에 의해 발생하는 것으로 알려져 있다. 이러한 장애 음성을 검출함으로써 뇌졸중 등의 급성 뇌질환 발생에 대한 조기 처치가 가능하다. 장애 음성 검출은 입력 음성에 대한 특징벡터 추출과 기계학습을 이용한 분류과정을 통해 이루어질 수 있다. 실험을 위해서 장애 음성 DB인 TORGO 데이터를 사용하였으며, 10가지 기계학습 알고리즘과 다양한 특징벡터 스케일링 방법에 대해 장애 음성 검출 성능을 평가하였다.

음향음성학 파라미터를 사용한 비음 위치 검출 (Nasal Place Detection with Acoustic Phonetic Parameters)

  • 이석명;최정윤;강홍구
    • 한국음향학회지
    • /
    • 제31권6호
    • /
    • pp.353-358
    • /
    • 2012
  • 논문은 지식기반의 음성인식 시스템에서 비음 위치를 검출하기 위한 음향음성학적 파라미터를 제시하였다. 음향음성학적 파라미터는 앞선 연구자들의 연구내용을 토대로 비강을 통해 음성이 발성될 때 나타나는 특징을 기반으로 하여 선별하였다. 선별된 파라미터들은 대역별 에너지 비율, 대역별 에너지의 차이, 포먼트 그리고 포먼트의 차이로써, 비음 위치에 따라 변화하는 조음기관의 영향을 잘 나타내 주었다. 이러한 음향음성학 파라미터를 이용하여 비음을 순비음(/m/), 치경비음(/n/), 그리고 연구개비음(/ng/)으로 나누는 실험을 진행하였고, TIMIT 데이터베이스로 실험하였을 때 57.5%의 검출률을 얻을 수 있었다.

음성감정인식 성능 향상을 위한 트랜스포머 기반 전이학습 및 다중작업학습 (Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition)

  • 박순찬;김형순
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.515-522
    • /
    • 2021
  • 음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 훈련 데이터를 통한 전이학습을 적용한다. 또한 음성인식과의 다중작업학습을 통해 별도의 디코딩 없이 문맥 정보를 활용하는 방법을 제안한다. IEMOCAP 데이터 셋을 이용한 음성감정인식 실험을 통해, 가중정확도 70.6 % 및 비가중정확도 71.6 %를 달성하여, 제안된 방법이 음성감정인식 성능 향상에 효과가 있음을 보여준다.

궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기 (Voice Activity Detection Based on Discriminative Weight Training with Feedback)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.443-449
    • /
    • 2008
  • 이동통신에서 배경잡음이 존재하는 실제 환경에서 음성신호처리의 가장 중요한 이슈중의 하나는 강인한 음성검출기를 설계하는 것이다. 상대적으로 간단하면서도 성능이 우수하여 대표적인 음성검출기로 사용되는 통계적모델기반 기법은 각 주파수 채널별 우도비를 이용하여 음성검출 검출식을 만들어내는 방식이다. 최근, 변별적 가중치 학습 (discriminative weight training)을 이용하여 주파수 체널별 가중치가 인가된 우도비를 이용한 음성검출 결정식을 갖는 음성검출기가 제안 되었으며 상대적으로 우수한 성능을 보였다. 본 연구에서는 기존의 변별적 가중치 학습의 입력벡터에 이전프레임의 결정식을 궤환구조형태를 바탕으로 추가하는 새로운 방식을 제안한다. 제안된 기법은 비정상 (non-staionary) 잡음 환경에서 객관적인 방법을 통해 상호비교 분석되었으며 결론적으로 우수한 성능을 보였다.

강인한 음성향상을 위한 Minimum Statistics와 Soft Decision의 확률적 결합의 새로운 잡음전력 추정기법 (A Probabilistic Combination Method of Minimum Statistics and Soft Decision for Robust Noise Power Estimation in Speech Enhancement)

  • 박윤식;장준혁
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.153-158
    • /
    • 2007
  • 본 논문에서는 비정상적인 잡음 환경에서 음성향상을 위한 새로운 잡음 추정 기법을 제시한다. 제안된 방법은 잡음 전력 추정을 위해 주파수 채널별 음성부재확률 (SAP, Speech Absence Probability)을 선택적 가중 파라미터로 적용하여 음성 구간에서는 기존의 Minimum Statistics (MS)에 의한 잡음전력 추정치에 비중을 두고 비음성 구간에서는 Soft Decision (SD)에 기반한 잡음전력 추정치를 선택하도록 기존의 알고리즘을 결합한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에서 음성향상기법에 적용하여 주관적인 음질평가 결과에 의해 평가하여 기존의 MS 또는 SD에 기반한 방법보다 향상된 결과를 나타내었다.

분산 메모리 다중 프로세서 상에서의 병렬 음성인식 (Parallel Speech Recognition on Distributed Memory Multiprocessors)

  • 윤지현;홍성태;정상화;김형순
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.747-749
    • /
    • 1998
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬 계산 모델을 제안한다. 음소모델은 continuous HMM에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 knowledge-based approach를 사용한다. 또한 계층구조의 지식베이스상에서 다수의 가설을 처리하기 위해 memory-based parsing기술을 사용하였다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험을 통하여 음성인식 과정에서 발생하는 speech-specific problem의 해를 제공하고 음성인식 시스템의 병렬화를 통하여 실시간 음성인식의 가능성을 보여준다.

  • PDF