• 제목/요약/키워드: Spectrogram

검색결과 233건 처리시간 0.024초

말소리장애 아동이 산출한 이중모음의 음향학적 특성 (Acoustic features of diphthongs produced by children with speech sound disorders)

  • 조윤수;표화영;한진순;이은주
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.65-72
    • /
    • 2021
  • 본 연구의 목적은 말소리장애 아동이 산출하는 이중모음의 특성을 파악하여 평가 및 중재에 활용할 수 있는 기초 자료를 마련하는 것이다. 현재까지 말소리장애 아동의 이중모음 산출 특성에 관한 음향학적 연구는 미비하였다. 이에 말소리장애 아동과 일반 아동을 대상으로 집단 간 이중모음 산출 특성의 차이를 파악하고자 하였다. 이를 위해 각 10명의 만 4-5세 말소리장애와 일반 아동을 대상으로, 무의미 2음절 '이중모음+다'를 모방하도록 하였다. 산출된 이중모음의 활음 구간 내 제1, 2 포먼트 기울기, 포먼트 변화량, 활음 지속시간을 Praat(version 6.1.16)을 이용해 분석하였다. 연구 결과, 두 집단 간 /유/의 F1 기울기에 집단 간 유의한 차이가 있었다. 또한, 말소리장애 아동이 일반 아동에 비해 전반적으로 작은 포먼트 변화량과 더 짧은 활음 지속시간을 보였다. 유의한 포먼트 변화량의 집단 간 차이는 /유, 예/의 F1과 /야, 예/의 F2에서 나타났으며, 유의한 활음 지속시간의 차이는 /유, 예/에서 나타났다. 본 연구의 결과는 말소리장애 아동이 이중모음을 조음하는 범위가 일반 아동보다 상대적으로 작아 그만큼 조음하는데 걸리는 시간이 줄었음을 보여준다. 이러한 점은 말소리장애 아동의 이중모음에 관한 평가와 중재를 할 때 말소리장애 아동의 조음 범위를 고려해야 하며, 이에 음향학적 도구를 활용하는 것이 필요함을 뒷받침한다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.