• 제목/요약/키워드: Spectrogram

검색결과 236건 처리시간 0.022초

케이지 내 사육 공간의 차이에 따른 산란계의 음성 특성 (Characteristics of Vocalizations of Laying Hen Related with Space in Battery Cage)

  • 손승훈;신지혜;김민진;강정훈;임신재;백인기
    • Journal of Animal Science and Technology
    • /
    • 제51권5호
    • /
    • pp.421-426
    • /
    • 2009
  • 본 연구는 산란계의 사육공간의 크기별 발성음의 특성을 파악하기 위해 하이라인브라운(Hy-Line Brown) 80주령의 산란계를 대상으로 2008년 10월부터 2009년 2월까지의 기간 동안 발성음을 수집 및 녹음하였다. 산란계의 사육 케이지는 무항생제 축산물 사육밀도조건을 만족하는 0.0231 $m^3$ (0.3m ${\times}$ 0.14m ${\times}$ 0.55m)을 개체당 사육공간의 기준(control)으로 하고, 좁은 공간(small, 0.21m ${\times}$ 0.14m ${\times}$ 0.55m)과 넓은 공간(large, 0.3m ${\times}$ 0.3m ${\times}$ 0.55m) 등의 3가지 유형으로 구분하였다. 하루 3회, 각각 1시간씩 디지털 녹음기(PMD-650, Marantz)와 마이크(MKH 416P48, RF Condenser Mic.)를 이용하여 발성음을 녹음하여 분석을 실시하였다. 발성음의 스펙트로그램을 비교한 결과 케이지의 크기별로 차이가 있는 것으로 나타났으며, 스펙트럼을 비교한 결과 역시 차이가 있었다. 또한 발성음의 주파수, 강도 및 길이 역시 통계적으로 유의한 차이를 나타내었다. 본 연구를 통해 산란계의 사육공간과 발성음 사이에는 깊은 관련이 있었으며, 사육공간에 의한 스트레스의 정도를 파악하기 위해 발성음은 매우 유용할 것으로 판단된다.

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

CW 레이다 기반 사람 행동 인식 시스템 설계 및 구현 (Design and Implementation of CW Radar-based Human Activity Recognition System)

  • 남정희;강채영;국정연;정윤호
    • 한국항행학회논문지
    • /
    • 제25권5호
    • /
    • pp.426-432
    • /
    • 2021
  • CW (continuous wave) 도플러 레이다는 카메라와 달리 사생활 침해 문제를 해결할 수 있고, 비접촉 방식으로 신호를 얻을 수 있다는 장점이 있다. 따라서, 본 논문에서는 CW 도플러 레이다를 이용한 사람 행동 인식 시스템을 제안하고, 가속을 위한 하드웨어 설계 및 구현 결과를 제시한다. CW 도플러 레이다는 사람의 연속된 동작에 대한 신호를 측정한다. 이에, 동작 분류를 위한 단일 스펙트로그램을 얻기 위해 운동 동작의 횟수를 세는 기법을 제안하였다. 또한, 연산의 복잡도와 메모리 사용량을 최소화하기 위해 동작 분류에 BNN (binarized neural network)을 사용하였고, 검증 결과 94%의 정확도를 보임을 확인하였다. BNN의 복잡한 연산을 가속하기 위해 FPGA를 이용하여 BNN 가속기가 설계 및 구현되었다. 제안된 사람 행동 인식 시스템은 logic 7,673개, register 12,105개, combinational ALUT (adaptive look up table) 10,211개, block memory 18.7 Kb를 사용하여 구현되었으며, 성능 평가 결과 소프트웨어 구현 대비 연산 속도가 99.97% 향상되었다.

말소리장애 아동이 산출한 이중모음의 음향학적 특성 (Acoustic features of diphthongs produced by children with speech sound disorders)

  • 조윤수;표화영;한진순;이은주
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.65-72
    • /
    • 2021
  • 본 연구의 목적은 말소리장애 아동이 산출하는 이중모음의 특성을 파악하여 평가 및 중재에 활용할 수 있는 기초 자료를 마련하는 것이다. 현재까지 말소리장애 아동의 이중모음 산출 특성에 관한 음향학적 연구는 미비하였다. 이에 말소리장애 아동과 일반 아동을 대상으로 집단 간 이중모음 산출 특성의 차이를 파악하고자 하였다. 이를 위해 각 10명의 만 4-5세 말소리장애와 일반 아동을 대상으로, 무의미 2음절 '이중모음+다'를 모방하도록 하였다. 산출된 이중모음의 활음 구간 내 제1, 2 포먼트 기울기, 포먼트 변화량, 활음 지속시간을 Praat(version 6.1.16)을 이용해 분석하였다. 연구 결과, 두 집단 간 /유/의 F1 기울기에 집단 간 유의한 차이가 있었다. 또한, 말소리장애 아동이 일반 아동에 비해 전반적으로 작은 포먼트 변화량과 더 짧은 활음 지속시간을 보였다. 유의한 포먼트 변화량의 집단 간 차이는 /유, 예/의 F1과 /야, 예/의 F2에서 나타났으며, 유의한 활음 지속시간의 차이는 /유, 예/에서 나타났다. 본 연구의 결과는 말소리장애 아동이 이중모음을 조음하는 범위가 일반 아동보다 상대적으로 작아 그만큼 조음하는데 걸리는 시간이 줄었음을 보여준다. 이러한 점은 말소리장애 아동의 이중모음에 관한 평가와 중재를 할 때 말소리장애 아동의 조음 범위를 고려해야 하며, 이에 음향학적 도구를 활용하는 것이 필요함을 뒷받침한다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.