• 제목/요약/키워드: 스펙트로그램

검색결과 136건 처리시간 0.027초

표준어와 경상 지역 방언의 한국어 모음 발음에 따른 영어 모음 발음의 영향에 대한 연구 (Influence of standard Korean and Gyeongsang regional dialect on the pronunciation of English vowels)

  • 장수연
    • 말소리와 음성과학
    • /
    • 제13권4호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문의 목적은 한국어 표준어와 경상 지역 방언의 한국어 모음 발음의 영어 모음 발음에 대한 영향을 연구하는데 있다. 데이터 자료는 한국인의 영어 발음 음성 코퍼스(Korean-Spoken English Corpus, K-SEC)를 활용하였다. 이중 일곱 개의 한국어 단모음이 포함된 단어와 열 개의 영어 단모음이 포함된 단어가 선정되어 분석되었다. 선정된 자료는 외국 거주 경험이 없는 성인 남성 표준어 화자와 경상 지역 방언 화자에 의해 발화되었다. 녹음된 코퍼스 자료의 포먼트 주파수는 음성 분석 프로그램인 Praat에서 제공하는 스펙트로그램을 통해 측정되었다. 녹음된 자료들은 포먼트 구역 그래프로 나타내어 분석되었다. 결과에 의하면, 한국어와 영어 모음의 발화에서 경상 지역 방언 화자가 강한 후설성을 보인 반면에 표준어 화자는 비교적 전설성이 강하게 나타났다. 또한, 표준어와 경상 지역 방언의 한국어 모음 발음 차이 (/으/, /어/)는 대치되는 영어 모음 발음(/ə/, /ʊ/)의 조음 방식에 영향을 미쳤다. 지역 방언의 사용과 무관한 한국인의 일반적인 모음 발음 특징은 영어 원어민 화자보다 조음 구역이 좁다는 것이다. 이에 한국인은 전반적으로 긴장 모음과 이완 모음을 구별하는 데 어려움이 있지만, 영어 원어민 화자는 모음 조음에 명확한 구분이 있다.

관성 측정 센서를 활용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템 설계 및 구현 (Design and Implementation of BNN-based Gait Pattern Analysis System Using IMU Sensor)

  • 나진호;지기산;정윤호
    • 한국항행학회논문지
    • /
    • 제26권5호
    • /
    • pp.365-372
    • /
    • 2022
  • 관성 측정 센서는 사람 행동 인식 시스템에 주로 사용되는 센서들에 비해 크기가 작고 가벼우며 낮은 비용으로 시스템의 경량화를 달성할 수 있다. 따라서, 본 논문에서는 관성 측정 센서를 이용한 이진 신경망 기반 걸음걸이 패턴 분석 시스템을 제안하고, 연산 가속을 위한 FPGA 기반 가속기 설계 및 구현 결과를 제시한다. 관성 측정 센서를 통해 걸음걸이에 대한 6가지 신호를 측정하고, 단시간 푸리에 변환을 이용하여 스펙트로그램을 추출한다. 높은 정확도를 가지는 경량화 시스템을 갖추기 위해 걸음걸이 패턴 분류에 BNN (binarized neural network) 기반 구조를 사용하였고, 검증 결과 97.5%의 높은 정확도와 메모리 사용량이 합성곱 신경망에 비해 96.7% 감소한 것을 확인하였다. 이진 신경망의 연산 가속을 위해 FPGA를 이용한 하드웨어 가속기 구조로 설계하였다. 제안된 걸음걸이 패턴 분석 시스템은 24,158개의 logic, 14,669개의 register, 13.687 KB의 block memory를 사용하여 구현되어 62.35 MHz의 최대 동작 주파수에서 1.5ms 내에 연산이 완료되어 실시간 동작이 가능함을 확인하였다.

Parallel Network Model of Abnormal Respiratory Sound Classification with Stacking Ensemble

  • Nam, Myung-woo;Choi, Young-Jin;Choi, Hoe-Ryeon;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.21-31
    • /
    • 2021
  • 최근 코로나(Covid-19)의 영향으로 스마트 헬스케어 관련 산업과 비대면 방식의 원격 진단을 통한 질환 분류 예측 연구의 필요성이 증가하고 있다. 일반적으로 호흡기 질환의 진단은 비용이 많이 들고 숙련된 의료 전문가를 필요로 하여 현실적으로 조기 진단 및 모니터링에 한계가 있다. 따라서, 간단하고 편리한 청진기로부터 수집된 호흡음을 딥러닝 기반 모델을 활용하여 높은 정확도로 분류하고 조기 진단이 필요하다. 본 연구에서는 청진을 통해 수집된 폐음 데이터를 이용하여 이상 호흡음 분류모델을 제안한다. 데이터 전처리로는 대역통과필터(BandPassFilter)방법론을 적용하고 로그 멜 스펙트로그램(Log-Mel Spectrogram)과 Mel Frequency Cepstral Coefficient(MFCC)을 이용하여 폐음의 특징적인 정보를 추출하였다. 추출된 폐음의 특징에 대해서 효과적으로 분류할 수 있는 병렬 합성곱 신경망 네트워크(Parallel CNN network)모델을 제안하고 다양한 머신러닝 분류기(Classifiers)와 결합한 스태킹 앙상블(Stacking Ensemble) 방법론을 이용하여 이상 호흡음을 높은 정확도로 분류하였다. 본 논문에서 제안한 방법은 96.9%의 정확도로 이상 호흡음을 분류하였으며, 기본모델의 결과 대비 정확도가 약 6.1% 향상되었다.

x-vector를 이용한 다화자 음성합성 시스템 (A Multi-speaker Speech Synthesis System Using X-vector)

  • 조민수;권철홍
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.675-681
    • /
    • 2021
  • 최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다.

중국인 학습자의 한국어 발음 오류에 대한 음성 신호 파라미터들의 비교 연구 - 한국어의 /ㄹ/ 발음을 중심으로 (A Comparison Study on the Speech Signal Parameters for Chinese Leaners' Korean Pronunciation Errors - Focused on Korean /ㄹ/ Sound)

  • 이강희;유광복;임하영
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권6호
    • /
    • pp.239-246
    • /
    • 2017
  • 본 논문은 중국인 학습자들이 많은 오류를 나타내는 한국어 /ㄹ/발음을 중심으로 중국인 학습자들의 음성 신호 파라미터들을 한국인의 것과 비교하였다. 설측음 혹은 탄설음의 변이음으로 나타나는 한국어의 /ㄹ/ 발음에 대한 중국어의 유사 발음과의 관계를 언어학적 관점에서 알아봄으로 많은 오류를 보이는 이유를 확인해 보았다. 본 논문에서는 신호의 에너지, 시간 영역에서의 파형, 주파수 성분 분석이 가능한 스펙트로그램, 자기 상관 함수를 이용해 구한 피치 (F0), 포먼트 주파수 (f1, f2, f3, 그리고 f4) 등을 사용하여서 음성학적 측면에서 비교 분석 하였다. 본 논문에서 사용한 데이터는 국어학적 분석을 통한 제시어로 구성한 것을 사용하였고 이를 시뮬레이션 하였다. 에너지와 spectrogram 분석의 결과를 보면, 중국인 학습자는 한국어 /ㄹ/ 발음에서 한국인 화자들과 많은 차이를 보인다. 이외의 다른 음성 신호 파라미터들에서도 차이가 나는 것을 알 수 있다. 본 논문이 비교한 파라미터들을 이용하여서 중국인 화자가 한국어 학습시 나타나는 오류들을 상당히 줄일 수 있을 것으로 기대할 수 있다.

음성 향상에서 강인한 새로운 선행 SNR 추정 기법에 관한 연구 (A Novel Approach to a Robust A Priori SNR Estimator in Speech Enhancement)

  • 박윤식;장준혁
    • 한국음향학회지
    • /
    • 제25권8호
    • /
    • pp.383-388
    • /
    • 2006
  • 본 논문에서는 잡음 환경에서 단일 마이크로폰의 음성 향상에 대한 새로운 기법을 제시했다. 일반적으로 널리 알려진 스펙트럼 차감법에 근거한 음성 향상 기술은 신호 대 잡음비에 따른 스펙트럼 이득으로 표현된다. 대표적인 Ephraim과 Malah의 decision-directed (DD) 추정치는 잡음 구간에서 효율적으로 뮤지컬 잡음을 제거하지만 음성 구간에서는 이전 프레임의 음성 스펙트럼 성분에 더 큰 비중을 두기 때문에 a priori SNR의 프레임 지연이 발생한다. 따라서 DD에 의해 추정된 a priori SNR이 적용된 잡음 제거 이득은 현재 프레임보다 이전 프레임에 영향을 받으므로 음성 전이 구간에서 잡음 제거 성능을 저하시킨다. 본 논문은 DD의 가중치 파라미터에 Sigmoid Type의 함수를 적용하여 계산적으로는 간단하지만 효과적인 음성 향상 알고리즘을 제안한다. 제안된 접근 방식은 DD의 주요 파라미터인 a priori SNR 지연의 문제점을 해결하면서 뮤지컬 잡음 제거에 우수한 DD의 이점은 유지한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에서 ITU-T P.862 Perceptual Evaluation of Speech Quality (PESQ) 와 Mean Opinion Score (MOS). 그리고 음성 스펙트로그램 (Spectrogram)에 의해 평가했고 기존의 DD의 고정된 가중치 파라미터를 사용했을 때 보다 향상된 결과를 나타내었다.