통합 검색 | Korea Science

멀티로터 UAV 환경에서의 CNN 기반 복소 스펙트로그램 향상 기법 (CNN based Complex Spectrogram Enhancement in Multi-Rotor UAV Environments)

김영진;김은경
- 한국정보통신학회논문지
- /
- 제24권4호
- /
- pp.459-466
- /
- 2020
멀티로터 UAV(Unmanned Aerial Vehicle)를 이용해서 수집한 음향 데이터는 모터나 프로펠러에서 발생하는 자체 소음이나 비행 중 발생하는 바람 소리 등으로 인해 음향 품질이 크게 손상되는 문제가 발생한다. 멀티로터 UAV 환경에서는 목표 음향의 크기뿐만 아니라 위상도 크게 손상되기 때문에 크기와 위상을 모두 고려해서 음향을 향상시킬 필요가 있다. 하지만 위상은 크기와 달리 구조적인 특징이 잘 나타나지 않으므로 향상시키는 것이 쉽지 않다. 따라서 본 연구에서는 크기와 위상을 모두 표현할 수 있는 복소 스펙트로그램을 기초로 잡음을 제거해서 목표 음향의 품질을 향상시키는 CNN 기반 복소 스펙트로그램 향상 방법을 제안한다.
https://doi.org/10.6109/jkiice.2020.24.4.459 인용 PDF KSCI

천해에서 측정한 선박 방사소음 스펙트로그램의 줄무늬 패턴에 나타나는 해저면 전단성 영향 (Influence of the Shear Property of Seabed Appearing in the Striation Pattern of the Spectrogram of Ship-radiated Noise Measured in a Shallow Sea)

이성욱;한주영;백운;나정열
- 한국음향학회지
- /
- 제23권3호
- /
- pp.197-205
- /
- 2004
천해에서 측정한 선박 방사소음의 거리-주파수 영역 스펙트로그램에 나타나는 줄무늬 패턴 기울기의 부호 변화 원인에 대한 분석 결과를 수록하였다. 모드 이론에 근거한 수치 모델을 이용하여 해저면 음향 특성을 변화시켜 가며 모의한 줄무늬 패턴과 분산 특성을 분석한 결과는 측정 신호에 나타나는 줄무늬 패턴 기울기의 부호 변화가 해저면의 전단성, 보다 구체적으로는 두께가 약 3±1m 정도일 것으로 예상되는 퇴적층의 하부에 존재하는 기반암의 전단성에서 기인한 특징임을 보여주었다.
PDF KSCI

음소인지에 관한 시각적 연구 (A Visual Study of the Phonemic Awareness)

박희석
- 디지털콘텐츠학회 논문지
- /
- 제16권2호
- /
- pp.219-225
- /
- 2015
본 연구는 최소짝을 이용하여 한국인 피 실험자들의 영어자모음과 반모음의 음소구별능력을 살펴본 실험적 연구이다. 음소구별능력을 알아보는 실험의 방법으로는 청해시험을 활용하였으며, 거기에서 얻어진 결과를 통해 다음의 세 가지를 확인할 수 있었다. 첫째, 피 실험자들이 영어자음음소의 구별에 비해 영어모음음소의 구별에 상대적인 어려움을 겪고 있다는 점이다. 둘째, 영어모음음소 중에서도/ə:/와 /ɔ:/의 구별에 심각한 어려움을 겪고 있음을 확인할 수 있었다. 셋째로, 반모음/w/음의 유무에 따른 구별능력에서는 피 실험자 전원이 어려움 없이 구별해내고 있었는데, 이는 반모음/w/의 유무를 단어의 발음에서 쉽게 구별하고 있음을 보여주는 증거이다. 이러한 실험의 데이터 분석을 시각화함으로써 실험결과를 영어교육현장에서 활용할 수 있도록 스펙트로그램의 그림분석을 병행하였다.
https://doi.org/10.9728/dcs.2015.16.2.219 인용 PDF KSCI

음성 분리를 위한 스펙트로그램의 마루와 골을 이용한 시간-주파수 공간에서 소리 분할 기법 (A Method of Sound Segmentation in Time-Frequency Domain Using Peaks and Valleys in Spectrogram for Speech Separation)

임성길;이현수
- 한국음향학회지
- /
- 제27권8호
- /
- pp.418-426
- /
- 2008
본 논문에서는 스펙트로그램에서 마루와 골을 이용한 주파수 채널 분할 알고리즘을 제안한다. 주파수 채널 분할 문제는 동일한 음원으로부터 발생한 음성이 포함된 주파수 채널들을 하나의 그룹으로 묶는 것을 의미한다. 제안된 알고리즘은 입력 신호의 평탄화된 스펙트럼에 기반한 알고리즘이다. 평탄화된 스펙트럼에서 마루와 골은 각각 세그먼트의 중심과 경계를 판단하기 위해 사용된다. 각 세그먼트를 하나의 소리로 묶는 그룹핑 단계 이전에 제안된 알고리즘에 의한 세그멘테이션 결과가 유용함을 평가하기 위하여 이상적인 마스크에 의한 세그멘테이션 결과와 제안된 방법을 비교한다. 제안된 방법을 협대역 잡음, 광대역 잡음, 다른 음성신호와 혼합된 음성신호에 대하여 실험하였다.
https://doi.org/10.7776/ASK.2008.27.8.418 인용 PDF KSCI

스펙트로그램을 이용한 내전형 연축성 발성 장애와 근긴장성 발성 장애의 감별 (Differentiation of Adductor-Type Spasmodic Dysphonia from Muscle Tension Dysphonia Using Spectrogram)

노승호;김소연;조재경;이상혁;진성민
- 대한후두음성언어의학회지
- /
- 제28권2호
- /
- pp.100-105
- /
- 2017
Background and Objectives : Adductor type spasmodic dysphonia (ADSD) is neurogenic disorder and focal laryngeal dystonia, while muscle tension dysphonia (MTD) is caused by functional voice disorder. Both ADSD and MTD may be associated with excessive supraglottic contraction and compensation, resulting in a strained voice quality with spastic voice breaks. The aim of this study was to determine the utility of spectrogram analysis in the differentiation of ADSD from MTD. Materials and Methods : From 2015 through 2017, 17 patients of ADSD and 20 of MTD, underwent acoustic recording and phonatory function studies, were enrolled. Jitter (frequency perturbation), Shimmer (amplitude perturbation) were obtained using MDVP (Multi-dimensional Voice Program) and GRBAS scale was used for perceptual evaluation. The two speech therapist evaluated a wide band (11,250 Hz) spectrogram by blind test using 4 scales (0-3 point) for four spectral findings, abrupt voice breaks, irregular wide spaced vertical striations, well defined formants and high frequency spectral noise. Results : Jitter, Shimmer and GRBAS were not found different between two groups with no significant correlation (p>0.05). Abrupt voice breaks and irregular wide spaced vertical striations of ADSD were significantly higher than those of MTD with strong correlation (p<0.01). High frequency spectral noise of MTD were higher than those of ADSD with strong correlation (p<0.01). Well defined formants were not found different between two groups. Conclusion : The wide band spectrograms provided visual perceptual information can differentiate ADSD from MTD. Spectrogram analysis is a useful diagnostic tool for differentiating ADSD from MTD where perceptual analysis and clinical evaluation alone are insufficient.
PDF

중국인 학습자의 한국어 발음 오류에 대한 음성 신호 파라미터들의 비교 연구 - 한국어의 /ㄹ/ 발음을 중심으로 (A Comparison Study on the Speech Signal Parameters for Chinese Leaners' Korean Pronunciation Errors - Focused on Korean /ㄹ/ Sound)

이강희;유광복;임하영
- 예술인문사회 융합 멀티미디어 논문지
- /
- 제7권6호
- /
- pp.239-246
- /
- 2017
본 논문은 중국인 학습자들이 많은 오류를 나타내는 한국어 /ㄹ/발음을 중심으로 중국인 학습자들의 음성 신호 파라미터들을 한국인의 것과 비교하였다. 설측음 혹은 탄설음의 변이음으로 나타나는 한국어의 /ㄹ/ 발음에 대한 중국어의 유사 발음과의 관계를 언어학적 관점에서 알아봄으로 많은 오류를 보이는 이유를 확인해 보았다. 본 논문에서는 신호의 에너지, 시간 영역에서의 파형, 주파수 성분 분석이 가능한 스펙트로그램, 자기 상관 함수를 이용해 구한 피치 (F0), 포먼트 주파수 (f1, f2, f3, 그리고 f4) 등을 사용하여서 음성학적 측면에서 비교 분석 하였다. 본 논문에서 사용한 데이터는 국어학적 분석을 통한 제시어로 구성한 것을 사용하였고 이를 시뮬레이션 하였다. 에너지와 spectrogram 분석의 결과를 보면, 중국인 학습자는 한국어 /ㄹ/ 발음에서 한국인 화자들과 많은 차이를 보인다. 이외의 다른 음성 신호 파라미터들에서도 차이가 나는 것을 알 수 있다. 본 논문이 비교한 파라미터들을 이용하여서 중국인 화자가 한국어 학습시 나타나는 오류들을 상당히 줄일 수 있을 것으로 기대할 수 있다.
https://doi.org/10.14257/ajmahs.2017.06.56 인용

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

손귀영;권순일
- 정보처리학회 논문지
- /
- 제13권6호
- /
- pp.284-290
- /
- 2024
음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.
https://doi.org/10.3745/TKIPS.2024.13.6.284 인용 PDF

스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술 (Audio Genre Classification based on Deep Learning using Spectrogram)

장우진;윤호원;신성현;박호종
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2016년도 하계학술대회
- /
- pp.90-91
- /
- 2016
본 논문에서는 스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술을 제안한다. 기존의 오디오 장르 분류는 대부분 GMM 알고리즘을 이용하고, GMM의 특성에 따라 입력 성분들이 서로 직교한 성질을 갖는 MFCC를 오디오의 특성으로 사용한다. 그러나 딥 러닝을 입력의 성질에 제한이 없으므로 MFCC보다 가공되지 않은 특성을 사용할 수 있고, 이는 오디오의 특성을 더 명확히 표현하기 때문에 효과적인 학습을 할 수 있다. 본 논문에서는 딥 러닝에 효과적인 특성을 구하기 위하여 스펙트로그램(spectrogram)을 사용하여 오디오 특성을 추출하는 방법을 제안한다. 제안한 방법을 사용한면 MFCC를 특성으로 하는 딥 러닝보다 더 높은 인식률을 얻을 수 있다.
PDF

유속 센싱을 위한 스피커형 광학적 유체 단층촬영 기술 (Fluidic velocity sensing with a speaker based optical doppler tomography)

이창호;김지현
- 센서학회지
- /
- 제17권4호
- /
- pp.317-324
- /
- 2008
This paper presents an optical doppler tomography(ODT) system using a speaker as a method to achieve depth measurement in a flowing sample. The use of the speaker provides easy implementation with a low cost. The nonlinear characteristics of the speaker has hindered its adaptation because it produces inconsistent fringe frequencies at different depths. This paper reports an adaptive algorithm to compensate the nonlinear characteristics, and could, resultantly, acquire the Doppler frequency shift caused by the sample. The experiment utilizes a flowing scattering particle solution in a capillary tube at a certain flow rate. The Doppler frequency profile over the lumen was calculated by using spectrogram method. and we obtained the velocity image of the sample.
https://doi.org/10.5369/JSST.2008.17.4.317 인용 PDF KSCI

주파수 해석기와 M-mode 영상을 갖는 펄스 도플러 장치의 개발에 관한 연구 (A Study on the Pulse Doppler System with M-mode Image and Spectrum Analyzer)

정택섭;박세현;김영길
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
- /
- pp.1217-1220
- /
- 1987
We have developed a Ultra Sound Pulsed Doppler System with two-dimensional M-mode image and Spectrum analyzer. The image of the M-mode is composed of time and depth axes. The Spectrum analyzer shows the spectrum of Doppler signal which represents the velocity component of time dependent blood-flow behavior. The spectrogram using Spectrum analyzer is composed of frequency and amplitude axes. The outputs of the system are audio signals, velocity curves, velocity profiles, M-mode images and spectrogram.
PDF

검색결과 236건 처리시간 0.031초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)