• Title/Summary/Keyword: 스펙트로그램

Search Result 136, Processing Time 0.034 seconds

Influence of the Shear Property of Seabed Appearing in the Striation Pattern of the Spectrogram of Ship-radiated Noise Measured in a Shallow Sea (천해에서 측정한 선박 방사소음 스펙트로그램의 줄무늬 패턴에 나타나는 해저면 전단성 영향)

  • Lee, Seong-Wook;Hahn, Joo-Young;Baek, Woon;Na, Jung-Yul
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.3
    • /
    • pp.197-205
    • /
    • 2004
  • This paper represents the results of interpretation on the cause of sign changing of the striation slopes appearing in the range-frequency domain spectrogram of ship-radiated noise measured in a shallow sea. Striation patterns and dispersion characteristics simulated from a numerical model based on mode theory at various seabed conditions show that the sign changing of the striation slopes appearing in measured signal is caused by the shear property of seabed. more specifically by the shear property of the basement lying below the sediment which is estimated about 3±1m thick.

Target/non-target classification using active sonar spectrogram image and CNN (능동소나 스펙트로그램 이미지와 CNN을 사용한 표적/비표적 식별)

  • Kim, Dong-Wook;Seok, Jong-Won;Bae, Keun-Sung
    • Journal of IKEEE
    • /
    • v.22 no.4
    • /
    • pp.1044-1049
    • /
    • 2018
  • CNN (Convolutional Neural Networks) is a neural network that models animal visual information processing. And it shows good performance in various fields. In this paper, we use CNN to classify target and non-target data by analyzing the spectrogram of active sonar signal. The data were divided into 8 classes according to the ratios containing the targets and used for learning CNN. The spectrogram of the signal is divided into frames and used as inputs. As a result, it was possible to classify the target and non-target using the characteristic that the classification results of the seven classes corresponding to the target signal sequentially appear only at the position of the target signal.

Underwater Target Localization Using the Interference Pattern of Broadband Spectrogram Estimated by Three Sensors (3개 센서의 광대역 신호 스펙트로그램에 나타나는 간섭패턴을 이용한 수중 표적의 위치 추정)

  • Kim, Se-Young;Chun, Seung-Yong;Kim, Ki-Man
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.4
    • /
    • pp.173-181
    • /
    • 2007
  • In this paper, we propose a moving target localization algorithm using acoustic spectrograms. A time-versus-frequency spectrogram provide a information of trajectory of the moving target in underwater. For a source at sufficiently long range from a receiver, broadband striation patterns seen in spectrogram represents the mutual interference between modes which reflected by surface and bottom. The slope of the maximum intensity striation is influenced by waveguide invariant parameter ${\beta}$ and distance between target and sensor. When more than two sensors are applied to measure the moving ship-radited noise, the slope and frequency of the maximum intensity striation are depend on distance between target and receiver. We assumed two sensors to fixed point then form a circle of apollonios which set of all points whose distances from two fixed points are in a constant ratio. In case of three sensors are applied, two circle form an intersection point so coordinates of this point can be estimated as a position of target. To evaluates a performance of the proposed localization algorithm, simulation is performed using acoustic propagation program.

Recognition of Overlapped Sound and Influence Analysis Based on Wideband Spectrogram and Deep Neural Networks (광역 스펙트로그램과 심층신경망에 기반한 중첩된 소리의 인식과 영향 분석)

  • Kim, Young Eon;Park, Gooman
    • Journal of Broadcast Engineering
    • /
    • v.23 no.3
    • /
    • pp.421-430
    • /
    • 2018
  • Many voice recognition systems use methods such as MFCC, HMM to acknowledge human voice. This recognition method is designed to analyze only a targeted sound which normally appears between a human and a device one. However, the recognition capability is limited when there is a group sound formed with diversity in wider frequency range such as dog barking and indoor sounds. The frequency of overlapped sound resides in a wide range, up to 20KHz, which is higher than a voice. This paper proposes the new recognition method which provides wider frequency range by conjugating the Wideband Sound Spectrogram and the Keras Sequential Model based on DNN. The wideband sound spectrogram is adopted to analyze and verify diverse sounds from wide frequency range as it is designed to extract features and also classify as explained. The KSM is employed for the pattern recognition using extracted features from the WSS to improve sound recognition quality. The experiment verified that the proposed WSS and KSM excellently classified the targeted sound among noisy environment; overlapped sounds such as dog barking and indoor sounds. Furthermore, the paper shows a stage by stage analyzation and comparison of the factors' influences on the recognition and its characteristics according to various levels of noise.

Auditory Feature Extraction for Sound Classification based on Deep Neural Network (심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술)

  • Jang, Woo-Jin;Shin, Seong-Hyeon;Yun, Ho-Won;Cho, Hyo-Jin;Jang, Won;Park, Ho-chong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.31-32
    • /
    • 2017
  • 본 논문에서는 심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술을 제안한다. 심층 신경망은 인간의 신경망을 모델링 하기 때문에 인간의 인식을 기반으로 하는 특성을 사용한다면 더 적합한 학습을 할 수 있다. 기존 방법인 MFCC와 스펙트로그램과는 달리 스파이크그램은 인간의 청각 시스템을 기반으로 파형을 해석하는 방법이기 때문에 심층 신경망에 더 효율적인 특성이라고 할 수 있다. 따라서 본 논문에서는 사운드 분류 기술의 특성으로 스파이크그램을 이용하는 방법을 제안한다. 제안한 방법을 사용하면 MFCC와 스펙트로그램을 사용하는 것보다 더 높은 분류 성능을 얻을 수 있다.

  • PDF

Text-to-Speech Synthesizer with the Process of Minimizing Concatenation Distortion (접합 왜곡의 최소화 과정이 포함된 음성합성기)

  • 박훈재;김상훈;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.4
    • /
    • pp.38-44
    • /
    • 1998
  • 대용량의 음성합성용 데이터베이스를 용이하게 구축하기 위해 음성인식 시스템을 이용한 음소 경계 분할이 이루어지고 있다. 그러나 자동 분할 결과를 직접 이용하여 합성음 을 생성할 경우 음소 경계 에러로 인하여 접합 왜곡이 많이 발생하게 된다. 이러한 문제를 해결하기 위해서, 본 연구에서는 단위 접합시 경계 에러를 고려하여 적합한 접합 위치를 찾 고자 하였다. 여기서 적합한 접합 위치는 스펙트럼의 불연속이 최소화된 접합점을 의미한다. 합성음에 대한 MOS(Mean Opinion Score) 테스트와 스펙트로그램(spectrogram)의 모양을 비교하므로써 제안된 방법의 성능을 평가하였다. 제안된 방법은 두 단계로 이루어져 있다. 첫째, 레퍼런스 패턴(reference pattern)과 두 개의 테스트 패턴(test pattern)을 선택하는 단 계와, 둘째, 앞과 뒤 테스트 패턴 사이의 적합한 접합위치를 찾는 단계이다. 본 연구에서는 패턴 사이의 스펙트로그램 비교를 위해 켑스트럼(cepstrum) 피라미터와 패턴 분류기 (pattern classifier)인 DTW(Dynamic Time Warping) 알고리즘을 사용하였다. 제안된 알고 리즘을 평가한 청취 테스트의 결과에서 제안된 알고리즘을 적용하여 합성된 합성음의 음질 이 자동 분절로 생성된 단위를 그대로 이용한 경우의 음질보다 우수함을 보였다.

  • PDF

Multiple Classification of Audio Genre and Quality based on Deep Learning (딥 러닝 기반의 오디오 장르 및 품질의 다중 분류 기술)

  • Shin, Seonghyeon;Cho, Hyojin;Jang, Won;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.53-54
    • /
    • 2018
  • 본 논문에서는 스펙트로그램을 이용하여 딥 러닝 기반으로 오디오 장르와 품질의 다중 정보를 동시에 분류하는 기술을 제안한다. 기존 딥 러닝 기반의 오디오 정보 인식 기술은 각각의 정보 인식을 목표로 독립 네트워크를 설계하고, 여러 정보를 동시에 인식하기 위하여 각각에 특화된 여러 네트워크를 사용한다. 이러한 문제점을 보완하기 위해 본 논문에서는 디지털 오디오의 대표 특성인 스펙트로그램을 기반으로 범용성이 있는 특성을 추출하고, 단일 네트워크로 학습시켜 장르 및 품질을 동시에 분류하는 다중 분류 기술을 제안한다. 제안하는 방법으로 단일 분류 성능과 유사한 다중 분류 성능을 얻을 수 있다.

  • PDF

Speech emotion recognition based on CNN - LSTM Model (CNN - LSTM 모델 기반 음성 감정인식)

  • Yoon, SangHyeuk;Jeon, Dayun;Park, Neungsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.939-941
    • /
    • 2021
  • 사람은 표정, 음성, 말 등을 통해 감정을 표출한다. 본 논문에서는 화자의 음성데이터만을 사용하여 감정을 분류하는 방법을 제안한다. 멜 스펙트로그램(Mel-Spectrogram)을 이용하여 음성데이터를 시간에 따른 주파수 영역으로 변화한다. 멜 스펙트로그램으로 변환된 데이터를 CNN을 이용하여 특징 벡터화한 후 Bi-Directional LSTM을 이용하여 화자의 발화 시간 동안 변화되는 감정을 분석한다. 마지막으로 완전 연결 네트워크를 통해 전체 감정을 분류한다. 감정은 Anger, Excitement, Fear, Happiness, Sadness, Neutral로, 총 6가지로 분류하였으며 데이터베이스로는 상명대 연구팀에서 구축한 한국어 음성 감정 데이터베이스를 사용하였다. 실험 결과 논문에서 제안한 CNN-LSTM 모델의 정확도는 88.89%로 측정되었다.

CycleGAN for Enhancement of Degraded Speech by Face Mask (마스크 착용에 의해 왜곡된 음성의 품질 향상을 위한 CycleGAN 기술)

  • Lim, Yujin;Yu, Jeongchan;Seo, Eunmi;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.63-64
    • /
    • 2022
  • 마스크 착용은 대화나 통화 등의 의사소통에 불편함을 초래하고 음성의 품질과 명료도를 떨어트린다. 이를 해결하기 위해 음성 향상 기술이 필요하며, 머신러닝 기반의 다양한 음성 향상 방법이 개발되었다. 지도 학습을 위해 마스크 착용 유무에 따라 일대일로 대응된 음성 데이터를 확보하는 것은 매우 어렵고, 따라서 일대일로 대응된 데이터가 필수적이지 않은 비지도 학습이 요구된다. 본 논문에서는 비지도 학습방식을 사용하면서 콘텍스트를 유지하며 특징을 변경할 수 있는 CycleGAN을 이용하여 마스크 착용에 의한 음성 왜곡을 복원 시키는 기술을 제안한다. 스펙트로그램 기반으로 마스크 착용에 의해 왜곡된 음성을 마스크 미착용 음성으로 변환하여 음성의 품질을 향상시켰다. 청취평가를 진행한 결과 품질이 향상된 음원의 선호도가 더 높음을 확인하였으며 스펙트로그램을 통해 3 kHz 이상의 고대역 에너지가 증가하는 것을 확인하였다. 이를 통해 CycleGAN을 이용한 비지도 학습으로 마스크 착용에 의해 왜곡된 음성의 품질을 향상시킬 수 있음을 확인하였다.

  • PDF

A Feasibility Study on Spectrogram-based Deep Learning Approach to Resting State EEG-to-MRI Cross-Modality Transfer (휴식상태 EEG-to-MRI 크로스 모달리티 변환을 위한 스펙트로그램 기반 딥러닝 기법에 관한 예비 연구)

  • Gyu-Seok Lee;Arya Mahima;Wonsang You
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.13-14
    • /
    • 2023
  • 뇌의 전기적 신경활동을 측정하는 뇌전도(EEG)는 저렴하게 취득할 수 있고 높은 시간 해상도를 갖는 반면 공간적 정보를 제공하지는 않는다. 기능적 자기공명영상(fMRI)은 혈류변화를 감지하여 뇌활동을 측정하는 방식으로서 높은 공간 분해능을 갖지만 고가의 비용과 설비를 요구한다. 최근 저렴하게 취득할 수 있는 EEG 데이터로부터 딥러닝을 사용하여 fMRI 합성영상을 생성하는 기술이 제안되었지만, 저주파수 대역에서 EEG와 fMRI 간의 뇌과학적 상관관계를 반영하지는 않는다. 본 연구에서는 휴식상태에서 취득된 EEG 데이터를 스펙트로그램으로 변환한 후 저주파수 특성을 사용하여 fMRI 합성영상을 생성하는 U-net 기반의 크로스 모달리티 변환 모델의 실현가능성을 평가하였다.