• 제목/요약/키워드: spectrogram

검색결과 241건 처리시간 0.026초

수중 표적 분류를 위한 합성곱 신경망의 전처리 성능 비교 (Preprocessing performance of convolutional neural networks according to characteristic of underwater targets )

  • 박경민;김두영
    • 한국음향학회지
    • /
    • 제41권6호
    • /
    • pp.629-636
    • /
    • 2022
  • 본 논문은 합성곱 신경망 기반 수중 표적 분류기의 성능 향상을 위한 최적의 전처리 기법을 제시한다. 실제 선박 수중신호를 수집한 데이터 세트의 주파수 분석을 통해 강한 저주파 신호로 인한 특성 표현의 문제점을 확인하였다. 이를 해결하기 위해 다양한 스펙트로그램 기법과 특성 스케일링 기법을 조합한 전처리 기법들을 구현하였다. 최적의 전처리 기법을 확인하기 위해 실제 데이터를 기반으로 합성곱 신경망을 훈련하는 실험을 수행하였다. 실험 결과, 로그 멜 스펙트로그램과 표준화 및 로버스트정규화 스케일링 기법의 조합이 높은 인식 성능과 빠른 학습 속도를 보임을 확인하였다.

딥 트랜스퍼 러닝 기반의 아기 울음소리 식별 (Infant cry recognition using a deep transfer learning method)

  • 박철;이종욱;오스만;박대희;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.971-974
    • /
    • 2020
  • Infants express their physical and emotional needs to the outside world mainly through crying. However, most of parents find it challenging to understand the reason behind their babies' cries. Failure to correctly understand the cause of a baby' cry and take appropriate actions can affect the cognitive and motor development of newborns undergoing rapid brain development. In this paper, we propose an infant cry recognition system based on deep transfer learning to help parents identify crying babies' needs the same way a specialist would. The proposed system works by transforming the waveform of the cry signal into log-mel spectrogram, then uses the VGGish model pre-trained on AudioSet to extract a 128-dimensional feature vector from the spectrogram. Finally, a softmax function is used to classify the extracted feature vector and recognize the corresponding type of cry. The experimental results show that our method achieves a good performance exceeding 0.96 in precision and recall, and f1-score.

Analyzing performance of time series classification using STFT and time series imaging algorithms

  • Sung-Kyu Hong;Sang-Chul Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.1-11
    • /
    • 2023
  • 본 논문은 순환 신경망 대신 합성곱 신경망을 사용하여 시계열 데이터 분류 성능을 분석한다. TSC(Time Series Community)에는 GAF(Gramian Angular Field), MTF(Markov Transition Field), RP(Recurrence Plot)와 같은 전통적인 시계열 데이터 이미지화 알고리즘들이 있다. 실험은 이미지화 알고리즘들에 필요한 하이퍼 파라미터들을 조정하면서 합성곱 신경망의 성능을 평가하는 방식으로 진행된다. UCR 아카이브의 GunPoint 데이터셋을 기준으로 성능을 평가했을 때, 본 논문에서 제안하는 STFT(Short Time Fourier Transform) 알고리즘이 최적화된 하이퍼 파라미터를 찾은 경우, 기존의 알고리즘들 대비 정확도가 높고, 동적으로 feature map 이미지의 크기도 조절가능하다는 장점이 있다. GAF 또한 98~99%의 높은 정확도를 보이지만, feature map 이미지의 크기를 동적으로 조절할 수 없어 크다는 단점이 존재한다.

3D 특징 벡터를 이용한 영아 울음소리 분류 (Classification of infant cries using 3D feature vectors)

  • 박정현;김민서;최혁순;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.597-599
    • /
    • 2022
  • 영아는 울음이라는 비언어적 의사 소통 방식을 사용하여 모든 욕구를 표현한다. 하지만 영아의 울음소리를 파악하는 것에는 어려움이 따른다. 영아의 울음소리를 해석하기 위해 많은 연구가 진행되었다. 이에 본 논문에서는 3D 특징 벡터를 이용한 영아의 울음소리 분류를 제안한다. Donate-a-corpus-cry 데이터 세트는 복통, 트림, 불편, 배고픔, 피곤으로 총 5 개의 클래스로 분류된 데이터를 사용한다. 데이터들은 원래 속도의 90%와 110%로 수정하는 방법인 템포조절을 통해 증강한다. Spectrogram, Mel-Spectrogram, MFCC 로 특징 벡터화를 시켜준 후, 각각의 2 차원 특징벡터를 묶어 3차원 특징벡터로 구성한다. 이후 3 차원 특징 벡터를 ResNet 과 EfficientNet 모델로 학습을 진행한다. 그 결과 2 차원 특징 벡터는 0.89(F1) 3 차원 특징 벡터의 경우 0.98(F1)으로 0.09 의 성능 향상을 보여주었다.

Real time instruction classification system

  • Sang-Hoon Lee;Dong-Jin Kwon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권3호
    • /
    • pp.212-220
    • /
    • 2024
  • A recently the advancement of society, AI technology has made significant strides, especially in the fields of computer vision and voice recognition. This study introduces a system that leverages these technologies to recognize users through a camera and relay commands within a vehicle based on voice commands. The system uses the YOLO (You Only Look Once) machine learning algorithm, widely used for object and entity recognition, to identify specific users. For voice command recognition, a machine learning model based on spectrogram voice analysis is employed to identify specific commands. This design aims to enhance security and convenience by preventing unauthorized access to vehicles and IoT devices by anyone other than registered users. We converts camera input data into YOLO system inputs to determine if it is a person, Additionally, it collects voice data through a microphone embedded in the device or computer, converting it into time-domain spectrogram data to be used as input for the voice recognition machine learning system. The input camera image data and voice data undergo inference tasks through pre-trained models, enabling the recognition of simple commands within a limited space based on the inference results. This study demonstrates the feasibility of constructing a device management system within a confined space that enhances security and user convenience through a simple real-time system model. Finally our work aims to provide practical solutions in various application fields, such as smart homes and autonomous vehicles.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

오감자극을 활용한 효율적인 뇌파 DB구축 시스템 (Effective brain-wave DB building system using the five senses stimulation)

  • 신정훈;진상현
    • 융합신호처리학회논문지
    • /
    • 제8권4호
    • /
    • pp.227-236
    • /
    • 2007
  • 유비쿼터스 시대의 도래에 따른 서비스의 고급화는 다양한 형태의 사용자 단말기의 개발을 유도하였으며, 이러한 사용자 단말기의 변화는 다양한 형태의 인간친화형 사용자 인터페이스의 개발로 이어지게 되었다. 이러한 다양한 형태의 인간친화형 사용자 인터페이스 중, 인간의 뇌를 활용한 사용자 인터페이스, 즉, BCI에 관한 연구가 최근 산발적으로 다양하게 진행되고 있다. 현재 진행되어지고 있는 다양한 형태의 BCI 관련 연구들은, 연구 초기 수준을 극복하지 못하는 실정이며, 이러한 연구개발의 지체 이유로는 체계적인 연구가 진행되어지지 않고 있다는 점을 들 수 있다. 대부분의 HCI 또는 BCI 관련 연구들은 생체신호를 수집하여 신호처리 과정을 거치게 되며, 이때 중요한 연구요소중의 하나로 DB구축 분야를 들 수 있다. 하지만 현재 진행되고 있는 대부분의 BCI 관련 연구의 경우 DB구축부터 시작한 체계적인 연구가 이루어지고 있지 않는 실정이다. 뇌파를 제외한 다른 생체신호, 즉 오감자극을 활용한 HCI 연구와는 달리, 뇌파 DB의 경우 피험자를 제외한 다른 연구 관련자들은 현재 피험자로부터 수집되어지고 있는 DB가 실험에 필요한 적절한 신호인지 구분하기 힘든 실정이다. 또한, 뇌파 신호의 수집 시 연구관련 자들은 피험자에게 정확한 지침을 제시하지 못하고 있는 실정이며 어떠한 방법으로 피험자가 실험에 집중하여야 확연한 패턴을 보이는 차별화 된 뇌파 신호의 생성이 가능한지 명확하게 알려지지 않은 실정이다. 따라서 본 논문에서는 뇌파를 활용한 BCI구현과 사용자 의지에 따른 활용 시 보다 정확하고 높은 인식률 구현을 하기 위한 기초 연구 방안으로 정확하고 효율적인 뇌파 DB구축 시스템을 제안한다. 또한 현재까지 명확하게 알려지지 않은 효과적인 뇌파생성 방안을 동시에 연구하기 위하여 오감자극을 활용한 뇌파 DB 수집이 가능한 구축 시스템을 구현하며 각 방법에 따라 구축되어진 뇌파의 패턴 분석을 통한 효율적인 뇌파 DB구축 방안을 제안한다.

  • PDF

SASW시험에 의한 위상속도 결정을 위한 임펄스 응답필터 기법 (Impulse Response Filtration Technique for the Determination of Phase Velocities from SASW Measurements)

  • 조성호
    • 한국지반공학회지:지반
    • /
    • 제13권1호
    • /
    • pp.111-122
    • /
    • 1997
  • 표면파를 이용하여 지반의 강성을 추정하는 기법인 SASW 시험에서 위상속도(phase volocity)를 결정하기 위해서는 위상각(phase angle)의 전개(unwrapping)가 필수적이다. 포장 구조에서처럼 깊이에 따라 강성의 차이가 현저한 경우는 기존의 위상각 전개방식으조는 정확한 위상속도를 결정하기가 용이하지 않다. 이는 기존의 위상각 전개방식은 주위상각(principal phase angle)에 2n의 정수배를 더하는 것인데, 위상각 스펙트럼(phase spectrum)에서 정수배를 결정하는 데에 어려움이 있기 때문이다. 본 연구에서는 이러한 문제점을 해결하기 위해서, 임펄스 응답 필터 기법(Impulse Response Filtration Technique), 또는 IRF기법이라고 하는 새로운 위상각 분석 기법을 제안하였다. IRF 기법의 원리는 임펄스 응답을 필터 처리함으로써 파군(wave group)을 분리하는 것인데,파군의 분리는 임펄스 응답에 대한 Gabor spectrogram을 분석한 정보를 근거로 한다. Gabor spectrogram은 전파되는 파의 에너지를 주파수-시간 공간에서 나타내는 contour 그림으로서, 파군의 전파 상황을 시각적으로 표현하는 수단이다. 이렇게 필터 처리된 임펄스 응답을 이용하면, 위상각 스펙트럼의 분석을 정확하게 할 수 있으며, 위상각의 전개에 있어서 난해함을 제거할 수 있다. 끝으로, 전쳔적인 포장 구조에 대하여 이론적으로 SASW 시험을 모사하였으며, 그 결과를 이용하여 IRF기법의 효용성을 입증하였다.

  • PDF

3개 센서의 광대역 신호 스펙트로그램에 나타나는 간섭패턴을 이용한 수중 표적의 위치 추정 (Underwater Target Localization Using the Interference Pattern of Broadband Spectrogram Estimated by Three Sensors)

  • 김세영;천승용;김기만
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.173-181
    • /
    • 2007
  • 본 논문에서는 음향 스펙트로그램을 이용하여 수중 이동표적의 위치를 추정하기 위한 방법을 연구하였다. 주파수와 시간의 2차원 평면으로 표현되는 스펙트로그램은 수중 운동체의 이동 정보를 제공한다. 음원과 수신 센서간의 거리가 충분히 멀 경우 스펙트로그램의 넓은 주파수에 걸쳐 발생하는 줄무늬들은 해수면 및 해저면에 의해 반사된 모드간의 간섭을 의미하고, 이때 최대 음압이 발생하는 줄무늬의 기울기는 음향 도파관 불변인자 ${\beta}$와 표적과 센서간의 거리에 의해 영향을 받는다. 2개 이상의 센서를 사용하여 이동하는 선박의 광대역 방사 소음을 측정한 경우 스펙트로그램에 나타나는 최대 음압이 발생하는 줄무늬의 기울기와 줄무늬가 주파수축에서 천이된 비율이 표적과 센서간의 거리에 따라 각각 다르게 나타난다. 두개의 센서를 두 정점으로 가정하여 표적에 이르는 거리의 비가 일정한 값을 가지면서 운동하는 점의 자취인 아폴로니오스의 원을 형성하고, 3개의 센서를 사용할 경우 두 개의 원이 서로 교점을 형성하는데, 이 교점의 좌표를 표적의 위치라 추정한다. 제안된 위치 추정 기법의 성능을 평가하기 위해 음파전달 프로그램을 이용한 시뮬레이션을 수행하였다.

주행중 차실 내부 소음의 평가 (Objective Evaluation of Vehicle Interior Noise in Operation)

  • 정혁;이정권
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 1996년도 춘계학술대회논문집; 부산수산대학교, 10 May 1996
    • /
    • pp.47-52
    • /
    • 1996
  • Interior noise, engine speed and vehicle speed are measured under road-load condition and interior noise signal is transformed by using the transient signal analysis methods such as the spectrogram and wavelet transform. Using the analyzed results, subjective noise criteria such as the loudness, noisiness and articulation index at each vehicle speed can be estimated and characteristics of interior noise for various running mode can be discussed in the viewpoint of noise quality.

  • PDF