• Title/Summary/Keyword: 사운드 분류

Search Result 60, Processing Time 0.025 seconds

Design of a Sound Classification System for Context-Aware Mobile Computing (상황 인식 모바일 컴퓨팅을 위한 사운드 분류 시스템 설계)

  • Kim, Joo-Hee;Lee, Seok-Jun;Kim, In-Cheol
    • Annual Conference of KIPS
    • /
    • 2013.11a
    • /
    • pp.1305-1308
    • /
    • 2013
  • 본 논문에서는 스마트폰 사용자의 실시간 상황 인식을 위한 효과적인 사운드 분류 시스템을 제안한다. 이 시스템에서는 PCM 형태의 사운드 입력 데이터에 대한 전처리를 통해 고요한 사운드와 화이트 노이즈를 학습 및 분류 단계 이전에 미리 여과함으로써, 계산 자원의 불필요한 소모를 막을 수 있다. 또한 에너지 레벨이 낮아 신호의 패턴을 파악하기 어려운 사운드 데이터는 증폭함으로써, 이들에 대한 분류 성능을 향상시킬 수 있다. 또, 제안하는 사운드 분류 시스템에서는 HMM 분류 모델의 효율적인 학습과 적용을 위해 k-평균 군집화를 이용하여 특징 벡터들에 대한 차원 축소와 이산화를 수행하고, 그 결과를 모아 일정한 길이의 시계열 데이터를 구성하였다. 대학 연구동내 다양한 일상생활 상황들에서 수집한 8가지 유형의 사운드 데이터 집합을 이용하여 성능 분석 실험을 수행하였고, 이를 통해 본 논문에서 제안하는 사운드 분류 시스템의 높은 성능을 확인할 수 있었다.

Design and Implementation of a Sound Classification System for Context-Aware Mobile Computing (상황 인식 모바일 컴퓨팅을 위한 사운드 분류 시스템의 설계 및 구현)

  • Kim, Joo-Hee;Lee, Seok-Jun;Kim, In-Cheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.2
    • /
    • pp.81-86
    • /
    • 2014
  • In this paper, we present an effective sound classification system for recognizing the real-time context of a smartphone user. Our system avoids unnecessary consumption of limited computational resource by filtering both silence and white noise out of input sound data in the pre-processing step. It also improves the classification performance on low energy-level sounds by amplifying them as pre-processing. Moreover, for efficient learning and application of HMM classification models, our system executes the dimension reduction and discretization on the feature vectors through k-means clustering. We collected a large amount of 8 different type sound data from daily life in a university research building and then conducted experiments using them. Through these experiments, our system showed high classification performance.

Comparison of User's Reaction Sound Recognition for Social TV (소셜 TV적용을 위한 사용자 반응 사운드 인식방식 비교)

  • Ryu, Sang-Hyeon;Kim, Hyoun-Gook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.155-156
    • /
    • 2013
  • 소셜 TV 사용 시, 사용자들은 TV를 시청하면서 타 사용자와의 소통을 위해 리모컨을 이용해서 텍스트를 작성해야하는 불편함을 가지고 있다. 본 논문에서는 소셜 TV의 이러한 불편함을 해결하기 위해 사용자 반응 사운드를 자동으로 인식하여 상대방에게 이모티콘을 전달하기 위한 시스템을 제안하며, 사용자 반응 사운드 인식에 사용되는 분류방식들을 비교한다. 사용자 반응 사운드 인식을 위해 사용되는 분류 방식들 중에서, Gaussian Mixture Model(GMM), Gaussian Mixture Model - Universal Background Model(GMM-UBM), Hidden Markov Model(HMM), Support Vector Machine(SVM)의 성능을 비교하였다. 각 분류기의 성능을 비교하기 위하여 MFCC 특징값을 각 분류기에 적용하여 사용자 반응 사운드 인식에 가장 최적화된 분류기를 선택하였다.

  • PDF

A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect (효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류)

  • Jung, Hyeonyoung;Kim, Gyumi;Kim, Hyon Hee
    • Annual Conference of KIPS
    • /
    • 2020.05a
    • /
    • pp.397-400
    • /
    • 2020
  • 본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

Irregular Sound Detection using the K-means Algorithm (K-means 알고리듬을 이용한 비정상 사운드 검출)

  • Lee Jae-yeal;Cho Sang-jin;Chong Ui-pil
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.341-344
    • /
    • 2004
  • 발전소에서 운전 중인 발전 설비의 장비 및 기계의 동작, 감시, 진단은 매우 중요한 일이다. 발전소의 이상 감지를 위해 상태 모니터링이 사용되며, 이상이 발생되었을 때 고장의 원인을 분석하고 적절한 조치를 계획하기 위한 이상 진단 과정을 따르게 된다. 본 논문에서는 산업 현장에서 기기들의 운전시에 발생하는 기기 발생 음을 획득하여 정상/비정상을 판정하기 위한 알고리듬에 대하여 연구하였다. 사운드 감시(Sound Monitoring) 기술은 관측된 신호를 acoustic event로 분류하는 것과 분류된 이벤트를 정상 또는 비정상으로 구분하는 두 가지 과정으로 진행할 수 있다. 기존의 기술들은 주파수 분석과 패턴 인식의 방법으로 간단하게 적용되어 왔으며, 본 논문에서는 K-means clustering 알고리듬을 이용하여 사운드를 acoustic event로 분류하고 분류된 사운드를 정상 또는 비정상으로 구분하는 알고리듬을 개발하였다.

  • PDF

Environmental Sound Classification for Selective Noise Cancellation in Industrial Sites (산업현장에서의 선택적 소음 제거를 위한 환경 사운드 분류 기술)

  • Choi, Hyunkook;Kim, Sangmin;Park, Hochong
    • Journal of Broadcast Engineering
    • /
    • v.25 no.6
    • /
    • pp.845-853
    • /
    • 2020
  • In this paper, we propose a method for classifying environmental sound for selective noise cancellation in industrial sites. Noise in industrial sites causes hearing loss in workers, and researches on noise cancellation have been widely conducted. However, the conventional methods have a problem of blocking all sounds and cannot provide the optimal operation per noise type because of common cancellation method for all types of noise. In order to perform selective noise cancellation, therefore, we propose a method for environmental sound classification based on deep learning. The proposed method uses new sets of acoustic features consisting of temporal and statistical properties of Mel-spectrogram, which can overcome the limitation of Mel-spectrogram features, and uses convolutional neural network as a classifier. We apply the proposed method to five-class sound classification with three noise classes and two non-noise classes. We confirm that the proposed method provides improved classification accuracy by 6.6% point, compared with that using conventional Mel-spectrogram features.

Auditory Feature Extraction for Sound Classification based on Deep Neural Network (심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술)

  • Jang, Woo-Jin;Shin, Seong-Hyeon;Yun, Ho-Won;Cho, Hyo-Jin;Jang, Won;Park, Ho-chong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.31-32
    • /
    • 2017
  • 본 논문에서는 심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술을 제안한다. 심층 신경망은 인간의 신경망을 모델링 하기 때문에 인간의 인식을 기반으로 하는 특성을 사용한다면 더 적합한 학습을 할 수 있다. 기존 방법인 MFCC와 스펙트로그램과는 달리 스파이크그램은 인간의 청각 시스템을 기반으로 파형을 해석하는 방법이기 때문에 심층 신경망에 더 효율적인 특성이라고 할 수 있다. 따라서 본 논문에서는 사운드 분류 기술의 특성으로 스파이크그램을 이용하는 방법을 제안한다. 제안한 방법을 사용하면 MFCC와 스펙트로그램을 사용하는 것보다 더 높은 분류 성능을 얻을 수 있다.

  • PDF

Adult Contents Filtering Technique using Image and Sound (사운드와 이미지를 기반으로 한 성인 컨텐츠 필터링 기법)

  • Cho, Jungik;Jo, Jinsu;Lee, Yillbyung
    • Annual Conference of KIPS
    • /
    • 2007.11a
    • /
    • pp.121-123
    • /
    • 2007
  • 현재까지 유해한 컨텐츠(Contents)를 차단하기 위한 활발한 연구가 있었으나, 사람의 사운드(sound)와 이미지(image)를 통합한 필터링(filtering) 기법에 대한 연구는 활발히 이루어지지 않은 측면이 있다. 본 논문은 이미지(image) 데이터 중 피부색 분포 비율과 사운드(sound) 데이터 중 주파수 분석을 통한 심층적인 기법을 활용하여 현재까지 진행되고 있는 이미지 필터링(image filtering)방법에 대한 수행 결과보다 획기적으로 개선된 성능을 보이고자 한다. 즉, 사운드와 이미지의 특징 정보를 이용한 성인 컨텐츠(Adult Contents)분류 기법을 활용하는 것으로 성인 컨텐츠(Adult Contents)에서 두드러지는 특징을 보이는 사운드 패턴을 분석하여 현재까지 한정된 자원인 이미지만을 활용한 기법보다는 현저한 향상된 수행능력을 예측해 볼 수 있다.

Development of Sound Event Detection for Home with Limited Computation Power (제한된 계산량으로 가정내 음향 상황을 검출하는 사운드 이벤트 검출 시스템 개발)

  • Jang, Dalwon;Lee, Jaewon;Lee, JongSeol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.257-258
    • /
    • 2019
  • 이 논문에서는 가정내 음향 상황에 대한 사운드 이벤트 검출을 수행하는 시스템을 개발하는 내용을 담고 있다. 사운드 이벤트 검출 시스템은 마이크로폰 입력에 대해서 입력신호로부터 특징을 추출하고, 특징으로부터 이벤트가 있었는지 아닌지를 분류하는 형태를 가지고 있다. 본 연구에서는 독립형 디바이스가 가정내 위치한 상황을 가정하여 개발을 진행하였다. 가정내에서 일어날 수 있는 음향 상황을 가정하고 데이터셋 녹음을 진행하였다. 데이터셋을 기반으로 특징과 분류기를 개발하였으며, 적은 계산량으로 결과를 출력해야 하는 독립형 디바이스에 활용하기 위해서 특징셋을 간소화하는 과정을 거쳤다. 개발결과는 가정의 거실환경에서 녹음된 소리를 스피커로 출력하여 테스트하였으며, 다양한 음향 상황에 대한 개발이 추가적으로 필요하다.

  • PDF

A Study on the Gender and Age Classification of Speech Data Using CNN (CNN을 이용한 음성 데이터 성별 및 연령 분류 기술 연구)

  • Park, Dae-Seo;Bang, Joon-Il;Kim, Hwa-Jong;Ko, Young-Jun
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.11
    • /
    • pp.11-21
    • /
    • 2018
  • Research is carried out to categorize voices using Deep Learning technology. The study examines neural network-based sound classification studies and suggests improved neural networks for voice classification. Related studies studied urban data classification. However, related studies showed poor performance in shallow neural network. Therefore, in this paper the first preprocess voice data and extract feature value. Next, Categorize the voice by entering the feature value into previous sound classification network and proposed neural network. Finally, compare and evaluate classification performance of the two neural networks. The neural network of this paper is organized deeper and wider so that learning is better done. Performance results showed that 84.8 percent of related studies neural networks and 91.4 percent of the proposed neural networks. The proposed neural network was about 6 percent high.