• Title/Summary/Keyword: 다중 스케일 신경망

Search Result 13, Processing Time 0.029 seconds

Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing (청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출)

  • Lee, Gi Yong;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.6
    • /
    • pp.600-605
    • /
    • 2020
  • In this paper, we propose a sound event detection method using a multi-channel multi-scale neural networks for sound sensing home monitoring for the hearing impaired. In the proposed system, two channels with high signal quality are selected from several wireless microphone sensors in home. The three features (time difference of arrival, pitch range, and outputs obtained by applying multi-scale convolutional neural network to log mel spectrogram) extracted from the sensor signals are applied to a classifier based on a bidirectional gated recurrent neural network to further improve the performance of sound event detection. The detected sound event result is converted into text along with the sensor position of the selected channel and provided to the hearing impaired. The experimental results show that the sound event detection method of the proposed system is superior to the existing method and can effectively deliver sound information to the hearing impaired.

multi-scale feature compression for VCM (VCM 을 위한 다중 스케일 특징 압축 방법)

  • Han, Heeji;Choi, Minseok;Jung, Soon-heung;Kwak, Sangwoon;Choo, Hyon-Gon;Cheong, Won-Sik;Seo, Jeongil;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.140-142
    • /
    • 2022
  • 최근 신경망 기반 기술들의 발달에 따라, 신경망 기술들은 충분히 높은 임무 수행 성능을 달성하고 있으며 사물인터넷, 스마트시티, 자율주행 등 다양한 환경을 고려한 응용 역시 활발히 연구되고 있다. 하지만 이러한 신경망의 임무 다양성과 복잡성은 더욱 많은 비디오 데이터가 요구되며 대역폭이 제한된 환경을 고려한 응용에서 이러한 비디오 데이터를 효과적으로 전송할 방법이 필요하다. 이에 따라 국제 표준화 단체인 MPEG 에서는 신경망 기계 소비에 적합한 비디오 부호화 표준 개발을 위해 Video Coding for Machines (VCM) 표준화를 진행하고 있다. 본 논문에서는 신경망의 특징 부호화 효율을 개선하기 위하여 VCM 을 위한 다중 스케일 특징 압축 방법을 제안한다. COCO2017 데이터셋의 검증 영상을 기반으로 제안방법을 평가한 결과, 압축된 특징의 크기는 원본 이미지의 0.03 배이며 6.8% 미만의 임무 정확도 손실을 보였다.

  • PDF

End-to-End Learning-based Spatial Scalable Image Compression with Multi-scale Feature Fusion Module (다중 스케일 특징 융합 모듈을 통한 종단 간 학습기반 공간적 스케일러블 영상 압축)

  • Shin Juyeon;Kang Jewon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.1-3
    • /
    • 2022
  • 최근 기존의 영상 압축 파이프라인 대신 신경망의 종단 간 학습을 통해 압축을 수행하는 알고리즘의 연구가 활발히 진행되고 있다. 본 논문은 종단 간 학습 기반 공간적 스케일러블 압축 기술을 제안한다. 보다 구체적으로 본 논문은 신경망의 각 계층에서 하위 계층의 학습된 특징 (feature)을 융합하여 상위 계층으로 전달하는 다중 스케일 특징 융합 (multi-scale feature fusion) 모듈을 도입해 상위 계층이 더욱 풍부한 특징 정보를 학습하고 계층 사이의 특징 중복성을 더욱 잘 제거할 수 있도록 한다. 기존 방법 대비 향상 계층(enhancement layer)에서 1.37%의 BD-rate가 향상된 결과를 볼 수 있다.

  • PDF

Cascade Fusion-Based Multi-Scale Enhancement of Thermal Image (캐스케이드 융합 기반 다중 스케일 열화상 향상 기법)

  • Kyung-Jae Lee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.1
    • /
    • pp.301-307
    • /
    • 2024
  • This study introduces a novel cascade fusion architecture aimed at enhancing thermal images across various scale conditions. The processing of thermal images at multiple scales has been challenging due to the limitations of existing methods that are designed for specific scales. To overcome these limitations, this paper proposes a unified framework that utilizes cascade feature fusion to effectively learn multi-scale representations. Confidence maps from different image scales are fused in a cascaded manner, enabling scale-invariant learning. The architecture comprises end-to-end trained convolutional neural networks to enhance image quality by reinforcing mutual scale dependencies. Experimental results indicate that the proposed technique outperforms existing methods in multi-scale thermal image enhancement. Performance evaluation results are provided, demonstrating consistent improvements in image quality metrics. The cascade fusion design facilitates robust generalization across scales and efficient learning of cross-scale representations.

Multi-scale Pedestrian Detection Method using Faster Region-Convolutional Neural Network (빠른 영역-합성곱 신경망을 이용한 다중 스케일 보행자 검출 방법)

  • Tran, Quoc Huy;Kim, Eung Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.1-4
    • /
    • 2019
  • 최근에 딥러닝 기술을 적용한 보행자 검출 연구가 활발히 진행되고 있다. 연구자들은 딥러닝 네트워크를 이용하여 보행자 오검출율을 낮추는 방법에 대해 지속적으로 연구하여 성능을 꾸준히 상승시켰다. 그러나 대부분의 연구는 다중 스케일 보행자가 분포되는 저해상도 영상에서 보행자를 제대로 검출하지 못하는 어려움이 존재한다. 따라서 본 연구에서는 기존의 Faster R-CNN구조를 기반으로 하여 새로운 다중 특징 융합 레이어와 다중 스케일 앵커 박스를 적용하여 보행자 오검출율을 줄이는 MS-FRCNN(Multi-scaleFaster R-CNN)구조를 제안한다. 제안된 방식의 성능 검증을 위해 Caltech 데이터세트를 이용하여 실험한 결과, 제안된 MS-FRCNN방식이 기존의 다른 보행자 검출 방식보다 다중 스케일 보행자 검출에서 medium 조건하에 5%, all 조건하에 3.9% 나아짐을 알 수 있었다.

  • PDF

Comparative Study on Illumination Compensation Performance of Retinex model and Illumination-Reflectance model (레티넥스 모델과 조명-반사율 모델의 조명 보상 성능 비교 연구)

  • Chung, Jin-Yun;Yang, Hyun-Seung
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.11
    • /
    • pp.936-941
    • /
    • 2006
  • To apply object recognition techniques to real environment, illumination compensation method should be developed. As effective illumination compensation model, we focused our attention on Retinex model and illumination-Reflectance model, implemented them, and experimented on their performance. We implemented Retinex model with Single Scale Retinex, Multi-Scale Retinex, and Retinex Neural Network and Multi-Scale Retinex Neural Network, neural network model of Retinex model. Also, we implemented illumination-Reflectance model with reflectance image calculation by calculating an illumination image by low frequency filtering in frequency domain of Discrete Cosine Transform and Wavelet Transform, and Gaussian blurring. We compare their illumination compensation performance to facial images under nine illumination directions. We also compare their performance after post processing using Principal Component Analysis(PCA). As a result, illumination Reflectance model showed better performance and their overall performance was improved when illumination compensated images were post processed by PCA.

Development of an On-line Intelligent Embedded System for Detection the Leakage of Pipeline (실시간 누수 감지 가능한 매립형 지능형 배관 진단 시스템)

  • Lee, Changgil;Kim, Tae-Heon;Chang, Hajoo;Park, Seunghee
    • 한국방재학회:학술대회논문집
    • /
    • 2011.02a
    • /
    • pp.94-94
    • /
    • 2011
  • 배관 구조물에서는 내부 미세 균열에서부터 국부 좌굴, 볼트 풀림, 피로 균열 등과 같이 다양한 형태의 손상이 복합적으로 발생 가능하다. 이러한 복합 손상은 배관 구조물의 누수, 누유 등의 사고를 야기할 수 있다. 하지만 기존의 단일 스케일 계측 시스템으로부터 복합 손상에 의한 실시간 누수를 진단하기는 매우 어렵다. 본 연구 단계에서는 누수를 야기하는 복합 손상을 효율적으로 진단하기 위하여 선행 연구에서 제안된 압전센서를 이용한 자가 계측 회로 기반의 다중 스케일 계측 시스템을 구조물의 복합 손상 진단에 적용하였다. 자가 계측 회로 기반 다중 스케일 계측 시스템은 크게 두 가지 형태의 신호를 계측한다. 첫 번째 스케일은 임피던스 계측으로부터 특정 주파수 대역폭에 대한 구조 응답을 계측하며, 두 번째 스케일은 유도 초음파 계측으로부터 단일 중심 주파수에 해당하는 구조물의 응답을 계측한다. 복합 손상을 손상 유형별로 분류하기 위하여 E/M 임피던스(Electro-mechanical impedance)및 유도 초음파(Guided wave) 계측으로부터 추출한 특성을 이용하여 2차원 손상지수를 계산하고 이를 지도학습 기반 패턴인식 기법(Supervised learning based pattern recognition) 중 확률론적 신경망 기법(Probabilistic Neural Network, PNN)에 적용한다. 제안된 기법의 적용성 검토를 위하여 파이프 구조물에 인위적으로 다중 손상을 생성시켜 시험을 수행하였다. 본 연구에서 제안된 기법이 실제 배관 구조물에 성공적으로 적용된다면 손상 부재의 거동 및 구조물 성능의 손상에 대한 영향을 효율적으로 진단하고 평가함으로써 배관 구조물의 효과적인 유지관리가 가능할 것으로 예상된다.

  • PDF

Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks (다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출)

  • Jang, Byeong-Yong;Kwon, Oh-Wook
    • Phonetics and Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.89-96
    • /
    • 2019
  • In this paper, we propose a deep learning architecture that can effectively detect speech segmentation in broadcast contents. We also propose a multi-scale time-dilated layer for learning the temporal changes of feature vectors. We implement several comparison models to verify the performance of proposed model and calculated the frame-by-frame F-score, precision, and recall. Both the proposed model and the comparison model are trained with the same training data, and we train the model using 32 hours of Korean broadcast data which is composed of various genres (drama, news, documentary, and so on). Our proposed model shows the best performance with F-score 91.7% in Korean broadcast data. The British and Spanish broadcast data also show the highest performance with F-score 87.9% and 92.6%. As a result, our proposed model can contribute to the improvement of performance of speech detection by learning the temporal changes of the feature vectors.

Text-to-Face Generation Using Multi-Scale Gradients Conditional Generative Adversarial Networks (다중 스케일 그라디언트 조건부 적대적 생성 신경망을 활용한 문장 기반 영상 생성 기법)

  • Bui, Nguyen P.;Le, Duc-Tai;Choo, Hyunseung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.764-767
    • /
    • 2021
  • While Generative Adversarial Networks (GANs) have seen huge success in image synthesis tasks, synthesizing high-quality images from text descriptions is a challenging problem in computer vision. This paper proposes a method named Text-to-Face Generation Using Multi-Scale Gradients for Conditional Generative Adversarial Networks (T2F-MSGGANs) that combines GANs and a natural language processing model to create human faces has features found in the input text. The proposed method addresses two problems of GANs: model collapse and training instability by investigating how gradients at multiple scales can be used to generate high-resolution images. We show that T2F-MSGGANs converge stably and generate good-quality images.

Multi-level Skip Connection for Nested U-Net-based Speech Enhancement (중첩 U-Net 기반 음성 향상을 위한 다중 레벨 Skip Connection)

  • Seorim, Hwang;Joon, Byun;Junyeong, Heo;Jaebin, Cha;Youngcheol, Park
    • Journal of Broadcast Engineering
    • /
    • v.27 no.6
    • /
    • pp.840-847
    • /
    • 2022
  • In a deep neural network (DNN)-based speech enhancement, using global and local input speech information is closely related to model performance. Recently, a nested U-Net structure that utilizes global and local input data information using multi-scale has bee n proposed. This nested U-Net was also applied to speech enhancement and showed outstanding performance. However, a single skip connection used in nested U-Nets must be modified for the nested structure. In this paper, we propose a multi-level skip connection (MLS) to optimize the performance of the nested U-Net-based speech enhancement algorithm. As a result, the proposed MLS showed excellent performance improvement in various objective evaluation metrics compared to the standard skip connection, which means th at the MLS can optimize the performance of the nested U-Net-based speech enhancement algorithm. In addition, the final proposed m odel showed superior performance compared to other DNN-based speech enhancement models.