• 제목/요약/키워드: Weakly supervised training

검색결과 7건 처리시간 0.024초

약지도 음향 이벤트 검출을 위한 파형 기반의 종단간 심층 콘볼루션 신경망에 대한 연구 (A study on the waveform-based end-to-end deep convolutional neural network for weakly supervised sound event detection)

  • 이석진;김민한;정영호
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.24-31
    • /
    • 2020
  • 본 논문에서는 음향 이벤트 검출을 위한 심층 신경망에 대한 연구를 진행하였다. 특히 약하게 표기된 데이터 및 표기되지 않은 훈련 데이터를 포함하는 약지도 문제에 대하여, 입력 오디오 파형으로부터 이벤트 검출 결과를 얻어내는 종단간 신경망을 구축하는 연구를 진행하였다. 본 연구에서 제안하는 시스템은 1차원 콘볼루션 신경망을 깊게 적층하는 구조를 기반으로 하였으며, 도약 연결 및 게이팅 메커니즘 등의 추가적인 구조를 통해 성능을 개선하였다. 또한 음향 구간 검출 및 후처리를 통하여 성능을 향상시켰으며, 약지도 데이터를 다루기 위하여 평균-교사 모델을 적용하여 학습하는 과정을 도입하였다. 본 연구에서 고안된 시스템을 Detection and Classification of Acoustic Scenes and Events(DCASE) 2019 Task 4 데이터를 이용하여 평가하였으며, 그 결과 약 54 %의 구간-기반 F1-score 및 32%의 이벤트-기반 F1-score를 얻을 수 있었다.

단일 영상 기반 3차원 복원을 위한 약교사 인공지능 기술 동향 (Recent Trends of Weakly-supervised Deep Learning for Monocular 3D Reconstruction)

  • 김승룡
    • 방송공학회논문지
    • /
    • 제26권1호
    • /
    • pp.70-78
    • /
    • 2021
  • 2차원 단일 영상에서 3차원 깊이 정보를 복원하는 기술은 다양한 한계 및 산업계에서 활용도가 매우 높은 기술임이 분명하다. 하지만 2차원 영상은 임의의 3차원 정보의 투사의 결과라는 점에서 내재적 깊이 모호성(Depth ambiguity)을 가지고 있고 이를 해결하는 문제는 매우 도전적이다. 이러한 한계점은 최근 인공지능 기술의 발달에 힘입어 2차원 영상과 3차원 깊이 정보간의 대응 관계를 학습하는 알고리즘의 발달로 극복되어 지고 있다. 이러한 3차원 깊이 정보 획득을 위한 인공지능 기술을 학습하기 위해서는 대응 관계를 나타내는 대규모의 학습데이터의 필요성이 절대적인데, 이러한 데이터는 취득 및 가공 과정에서 상당한 노동력을 필요로 하기에 제한적으로 구축이 가능하다. 따라서 최근의 기술 발전 동향은 대규모의 2차원 영상과 메타 데이터를 활용하여 3차원 깊이 정보를 예측하려는 약교사(Weakly-supervised) 인공지능 기술의 발전이 주를 이루고 있다. 본 고에서는 이러한 기술 발전 동향을 장면(Scene) 3차원 복원 기술과 객체(Object) 3차원 복원 기술로 나누어 요약하고 현재의 기술들의 한계점과 향후 나아갈 방향에 대해서 토의한다.

독점 멀티 분류기의 심층 학습 모델을 사용한 약지도 시맨틱 분할 (Weakly-supervised Semantic Segmentation using Exclusive Multi-Classifier Deep Learning Model)

  • 최현준;강동중
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.227-233
    • /
    • 2019
  • 최근 딥러닝 기술의 발달과 함께 신경 네트워크는 컴퓨터 비전에서도 성공을 거두고 있다. 컨볼루션 신경망은 단순한 영상 분류 작업뿐만 아니라 객체 분할 및 검출 등 난이도가 높은 작업에서도 탁월한 성능을 보였다. 그러나 그러한 많은 심층 학습 모델은 지도학습에 기초하고 있으며, 이는 이미지 라벨보다 주석 라벨이 더 많이 필요하다. 특히 semantic segmentation 모델은 훈련을 위해 픽셀 수준의 주석을 필요로 하는데, 이는 매우 중요하다. 이 논문은 이러한 문제를 해결하기 위한 네트워크 훈련을 위해 영상 수준 라벨만 필요한 약지도 semantic segmentation 방법을 제안한다. 기존의 약지도학습 방법은 대상의 특정 영역만 탐지하는 데 한계가 있다. 반면에, 본 논문에서는 우리의 모델이 사물의 더 다른 부분을 인식하도 multi-classifier 심층 학습 아키텍처를 사용한다. 제안된 방법은 VOC 2012 검증 데이터 세트를 사용하여 평가한다.

Object Classification based on Weakly Supervised E2LSH and Saliency map Weighting

  • Zhao, Yongwei;Li, Bicheng;Liu, Xin;Ke, Shengcai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권1호
    • /
    • pp.364-380
    • /
    • 2016
  • The most popular approach in object classification is based on the bag of visual-words model, which has several fundamental problems that restricting the performance of this method, such as low time efficiency, the synonym and polysemy of visual words, and the lack of spatial information between visual words. In view of this, an object classification based on weakly supervised E2LSH and saliency map weighting is proposed. Firstly, E2LSH (Exact Euclidean Locality Sensitive Hashing) is employed to generate a group of weakly randomized visual dictionary by clustering SIFT features of the training dataset, and the selecting process of hash functions is effectively supervised inspired by the random forest ideas to reduce the randomcity of E2LSH. Secondly, graph-based visual saliency (GBVS) algorithm is applied to detect the saliency map of different images and weight the visual words according to the saliency prior. Finally, saliency map weighted visual language model is carried out to accomplish object classification. Experimental results datasets of Pascal 2007 and Caltech-256 indicate that the distinguishability of objects is effectively improved and our method is superior to the state-of-the-art object classification methods.

Integration of Multi-scale CAM and Attention for Weakly Supervised Defects Localization on Surface Defective Apple

  • Nguyen Bui Ngoc Han;Ju Hwan Lee;Jin Young Kim
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.45-59
    • /
    • 2023
  • Weakly supervised object localization (WSOL) is a task of localizing an object in an image using only image-level labels. Previous studies have followed the conventional class activation mapping (CAM) pipeline. However, we reveal the current CAM approach suffers from problems which cause original CAM could not capture the complete defects features. This work utilizes a convolutional neural network (CNN) pretrained on image-level labels to generate class activation maps in a multi-scale manner to highlight discriminative regions. Additionally, a vision transformer (ViT) pretrained was treated to produce multi-head attention maps as an auxiliary detector. By integrating the CNN-based CAMs and attention maps, our approach localizes defective regions without requiring bounding box or pixel-level supervision during training. We evaluate our approach on a dataset of apple images with only image-level labels of defect categories. Experiments demonstrate our proposed method aligns with several Object Detection models performance, hold a promise for improving localization.

약간 감독되는 포인트 클라우드 분석에서 일반 로컬 트랜스포머 네트워크 (General Local Transformer Network in Weakly-supervised Point Cloud Analysis)

  • ;이태호;;최필주;이석환;권기룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.528-529
    • /
    • 2023
  • Due to vast points and irregular structure, labeling full points in large-scale point clouds is highly tedious and time-consuming. To resolve this issue, we propose a novel point-based transformer network in weakly-supervised semantic segmentation, which only needs 0.1% point annotations. Our network introduces general local features, representing global factors from different neighborhoods based on their order positions. Then, we share query point weights to local features through point attention to reinforce impacts, which are essential in determining sparse point labels. Geometric encoding is introduced to balance query point impact and remind point position during training. As a result, one point in specific local areas can obtain global features from corresponding ones in other neighborhoods and reinforce from its query points. Experimental results on benchmark large-scale point clouds demonstrate our proposed network's state-of-the-art performance.

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.