• 제목/요약/키워드: 합성 데이터 셋

검색결과 130건 처리시간 0.031초

단안비디오로부터 광폭 베이스라인을 갖는 라이트필드 합성기법 (Wide-baseline LightField Synthesis from monocular video)

  • 백형선;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.95-96
    • /
    • 2021
  • 본 논문에서는 단안비디오 입력으로부터 각 SAI(sub-aperture image)간의 넓은 기준선을 갖는 라이트필드 합성기법을 제안한다. 기존의 라이트필드 영상은 취득의 어려움에 의해 규모가 작고 특정 물체위주로 구성되어 있어 컴퓨터 비전 및 그래픽스 분야의 최신 딥러닝 기법들을 라이트필드 분야에 적용하기 어렵다는 문제를 갖고 있다. 이러한 문제점들을 해결하기 위해 사실적 렌더링 기반의 가상환경상에서 실제환경과 유사함을 갖는 데이터를 취득하였다. 생성한 데이터셋을 이용하여 기존의 새로운 시점을 생성하는 기법 중 하나인 다중 평면 영상(Multi Plane Image) 기반 합성기법을 통해 라이트필드 영상을 합성한다. 제안하는 네트워크는 단안비디오의 연속된 두개의 프레임으로부터 MPI 추정하는 네트워크와 입력영상의 깊이 정보를 추정하는 네트워크로 구성되어 있다.

  • PDF

심층신경망의 더블 프루닝 기법의 적용 및 성능 분석에 관한 연구 (Application and Performance Analysis of Double Pruning Method for Deep Neural Networks)

  • 이선우;양호준;오승연;이문형;권장우
    • 융합정보논문지
    • /
    • 제10권8호
    • /
    • pp.23-34
    • /
    • 2020
  • 최근 인공지능 딥러닝 분야는 컴퓨팅 자원의 높은 연산량과 가격문제로 인해 상용화에 어려움이 존재했다. 본 논문은 더블 프루닝 기법을 적용하여 심층신경망 모델들과 다수의 데이터셋에서의 성능을 평가하고자 한다. 더블 프루닝은 기본의 네트워크 간소화(Network-Slimming)과 파라미터 프루닝(Parameter-Pruning)을 결합한다. 이는 기존의 학습에 중요하지 않는 매개변수를 절감하여 학습 정확도를 저해하지 않고 속도를 향상시킬 수 있다는 장점이 있다. 다양한 데이터셋 학습 이후에 프루닝 비율을 증가시켜, 모델의 사이즈를 감소시켰다. NetScore 성능 분석 결과 MobileNet-V3가 가장 성능이 높게 나타났다. 프루닝 이후의 성능은 Cifar 10 데이터셋에서 깊이 우선 합성곱 신경망으로 구성된 MobileNet-V3이 가장 성능이 높았고, 전통적인 합성곱 신경망으로 이루어진 VGGNet, ResNet또한 높은 폭으로 성능이 증가함을 확인하였다.

Vector and Thickness Based Learning Augmentation Method for Efficiently Collecting Concrete Crack Images

  • Jong-Hyun Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.65-73
    • /
    • 2023
  • 본 논문에서는 콘크리트 균열 이미지 데이터셋을 효율적으로 얻기 위한 합성곱 신경망 네트워크 학습 기반의 데이터 증강기법을 제안한다. 실제 콘크리트 균열 이미지는 정형화된 형태가 없고 복잡한 패턴을 지니고 있어 얻기 어려울 뿐만 아니라, 데이터를 확보할 때 위험한 상황에 노출될 우려가 있다. 이러한 상황에 노출된 데이터셋 수집 문제를 본 논문에서는 벡터와 두께 기반의 데이터 증강 기법을 통해 비용과 시간적 측면에서 효율적으로 해결한다. 또한 제안한 방법을 효율성을 입증하고자 U-Net기반의 균열 검출을 통해 다양한 장면에서 실험을 진행했고, IoU 정확도로 측정했을 때 모든 장면에서 성능이 향상되었다. 콘크리트 균열 데이터를 증강하지 않았을 경우 잘못 예측된 경우의 비율이 약 25%였으나, 우리의 방법을 통해 데이터 증강을 했을 경우 잘못 예측된 비율이 3%까지 감소하였다.

자막방송을 위한 잔차 합성곱 순환 신경망 기반 음향 사건 분류 (Residual Convolutional Recurrent Neural Network-Based Sound Event Classification Applicable to Broadcast Captioning Services)

  • 김남균;김홍국;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.26-27
    • /
    • 2021
  • 본 논문에서는 자막방송 제공을 위해 방송콘텐츠를 이해하는 방법으로 잔차 합성곱 순환신경망 기반 음향 사건 분류 기법을 제안한다. 제안된 기법은 잔차 합성곱 신경망과 순환 신경망을 연결한 구조를 갖는다. 신경망의 입력 특징으로는 멜-필터벵크 특징을 활용하고, 잔차 합성곱 신경망은 하나의 스템 블록과 5개의 잔차 합성곱 신경망으로 구성된다. 잔차 합성곱 신경망은 잔차 학습으로 구성된 합성곱 신경망과 기존의 합성곱 신경망 대비 특징맵의 표현 능력 향상을 위해 합성곱 블록 주의 모듈로 구성한다. 추출된 특징맵은 순환 신경망에 연결되고, 최종적으로 음향 사건 종류와 시간정보를 추출하는 완전연결층으로 연결되는 구조를 활용한다. 제안된 모델 훈련을 위해 라벨링되지 않는 데이터 활용이 가능한 평균 교사 모델을 기반으로 훈련하였다. 제안된 모델의 성능평가를 위해 DCASE 2020 챌린지 Task 4 데이터 셋을 활용하였으며, 성능 평가 결과 46.8%의 이벤트 단위의 F1-score를 얻을 수 있었다.

  • PDF

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

시계열 생성적 적대 신경망을 이용한 비행체 궤적 합성 데이터 생성 및 비행체 궤적 예측에서의 활용에 관한 연구 (A Study on Synthetic Flight Vehicle Trajectory Data Generation Using Time-series Generative Adversarial Network and Its Application to Trajectory Prediction of Flight Vehicles)

  • 박인희;이창진;정찬호
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.766-769
    • /
    • 2021
  • 딥러닝을 포함한 머신러닝 기법을 기반으로 비행체의 궤적 설계, 제어, 최적화, 예측 등의 작업을 수행하기 위해서는 일정한 양 이상의 비행체 궤적 데이터를 필요로 한다. 그러나 다양한 이유(예를 들어 비행체 궤적 데이터셋 구축에 필요한 비용, 시간, 인력 등)로 일정한 양 이상의 비행체 궤적 데이터를 확보하기 어려운 경우가 존재한다. 이러한 경우 합성 데이터 생성이 머신러닝을 가능하게 하는 방법 중 하나가 될 수 있다. 본 논문에서는 이와 같은 가능성을 탐구하기 위하여 시계열 생성적 적대 신경망을 이용하여 비행체 궤적 합성 데이터를 생성하고 평가하였다. 또한 비행체의 상태를 인식하기 위한 비행체 궤적 예측 작업에서 합성 데이터의 활용 가능성을 탐구하기 위하여 다양한 ablation study(비교 실험)를 수행하였다. 본 논문에서 제시된 생성 평가 및 비교 실험 결과는 비행체 궤적 합성 데이터 생성 및 비행체 궤적 관련 작업에서 합성 데이터의 활용 가능성에 대한 연구를 수행하고자 하는 연구자들에게 실질적인 도움이 될 것으로 예상한다.

국방용 합성이미지 데이터셋 생성을 위한 대립훈련신경망 기술 적용 연구 (Synthetic Image Dataset Generation for Defense using Generative Adversarial Networks)

  • 양훈민
    • 한국군사과학기술학회지
    • /
    • 제22권1호
    • /
    • pp.49-59
    • /
    • 2019
  • Generative adversarial networks(GANs) have received great attention in the machine learning field for their capacity to model high-dimensional and complex data distribution implicitly and generate new data samples from the model distribution. This paper investigates the model training methodology, architecture, and various applications of generative adversarial networks. Experimental evaluation is also conducted for generating synthetic image dataset for defense using two types of GANs. The first one is for military image generation utilizing the deep convolutional generative adversarial networks(DCGAN). The other is for visible-to-infrared image translation utilizing the cycle-consistent generative adversarial networks(CycleGAN). Each model can yield a great diversity of high-fidelity synthetic images compared to training ones. This result opens up the possibility of using inexpensive synthetic images for training neural networks while avoiding the enormous expense of collecting large amounts of hand-annotated real dataset.

AI 아나운서 : 인공지능 기술을 이용한 정보 전달 소프트웨어 (AI Announcer : Information Transfer Software Using Artificial Intelligence Technology)

  • 김혜원;이영은;이홍창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.937-940
    • /
    • 2020
  • 본 논문은 AI 기술을 기반으로 텍스트 스크립트를 자동으로 인식하고 영상 합성 기술을 응용하여 텍스트 정보를 시각화하는 AI 아나운서 소프트웨어 연구에 대하여 기술한다. 기존의 AI 기반 영상 정보 전달 서비스인 AI 앵커는 텍스트를 인식하여 영상을 합성하는데 오랜 시간이 필요하였으며, 특정 인물 이미지로만 영상 합성이 가능했기 때문에 그 용도가 제한적이었다. 본 연구에서 제안하는 방법은 Tacotron 으로 새로운 음성을 학습 및 합성하여, LRW 데이터셋으로 학습된 모델을 사용하여 자연스러운 영상 합성 체계를 구축한다. 단순한 얼굴 이미지의 합성을 개선하고 다채로운 이미지 제작을 위한 과정을 간략화하여 다양한 비대면 영상 정보 제공 환경을 구성할 수 있을 것으로 기대된다.

완전 합성곱 신경망을 활용한 자동 포트홀 탐지 기술의 개발 및 평가 (Development and Evaluation of Automatic Pothole Detection Using Fully Convolutional Neural Networks)

  • 전찬준;심승보;강성모;류승기
    • 한국ITS학회 논문지
    • /
    • 제17권5호
    • /
    • pp.55-64
    • /
    • 2018
  • 운전자의 안전사고에 직접적인 원인이 되고, 차량 파손을 유발시켜 재산상의 피해를 발생시키고 있는 포트홀을 완전 합성곱 신경망 기반의 자동으로 탐지하는 기법을 본 논문에서는 제안한다. 먼저, 실제 국내 도로를 주행하면서 차량에 설치된 카메라를 통하여 학습 데이터셋을 수집하고, 완전 합성곱 신경망 구조를 활용하여 의미론적 분할 형태로 신경망을 학습하였다. 어두운 환경에서 강건한 성능을 보이기 위하여 학습 데이터셋을 밝기에 따라서 증강하여 총 30,000장의 이미지를 학습하였다. 또한, 제안된 자동 포트홀 탐지 기술의 성능을 검증하기 위하여 총 450장의 평가 DB를 생성하였고, 총 네 명의 전문가가 각각의 이미지를 평가하였다. 평가 결과, 제안된 포트홀 탐지 기술은 높은 민감도 수치를 나타나는 것으로 평가 되었으며, 이는 정탐에서 강건한 성능을 보이는 것으로 해석 가능하다.

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF