• Title/Summary/Keyword: 적은 데이터셋 환경

Search Result 223, Processing Time 0.028 seconds

Analysis of detection rate according to the artificial dataset construction system and object arrangement structure (인조 데이터셋 구축 시스템과 오브젝트 배치 구조에 따른 검출률 분석)

  • Kim, Sang-Joon;Lee, Yu-Jin;Park, Goo-Man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.74-77
    • /
    • 2021
  • 최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.

  • PDF

POC : Establishing Dataset for Artificial Intelligence-based Crack Detection (POC : 인공지능 기반 균열 탐지를 위한 데이터셋 구축)

  • Kim, Ji-Ho;Kim, Gyeong-Yeong;Kim, Dong-Ju
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.45-48
    • /
    • 2022
  • 건축물 안전 점검은 대부분 전문가의 현장 방문을 통한 육안검사다. 그중 균열 검사는 건물 위험도를 나타내는 중요한 지표로써 발생 위치, 진행성, 크기를 조사하는데, 최근 균열 조사 방식에 대해 객관성과 체계성을 보완할 딥러닝 개발이 활발하다. 그러나 균열 이미지는 외부 현장에 모양, 규모도 많은 종류라 도메인이 다양해야 하는데 대부분 제한된 환경과 실제적인 균열 검사와는 무관한 데이터로 구성되어 실효적이지 않다. 본 연구에서는 균열 조사에 적합하고 Wild 환경에 적용 가능한 POC 데이터셋을 소개한다. 기존 균열 공인 데이터셋 4종의 특징과 한계점을 분석을 토대로 고해상도 이미지로써 균열의 세부 특징을 담았고 균열 유사 환경과 조건들을 추가 촬영해 균열 검출에 강인하게 학습되도록 지향하였다. 정제 및 라벨링 작업을 거친 POC 데이터 셋은 균열 검출모델인 YOLO-v5으로 성능을 실험하였고, mAP(mean Average Precision) 75.5%로 높은 검출률을 보였다. POC 데이터셋으로 더욱 도메인에 적응적(Domain-adapted)인 인공지능 모델을 개발하여 건물, 댐, 교량 등 각종 대형 건축물에 대한 안전하고 효과적인 안전 관리 도구로써 활용할 것을 기대한다.

  • PDF

Style-Generative Adversarial Networks for Data Augmentation of Human Images at Homecare Environments (조호환경 내 사람 이미지 데이터 증강을 위한 Style-Generative Adversarial Networks 기법)

  • Park, Changjoon;Kim, Beomjun;Kim, Inki;Gwak, Jeonghwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.565-567
    • /
    • 2022
  • 질병을 앓고 있는 환자는 상태에 따라 병실, 주거지, 요양원 등 조호환경 내 생활 시 의료 인력의 지속적인 추적 및 관찰을 통해 신체에 이상이 생긴 경우 이를 감지하고, 신속하게 조치할 수 있도록 해야 한다. 의료 인력이 직접 환자를 확인하는 방법은 의료 인력의 반복적인 노동이 요구되며 실시간으로 환자를 확인해야 한다는 특성상 의료 인력이 상주해야 하기에 이는 곧, 의료 인력의 부족과 낭비로 이어진다. 해당 문제 해결을 위해 의료 인력을 대신하여 조호환경 내 환자의 상태를 실시간으로 모니터링할 수 있는 딥러닝 모델들이 연구되고 있다. 딥러닝 모델은 데이터의 수가 많을수록 강인한 모델을 설계할 수 있으며, 데이터셋의 배경, 객체의 특징 분포 등 다양한 조건에 영향을 받기 때문에 학습에 필요한 도메인을 가지는 많은 양의 전처리된 데이터를 수집해야 한다. 따라서, 조호환경 내 환자에 대한 데이터셋이 필요하지만, 공개된 데이터셋의 경우 양이 매우 적으며 이를 반전, 회전기법 등을이용할 경우 데이터의 수를 늘릴 수 있지만, 같은 분포의 특징을 가지는 데이터가 생성되기에 데이터 증강 기법을 단순하게 적용하면 딥러닝 모델의 과적합을 야기한다. 또한, 조호환경 내 이미지 데이터셋은 얼굴 노출과 같은 개인정보가 포함 될 수 있으며 이를 보호하기 위해 정보들을 비식별화 해야 한다는 문제점이 있다. 따라서 본 논문에서는 조호환경에서 수집된 데이터 증강을 위한 Style-Generative Adversarial Networks 기법을 적용하여 조호환경 데이터셋 수집에 효과적인 증강 기법을 제안한다.

Face Search Method Based on Face Feature Extraction and Clustering (얼굴 특징 추출 및 클러스터링을 활용한 얼굴 검색 기법)

  • Shin, Junho;Kim, Jong-hwan;Cho, Sukhee;Kim, Junghak;Koh, Yeong Jun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.95-96
    • /
    • 2021
  • 최근 미디어의 발전으로 빠른 속도로 많은 양의 사람들의 얼굴이 포함된 사진, 동영상들이 인터넷에 업로드 되고 있다. 이러한 현상에 맞춰 인공지능을 활용한 얼굴 인식 기술의 놀라운 발전이 있었으나, 대규모 데이터셋에서 임의의 인물을 검색하는 경우에서는 연산량과 저장공간의 부담이 존재한다. 특히, 인터넷에 존재하는 수많은 불법 촬영물에서 피해자를 정확하고 신속하게 검색하기 위해서는 효율적인 얼굴 검색 시스템이 필요하다. 따라서, 본 논문은 얼굴 특징 추출과 클러스터링을 활용하여 방대한 양의 불법 촬영물 셋에서 피해자 동영상을 효율적으로 검색할 수 있는 기법을 제안한다. 불법 촬영물 동영상 검색 실험 환경을 만들기 위해 YouTube Faces [1] 데이터셋으로 유사 동영상 셋을 만들고 이 환경에서 실험을 진행한다. 얼굴 특징 추출 모델은 ResNet100 네트워크를 CosFace 손실함수와 Glint360K 데이터셋으로 학습시킨 모델 [2]을 사용한다. 추출된 얼굴 특징들을 HAC(Hierarchical Agglomerative Clustering) 알고리즘으로 클러스터링 한 후, 클러스터 대푯값을 통해 얼굴 검색 실험을 했을 때의 실험 결과를 분석한다.

  • PDF

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning (Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석)

  • Kaibalina, Nazira;Park, Seong-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.437-440
    • /
    • 2021
  • 지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

H-PaDiM : Anomaly Segmentation Performance Analysis Based on PaDiM-Based Homogeneous Ensemble Method (H-PaDiM : PaDiM 기반 동종 앙상블 기법에 따른 이상 탐지성능 분석)

  • Kim, InKi;Gwak, Jeonghwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.95-97
    • /
    • 2022
  • 본 논문에서는 산업 현장에서 발생하는 불량품 탐지 분야에서 효율적으로 생산품의 불량을 탐지할 수 있는 PaDiM 구조의 Backbone 모델을 단일 Wide-ResNet 대신 두 개의 Wide-ResNet을 사용함으로써, 단일 모델에서 추출된 저차원의 Feature를 앙상블을 통해 성능 향상을 일으킬 수 있는 것을 증명하였다. 단일 Wide-ResNet 환경에서는 MVTec 데이터셋에서 생성된 다변량 가우시안 분포가 데이터셋의 적은 샘플수로 인하여 각 클래스 간 불균형이 발생하는 문제를 동종 앙상블을 통해 해결할 수 있었다. 따라서 본 논문에서는 제안하는 동종 모델의 앙상블을 사용함으로써 기존의 One-class classification 환경에서 불량품 탐지환경에서 적은 수의 데이터 샘플 환경에서 성능 향상을 나타낼 수 있음을 입증하였다.

  • PDF

Location-based UCI Sensor time series data analysis (위치 기반의 UCI Sensor 시계열 데이터 분석)

  • Chang, Il-Sik;Park, Goo-man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.7-8
    • /
    • 2021
  • 인공지능 기술과 서비스는 딥러닝을 중심으로 한 기계학습 기술의 급속한 발전에서 원인을 둔다. 딥러닝 발전 요인으로 GPU등 하드웨어 발전, 기술 공유, 대규모 학습데이터 구축 및 공개를 들 수 있다. 데이터 셋에 관련하여 센서를 이용한 데이터셋의 경우 단순히 많은 데이터셋의 확보뿐 아니라 적절한 위치 및 환경에 따른 고려가 필요하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 위치별 시계열 데이터를 딥러닝을 이용하여 분석하고, 위치별 정확도와 손실을 계산한다. 또한 계산된 결과를 히트맵을 통하여 시각화하여 직관적인 이해를 높인다. 또한 위치별 정확도가 높은 상위 5개의 위치에서 앙상블 방법을 통한 성능의 향상을 확인 하였다.

  • PDF

Robust Detection Deep Learning Model in the Various Exterior Wall Cracks (다양한 외벽 균열에 강인한 딥러닝 검출 모델 개발)

  • Kim, Gyeong-Yeong;Lee, Ho-Ryeong;Kim, Dong-Ju
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.53-56
    • /
    • 2021
  • 국내 산업화가 들어선 후 산업화 당시 지었던 낙후된 건물의 증가에 따라 구조물의 손상 조사 및 검사 방법의 수요가 늘어나고 있다. 일반적으로 구조물의 손상은 전문 검사원이 현장에서 직접 측량도구와 시각적인 방식으로 검사한다. 그러나 전문 검사원들이 직접 조사하는 수고에 비해 균열을 검사하는 방식 자체가 단순하고, 일반 사람이 검사하기에는 객관성이 떨어지는 한계가 있어 균열을 자동적으로 검출함으로써 객관성과 편의성을 보장할 기술이 필요하다. 본 연구에서는 이미지 기반으로 다양한 환경에서의 외벽 균열을 검출할 수 있는 딥러닝 모델 개발을 소개한다. 균열 검출을 위해 다양한 외벽 균열 관련 데이터셋을 확보 및 구축하고 각 데이터셋의 검출 정보를 보완할 반자동(semi-auto) 라벨링 작업을 수행하였다. 두 번째로 기존 높은 검출 성능을 보였던 모델들을 선정 및 비교하여 YOLO v5 모델을 최종적으로 선정하였고, 도메인이 각각 다른 데이터셋에 대한 교차 학습을 통해 각 데이터셋의 mAP의 편차가 31%에서 11%로 좁히는 작업을 수행하였다. 이를 통해 실제 상황에서의 균열 영상에서 균열을 검출할 수 있는 측량 시스템을 개발함으로써 실질적인 검사의 도구로 활용될 수 있길 기대한다.

  • PDF

Compound Outlier Assessment and Verification for Multiple Field Monitoring Data (다수 계측 데이터에 대한 복합 이상치 평가 및 검증)

  • Jeon, Jesung
    • Journal of the Korean GEO-environmental Society
    • /
    • v.19 no.1
    • /
    • pp.5-14
    • /
    • 2018
  • All kinds of monitoring data in construction site could have outlier created from diverse cause. In this study generation technique of synthesis value, its regression, final outlier detection and assessment are conducted to distinct outlier data included in extensive time series dataset. Synthesis value having weight factor of correlation between a number of datasets consist of many monitoring data enable to detect outlier by increasing its correlation. Standard artificial dataset in which intentional outliers are inserted has been used for assessment of synthesis value technique. These results showed increase of detection accuracy for outlier and general tendency in case of having different time series models in common. Accuracy of outlier detection increased in case of using more dataset and showing similar time series pattern.

A Simulation Model for the Creation of RFID Business Events (RFID 비즈니스 이벤트의 생성을 위한 시뮬레이션 모델)

  • Ryu, Wooseok
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.11
    • /
    • pp.2609-2614
    • /
    • 2013
  • Adoption of RFID has become widespread including logistics, drug supply-chain, and healthcare. To adopt RFID, we need to evaluate performance and feasibility of RFID S/W such as EPC Information Service (EPCIS), which demands a variety of test datasets of RFID business events. This paper proposes a novel method for creating RFID business events dataset by means of the simulation of RFID infrastructure. Proposed model provides a flexible representation capability since this is based on well-known petri-net. In addition, it can also be useful when determining adoption of RFID as it supports simulation of RFID environment.