• Title/Summary/Keyword: AI 데이터셋

Search Result 224, Processing Time 0.023 seconds

Building-up and Feasibility Study of Image Dataset of Field Construction Equipments for AI Training (인공지능 학습용 토공 건설장비 영상 데이터셋 구축 및 타당성 검토)

  • Na, Jong Ho;Shin, Hyu Soun;Lee, Jae Kang;Yun, Il Dong
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.43 no.1
    • /
    • pp.99-107
    • /
    • 2023
  • Recently, the rate of death and safety accidents at construction sites is the highest among all kinds of industries. In order to apply artificial intelligence technology to construction sites, it is essential to secure a dataset which can be used as a basic training data. In this paper, a number of image data were collected through actual construction site, for which major construction equipment objects mainly operated in civil engineering sites were defined. The optimal training dataset construction was completed by annotation process of about 90,000 image dataset. Reliability of the dataset was verified with the mAP of over 90 % in use of YOLO, a representative model in the field of object detection. The construction equipment training dataset built in this study has been released which is currently available on the public data portal of the Ministry of Public Administration and Security. This dataset is expected to be freely used for any application of object detection technology on construction sites especially in the field of construction safety in the future.

Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction (정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론)

  • Myunghoon Kang;Jungseob Lee;Seungjun Lee;Hyeonseok Moon;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.485-490
    • /
    • 2022
  • 데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

  • PDF

Instance Segmentation Based Tomato Pests Disease Detection for Feasibility Evaluation (인스턴스 세그멘테이션 기반 토마토 병충해 탐지 모델 구현 및 적용성 평가)

  • Kim, Eunkyeoung;Park, Junyong;Moon, Yong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.417-419
    • /
    • 2022
  • 농축업에 ICT 기술을 접목한 스마트 팜은 생육환경을 자동으로 조절하여 노동력 등을 줄이고도 생산성과 품질을 향상시키는 것이 큰 장점이다. 하지만, 수익으로 이어지는 출하량과 품질 유지를 위해서 병충해에 주의를 기울여야 함은 여전하다. 따라서 토마토 잎 병충해 발생 시, 적절한 대응을 통해 더 큰 피해를 막을 수 있으므로, 초기 증상을 포착하는 기법을 개발한다. 오픈 데이터 셋인 Ai hub 의 시설작물 질병 데이터셋과 추가로 확보한 샘플을 포함해 2 개의 충해, 4 개의 병해에 1,231 장으로 데이터셋을 직접 구성해서 학습했다. 객체 탐지와 세그먼테이션이 동시에 가능하며 작은 병변도 잘 탐지하는 모델을 사용해서 총 6 가지 병충해에 대한 뚜렷한 증상 탐지를 보여주었다.

Development of Game Graphics and AI Picture Classification Model for Real-Life Images on CNN (CNN 기반의 실사 이미지에 대한 게임 그래픽과 AI 그림 분류 모델 개발)

  • Seung-Bo Park;Dong-Hwi Cho;Seo-Young Choi;Eun-Ji Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.465-466
    • /
    • 2023
  • AI 기술의 발전으로 AI가 그린 그림과 인간이 직접 그린 그림을 식별하는 것이 어려워졌다. AI 기술을 통해 작품을 특정 화풍으로 그리는 것이 쉬워져 작품 도용과 평가 절하가 증가하고 있으며, AI가 인간과 유사하게 그림을 표현하는 경우 딥페이크 피싱과 같은 악용 사례도 늘어나고 있다. 따라서 본 논문에서는 AI 그림을 식별하기 위한 인공지능 모델 개발을 목표로 하고 있으며, 데이터셋을 구축하여 인공지능 기술을 활용한 알고리즘을 개발한다. YOLO Segmentation과 CNN을 활용하여 학습을 진행하고, 이를 통해 도용과 딥페이크 피해를 방지하는 프로세스를 제안한다.

  • PDF

Kernel-Based Video Frame Interpolation Techniques Using Feature Map Differencing (특성맵 차분을 활용한 커널 기반 비디오 프레임 보간 기법)

  • Dong-Hyeok Seo;Min-Seong Ko;Seung-Hak Lee;Jong-Hyuk Park
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.13 no.1
    • /
    • pp.17-27
    • /
    • 2024
  • Video frame interpolation is an important technique used in the field of video and media, as it increases the continuity of motion and enables smooth playback of videos. In the study of video frame interpolation using deep learning, Kernel Based Method captures local changes well, but has limitations in handling global changes. In this paper, we propose a new U-Net structure that applies feature map differentiation and two directions to focus on capturing major changes to generate intermediate frames more accurately while reducing the number of parameters. Experimental results show that the proposed structure outperforms the existing model by up to 0.3 in PSNR with about 61% fewer parameters on common datasets such as Vimeo, Middle-burry, and a new YouTube dataset. Code is available at https://github.com/Go-MinSeong/SF-AdaCoF.

A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm (딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구)

  • Kang, Ye-Jee;Kang, Hye-Rin;Park, Seo-Yoon;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

A Comparative Study on Data Augmentation Using Generative Models for Robust Solar Irradiance Prediction

  • Jinyeong Oh;Jimin Lee;Daesungjin Kim;Bo-Young Kim;Jihoon Moon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.11
    • /
    • pp.29-42
    • /
    • 2023
  • In this paper, we propose a method to enhance the prediction accuracy of solar irradiance for three major South Korean cities: Seoul, Busan, and Incheon. Our method entails the development of five generative models-vanilla GAN, CTGAN, Copula GAN, WGANGP, and TVAE-to generate independent variables that mimic the patterns of existing training data. To mitigate the bias in model training, we derive values for the dependent variables using random forests and deep neural networks, enriching the training datasets. These datasets are integrated with existing data to form comprehensive solar irradiance prediction models. The experimentation revealed that the augmented datasets led to significantly improved model performance compared to those trained solely on the original data. Specifically, CTGAN showed outstanding results due to its sophisticated mechanism for handling the intricacies of multivariate data relationships, ensuring that the generated data are diverse and closely aligned with the real-world variability of solar irradiance. The proposed method is expected to address the issue of data scarcity by augmenting the training data with high-quality synthetic data, thereby contributing to the operation of solar power systems for sustainable development.

A Study on the Implementation of Real-Time Marine Deposited Waste Detection AI System and Performance Improvement Method by Data Screening and Class Segmentation (데이터 선별 및 클래스 세분화를 적용한 실시간 해양 침적 쓰레기 감지 AI 시스템 구현과 성능 개선 방법 연구)

  • Wang, Tae-su;Oh, Seyeong;Lee, Hyun-seo;Choi, Donggyu;Jang, Jongwook;Kim, Minyoung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.3
    • /
    • pp.571-580
    • /
    • 2022
  • Marine deposited waste is a major cause of problems such as a lot of damage and an increase in the estimated amount of garbage due to abandoned fishing grounds caused by ghost fishing. In this paper, we implement a real-time marine deposited waste detection artificial intelligence system to understand the actual conditions of waste fishing gear usage, distribution, loss, and recovery, and study methods for performance improvement. The system was implemented using the yolov5 model, which is an excellent performance model for real-time object detection, and the 'data screening process' and 'class segmentation' method of learning data were applied as performance improvement methods. In conclusion, the object detection results of datasets that do screen unnecessary data or do not subdivide similar items according to characteristics and uses are better than the object recognition results of unscreened datasets and datasets in which classes are subdivided.

Transfer Learning-based Generated Synthetic Images Identification Model (전이 학습 기반의 생성 이미지 판별 모델 설계)

  • Chaewon Kim;Sungyeon Yoon;Myeongeun Han;Minseo Park
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.2
    • /
    • pp.465-470
    • /
    • 2024
  • The advancement of AI-based image generation technology has resulted in the creation of various images, emphasizing the need for technology capable of accurately discerning them. The amount of generated image data is limited, and to achieve high performance with a limited dataset, this study proposes a model for discriminating generated images using transfer learning. Applying pre-trained models from the ImageNet dataset directly to the CIFAKE input dataset, we reduce training time cost followed by adding three hidden layers and one output layer to fine-tune the model. The modeling results revealed an improvement in the performance of the model when adjusting the final layer. Using transfer learning and then adjusting layers close to the output layer, small image data-related accuracy issues can be reduced and generated images can be classified.

Grade Analysis and Two-Stage Evaluation of Beef Carcass Image Using Deep Learning (딥러닝을 이용한 소도체 영상의 등급 분석 및 단계별 평가)

  • Kim, Kyung-Nam;Kim, Seon-Jong
    • The Journal of the Convergence on Culture Technology
    • /
    • v.8 no.2
    • /
    • pp.385-391
    • /
    • 2022
  • Quality evaluation of beef carcasses is an important issue in the livestock industry. Recently, through the AI monitor system based on artificial intelligence, the quality manager can receive help in making accurate decisions based on the analysis of beef carcass images or result information. This artificial intelligence dataset is an important factor in judging performance. Existing datasets may have different surface orientation or resolution. In this paper, we proposed a two-stage classification model that can efficiently manage the grades of beef carcass image using deep learning. And to overcome the problem of the various conditions of the image, a new dataset of 1,300 images was constructed. The recognition rate of deep network for 5-grade classification using the new dataset was 72.5%. Two-stage evaluation is a method to increase reliability by taking advantage of the large difference between grades 1++, 1+, and grades 1 and 2 and 3. With two experiments using the proposed two stage model, the recognition rates of 73.7% and 77.2% were obtained. As this, The proposed method will be an efficient method if we have a dataset with 100% recognition rate in the first stage.