• Title/Summary/Keyword: 인공지능 데이터셋

Search Result 294, Processing Time 0.034 seconds

A Survey of Fashion Datasets for AI Training (인공지능 학습용 패션 데이터셋 최근 동향 조사)

  • Jin, Hailin;Piao, Zhegao;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.637-642
    • /
    • 2020
  • 패션산업은 매년 1 조원씩 성장(연평균 2.1%)하며 많은 연구자들의 관심을 받고 있다. 전통적인 패션산업은 점차 디지털화되어 선진적인 컴퓨터 비전 기술을 적용해 소비자들에게 더 좋은 쇼핑 서비스를 제공하고 있다. 본 논문에서는 2014 년부터 2019 년 사이에 구축된 대표적인 패션 데이터셋을 연도별로 정리하고 각 데이터셋에 포함된 주석(annotation)의 특징을 정리했다. 또한 데이터셋이 패션 상품 검출(Fashion detection), 패션 이미지 생성(Fashion image generation), 가상 피팅(Virtual try-on) 그리고 패션 의류 분할(Fashion Clothing segmentation) 등 연구에서의 활용될 수 있는 여부에 대해 분석했다.

  • PDF

A Data Sampling Technique for Secure Dataset Using Weight VAE Oversampling(W-VAE) (가중치 VAE 오버샘플링(W-VAE)을 이용한 보안데이터셋 샘플링 기법 연구)

  • Kang, Hanbada;Lee, Jaewoo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.12
    • /
    • pp.1872-1879
    • /
    • 2022
  • Recently, with the development of artificial intelligence technology, research to use artificial intelligence to detect hacking attacks is being actively conducted. However, the fact that security data is a representative imbalanced data is recognized as a major obstacle in composing the learning data, which is the key to the development of artificial intelligence models. Therefore, in this paper, we propose a W-VAE oversampling technique that applies VAE, a deep learning generation model, to data extraction for oversampling, and sets the number of oversampling for each class through weight calculation using K-NN for sampling. In this paper, a total of five oversampling techniques such as ROS, SMOTE, and ADASYN were applied through NSL-KDD, an open network security dataset. The oversampling method proposed in this paper proved to be the most effective sampling method compared to the existing oversampling method through the F1-Score evaluation index.

Multi-faceted Image Dataset Construction Method Based on Rotational Images. (회전 영상 기반 다면 영상 데이터셋 구축 방법)

  • Kim, Ji-Seong;Heo, Gyeongyong;Jang, Si-Woong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.75-77
    • /
    • 2021
  • In order to find objects in an image through deep learning technology, an image dataset for learning is required. In order to increase the recognition rate of objects, a large amount of image learning data is required. It is difficult for individuals to build large amounts of datasets because it is expensive. This paper introduces a method for more easily constructing an image dataset including several sides of an object by photographing a rotating image. A method of constructing a dataset by placing an object on a rotating plate, photographing it, and dividing and synthesizing the captured images according to the needs is proposed.

  • PDF

Token-Based Classification and Dataset Construction for Detecting Modified Profanity (변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋)

  • Sungmin Ko;Youhyun Shin
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.181-188
    • /
    • 2024
  • Traditional profanity detection methods have limitations in identifying intentionally altered profanities. This paper introduces a new method based on Named Entity Recognition, a subfield of Natural Language Processing. We developed a profanity detection technique using sequence labeling, for which we constructed a dataset by labeling some profanities in Korean malicious comments and conducted experiments. Additionally, to enhance the model's performance, we augmented the dataset by labeling parts of a Korean hate speech dataset using one of the large language models, ChatGPT, and conducted training. During this process, we confirmed that filtering the dataset created by the large language model by humans alone could improve performance. This suggests that human oversight is still necessary in the dataset augmentation process.

Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection (SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상)

  • Kim, Jong Hoon;Oh, Hayoung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.11
    • /
    • pp.455-464
    • /
    • 2022
  • There are two unique characteristics of the datasets from a manufacturing process. They are the severe class imbalance and lots of Out-of-Distribution samples. Some good strategies such as the oversampling over the minority class, and the down-sampling over the majority class, are well known to handle the class imbalance. In addition, SMOTE has been chosen to address the issue recently. But, Out-of-Distribution samples have been studied just with neural networks. It seems to be hardly shown that Out-of-Distribution detection is applied to the predictive model using conventional machine learning algorithms such as SVM, Random Forest and KNN. It is known that conventional machine learning algorithms are much better than neural networks in prediction performance, because neural networks are vulnerable to over-fitting and requires much bigger dataset than conventional machine learning algorithms does. So, we suggests a new approach to utilize Out-of-Distribution detection based on SVM algorithm. In addition to that, bagging technique will be adopted to improve the precision of the model.

Machine Reading Comprehension System to Solve Unanswerable Problems using Method of Mimicking Reading Comprehension Patterns (기계독해 시스템에서 답변 불가능 문제 해결을 위한 독해 패턴 모방 방법)

  • Lee, Yejin;Jang, Youngjin;Lee, Hyeon-gu;Shin, Dongwook;Park, Chanhoon;Kang, Inho;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.139-143
    • /
    • 2021
  • 최근 대용량 말뭉치를 기반으로 한 언어 모델이 개발됨에 따라 다양한 자연어처리 분야에서 사람보다 높은 성능을 보이는 시스템이 제안되었다. 이에 따라, 더 어렵고 복잡한 문제를 해결하기 위한 데이터셋들이 공개되었으며 대표적으로 기계독해 작업에서는 시스템이 질문에 대해 답변할 수 없다고 판단할 수 있는지 평가하기 위한 데이터셋이 공개되었다. 입력 받은 데이터에 대해 답변할 수 없다고 판단하는 것은 실제 애플리케이션에서 중요한 문제이기 때문에, 이를 해결하기 위한 연구도 다양하게 진행되었다. 본 논문에서는 문서를 이해하여 답변할 수 없는 데이터에 대해 효과적으로 판단할 수 있는 기계독해 시스템을 제안한다. 제안 모델은 문서의 내용과 질문에 대한 이해도가 낮을 경우 정확한 정답을 맞히지 못하는 사람의 독해 패턴에서 착안하여 기계독해 시스템의 문서 이해도를 높이고자 한다. KLUE-MRC 개발 데이터를 통한 실험에서 EM, Rouge-w 기준으로 각각 71.73%, 76.80%을 보였다.

  • PDF

For creating a Dataset Image URI and Metadata Collection Web Crawler (데이터셋 생성을 위한 이미지 URI 및 메타데이터 수집 크롤러)

  • Park, June-Hong;Kim, Seok-Jin;Jung, Yeon-Uk;Lee, Dong-Uk;Jeong, YoungJu;Seo, Dong-Mahn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1082-1084
    • /
    • 2019
  • 인공지능 학습에 대한 관심이 증가하면서 학습에 필요한 데이터셋 구축에 필요한 많은 양의 데이터가 필요하다. 데이터셋 구축에 필요한 데이터들을 효과적으로 수집하기 위한 키워드 기반 웹크롤러를 제안한다. 구글 검색 API 를 기반으로 웹 크롤러를 설계하였으며 사용자가 입력한 키워드를 바탕으로 이미지의 URI 와 메타데이터를 지속적으로 수집하는 크롤러이다. 수집한 URI 와 메타데이터는 데이터베이스를 통해 관리한다. 향후 다른 검색 API 에서도 동작하고 다중 쓰레드를 활용하여 크롤링하는 속도를 높일 예정이다.

A Study on Creating a Dataset(G-Dataset) for Training Neural Networks for Self-diagnosis of Ocular Diseases (안구 질환 자가 검사용 인공 신경망 학습을 위한 데이터셋(G-Dataset) 구축 방법 연구)

  • Hyelim Lee;Jaechern Yoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.580-581
    • /
    • 2024
  • 고령화 사회에 접어들면서 황반 변성과 당뇨 망막 병증 등 시야결손을 동반하는 안구 질환의 발병률은 증가하지만 이러한 질환의 조기 발견에 인공지능을 접목시킨 연구는 부족한 실정이다. 본 논문은 안구 질환 자가 검사용 인공 신경망을 학습시키기 위한 데이터 베이스 구축 방법을 제안한다. MNIST와 CIFAR-10을 합성하여 중첩 이미지 데이터셋인 G-Dataset을 생성하였고, 7개의 인공신경망에 학습시켜 최종적으로 90% 이상의 정확도를 얻음으로 그 유효성을 입증하였다. G-Dataset을 안구 질환 자가 검사용 딥러닝 모델에 학습시켜 모바일 어플에 적용하면 사용자가 주기적인 검사를 통해 안구 질환을 조기에 진단하고 치료할 수 있을 것으로 기대된다.

AutoML-based Refrigerant Leakage Detection of Air-Conditioning System (머신러닝 기반 실내 냉방기의 냉매누설 검출 방법)

  • Woo, Yeoungju;Kim, Yumin;Ahn, Sohyun;Ko, Seoyeong;Nguyen, Hang Thi Phuong;Shin, Choonsung;Jeong, Hieyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.391-392
    • /
    • 2021
  • 해마다 실내 냉방기 냉매누설 문제가 고질적으로 반복되며 소비자들의 피해도 커져가고 있다. 특히 제조사와 설치 업체가 다른 경우 냉매 누수의 원인이 제품인지, 설치하자인지 책임소재를 두고 갈등을 빚는 경우가 빈번하다. 이에 더 이상 소비자들의 피해를 막기 위해 냉매누설 검출 방안 마련이 필요해 보인다. 본 연구에서는 실내 냉방기 설치 후 냉매누설 검출을 위한 별도의 하드웨어 장치 추가 없이 냉방기의 운영을 위해 설치된 센서들의 값을 이용하여 냉매누설의 유무를 판단할 수 있는 방안을 제안하는 것을 목적으로 한다. 데이터 분석을 위하여 제조사의 제품 출하 전 현장 테스트 단계에서 측정한 온도값, 전류값, 습도값을 취합하여 데이터 셋을 구축하였다. 이때 자동화된 머신러닝(AutoML)을 이용하여 데이터의 80%를 훈련 데이터로 20%를 테스트 데이터로 사용하여 냉매량 80%는 1, 그 이하는 0으로 훈련시켰다. 구축한 데이터 셋을 이용하여 훈련시킨 결과 99% 정확도로 냉매누설 검출을 분별할 수 있었다. 또한 냉매누설과 관련성이 높은 중요 특징 4개를 추출할 수 있었다. 본 연구를 통하여 별도의 하드웨어 장치 추가 없이 소프트웨어적인 접근 방법으로 문제를 해결할 수 있는 feasibility를 확인할 수 있었다.

A Study on Data Augmentation based on Mixup Algorithm for MLP Model (MLP 모델을 위한 Mixup 알고리즘 기반의 Data Augmentation에 관한 연구)

  • Hyun, Sun-young;Kim, Pil-song;Hwang, Seong-yeon;Ha, Young-guk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.694-696
    • /
    • 2021
  • 본 논문에서는 CNN 모델에서 학습에 사용할 이미지 데이터를 늘리기 위해 사용되는 Mixup 알고리즘을 MLP 모델에 사용하는 데이터셋에 적용하여 data augmentation 효과를 얻을 수 있는 지에 대한 테스트를 수행했다. 테스트 결과 MLP 모델에 사용할 데이터셋에도 Mixup 알고리즘으로 data augmentation 효과를 기대할 수 있음을 보여준다.