• Title/Summary/Keyword: AI 데이터셋

Search Result 224, Processing Time 0.028 seconds

Proposal of Standardization Plan for Defense Unstructured Datasets based on Unstructured Dataset Standard Format (비정형 데이터셋 표준포맷 기반 국방 비정형 데이터셋 표준화 방안 제안)

  • Yun-Young Hwang;Jiseong Son
    • Journal of Internet Computing and Services
    • /
    • v.25 no.1
    • /
    • pp.189-198
    • /
    • 2024
  • AI is accepted not only in the private sector but also in the defense sector as a cutting-edge technology that must be introduced for the development of national defense. In particular, artificial intelligence has been selected as a key task in defense science and technology innovation, and the importance of data is increasing. As the national defense department shifts from a closed data policy to data sharing and activation, efforts are being made to secure high-quality data necessary for the development of national defense. In particular, we are promoting a review of the business budget system to secure data so that related procedures can be improved to reflect the unique characteristics of AI and big data, and research and development can begin with sufficient large quantities and high-quality data. However, there is a need to establish standardization and quality standards for structured data and unstructured data at the national defense level, but the defense department is still proposing standardization and quality standards for structured data, so this needs to be supplemented. In this paper, we propose an unstructured data set standard format for defense unstructured data sets, which are most needed in defense artificial intelligence, and based on this, we propose a standardization method for defense unstructured data sets.

Deep Learning Model Validation Method Based on Image Data Feature Coverage (영상 데이터 특징 커버리지 기반 딥러닝 모델 검증 기법)

  • Lim, Chang-Nam;Park, Ye-Seul;Lee, Jung-Won
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.9
    • /
    • pp.375-384
    • /
    • 2021
  • Deep learning techniques have been proven to have high performance in image processing and are applied in various fields. The most widely used methods for validating a deep learning model include a holdout verification method, a k-fold cross verification method, and a bootstrap method. These legacy methods consider the balance of the ratio between classes in the process of dividing the data set, but do not consider the ratio of various features that exist within the same class. If these features are not considered, verification results may be biased toward some features. Therefore, we propose a deep learning model validation method based on data feature coverage for image classification by improving the legacy methods. The proposed technique proposes a data feature coverage that can be measured numerically how much the training data set for training and validation of the deep learning model and the evaluation data set reflects the features of the entire data set. In this method, the data set can be divided by ensuring coverage to include all features of the entire data set, and the evaluation result of the model can be analyzed in units of feature clusters. As a result, by providing feature cluster information for the evaluation result of the trained model, feature information of data that affects the trained model can be provided.

Research Trends and Datasets Review using Satellite Image (위성영상 이미지를 활용한 연구 동향 및 데이터셋 리뷰)

  • Kim, Se Hyoung;Chae, Jung Woo;Kang, Ju Young
    • Smart Media Journal
    • /
    • v.11 no.1
    • /
    • pp.17-30
    • /
    • 2022
  • Like other computer vision research trends, research using satellite images was able to achieve rapid growth with the development of GPU-based computer computing capabilities and deep learning methodologies related to image processing. As a result, satellite images are being used in various fields, and the number of studies on how to use satellite images is increasing. Therefore, in this paper, we will introduce the field of research and utilization of satellite images and datasets that can be used for research using satellite images. First, studies using satellite images were collected and classified according to the research method. It was largely classified into a Regression-based Approach and a Classification-based Approach, and the papers used by other methods were summarized. Next, the datasets used in studies using satellite images were summarized. This study proposes information on datasets and methods of use in research. In addition, it introduces how to organize and utilize domestic satellite image datasets that were recently opened by AI hub. In addition, I would like to briefly examine the limitations of satellite image-related research and future trends.

LUKE based Korean Dense Passage Retriever (LUKE 기반의 한국어 문서 검색 모델 )

  • Dongryul Ko;Changwon Kim;Jaieun Kim;Sanghyun Park
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.131-134
    • /
    • 2022
  • 자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

  • PDF

Style-Generative Adversarial Networks for Data Augmentation of Human Images at Homecare Environments (조호환경 내 사람 이미지 데이터 증강을 위한 Style-Generative Adversarial Networks 기법)

  • Park, Changjoon;Kim, Beomjun;Kim, Inki;Gwak, Jeonghwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.565-567
    • /
    • 2022
  • 질병을 앓고 있는 환자는 상태에 따라 병실, 주거지, 요양원 등 조호환경 내 생활 시 의료 인력의 지속적인 추적 및 관찰을 통해 신체에 이상이 생긴 경우 이를 감지하고, 신속하게 조치할 수 있도록 해야 한다. 의료 인력이 직접 환자를 확인하는 방법은 의료 인력의 반복적인 노동이 요구되며 실시간으로 환자를 확인해야 한다는 특성상 의료 인력이 상주해야 하기에 이는 곧, 의료 인력의 부족과 낭비로 이어진다. 해당 문제 해결을 위해 의료 인력을 대신하여 조호환경 내 환자의 상태를 실시간으로 모니터링할 수 있는 딥러닝 모델들이 연구되고 있다. 딥러닝 모델은 데이터의 수가 많을수록 강인한 모델을 설계할 수 있으며, 데이터셋의 배경, 객체의 특징 분포 등 다양한 조건에 영향을 받기 때문에 학습에 필요한 도메인을 가지는 많은 양의 전처리된 데이터를 수집해야 한다. 따라서, 조호환경 내 환자에 대한 데이터셋이 필요하지만, 공개된 데이터셋의 경우 양이 매우 적으며 이를 반전, 회전기법 등을이용할 경우 데이터의 수를 늘릴 수 있지만, 같은 분포의 특징을 가지는 데이터가 생성되기에 데이터 증강 기법을 단순하게 적용하면 딥러닝 모델의 과적합을 야기한다. 또한, 조호환경 내 이미지 데이터셋은 얼굴 노출과 같은 개인정보가 포함 될 수 있으며 이를 보호하기 위해 정보들을 비식별화 해야 한다는 문제점이 있다. 따라서 본 논문에서는 조호환경에서 수집된 데이터 증강을 위한 Style-Generative Adversarial Networks 기법을 적용하여 조호환경 데이터셋 수집에 효과적인 증강 기법을 제안한다.

Class Imbalance Resolution Method and Classification Algorithm Suggesting Based on Dataset Type Segmentation (데이터셋 유형 분류를 통한 클래스 불균형 해소 방법 및 분류 알고리즘 추천)

  • Kim, Jeonghun;Kwahk, Kee-Young
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.3
    • /
    • pp.23-43
    • /
    • 2022
  • In order to apply AI (Artificial Intelligence) in various industries, interest in algorithm selection is increasing. Algorithm selection is largely determined by the experience of a data scientist. However, in the case of an inexperienced data scientist, an algorithm is selected through meta-learning based on dataset characteristics. However, since the selection process is a black box, it was not possible to know on what basis the existing algorithm recommendation was derived. Accordingly, this study uses k-means cluster analysis to classify types according to data set characteristics, and to explore suitable classification algorithms and methods for resolving class imbalance. As a result of this study, four types were derived, and an appropriate class imbalance resolution method and classification algorithm were recommended according to the data set type.

Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model (토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법)

  • Jeongwoo Lee;Aiyanyo Imatitikua Danielle;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

KoCED: English-Korean Critical Error Detection Dataset (KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋)

  • Sugyeong Eo;Suwon Choi;Seonmin Koo;Dahyun Jung;Chanjun Park;Jaehyung Seo;Hyeonseok Moon;Jeongbae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

A Study on Robustness Evaluation and Improvement of AI Model for Malware Variation Analysis (악성코드 변종 분석을 위한 AI 모델의 Robust 수준 측정 및 개선 연구)

  • Lee, Eun-gyu;Jeong, Si-on;Lee, Hyun-woo;Lee, Tea-jin
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.32 no.5
    • /
    • pp.997-1008
    • /
    • 2022
  • Today, AI(Artificial Intelligence) technology is being extensively researched in various fields, including the field of malware detection. To introduce AI systems into roles that protect important decisions and resources, it must be a reliable AI model. AI model that dependent on training dataset should be verified to be robust against new attacks. Rather than generating new malware detection, attackers find malware detection that succeed in attacking by mass-producing strains of previously detected malware detection. Most of the attacks, such as adversarial attacks, that lead to misclassification of AI models, are made by slightly modifying past attacks. Robust models that can be defended against these variants is needed, and the Robustness level of the model cannot be evaluated with accuracy and recall, which are widely used as AI evaluation indicators. In this paper, we experiment a framework to evaluate robustness level by generating an adversarial sample based on one of the adversarial attacks, C&W attack, and to improve robustness level through adversarial training. Through experiments based on malware dataset in this study, the limitations and possibilities of the proposed method in the field of malware detection were confirmed.

A Survey of Fashion Datasets for AI Training (인공지능 학습용 패션 데이터셋 최근 동향 조사)

  • Jin, Hailin;Piao, Zhegao;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.637-642
    • /
    • 2020
  • 패션산업은 매년 1 조원씩 성장(연평균 2.1%)하며 많은 연구자들의 관심을 받고 있다. 전통적인 패션산업은 점차 디지털화되어 선진적인 컴퓨터 비전 기술을 적용해 소비자들에게 더 좋은 쇼핑 서비스를 제공하고 있다. 본 논문에서는 2014 년부터 2019 년 사이에 구축된 대표적인 패션 데이터셋을 연도별로 정리하고 각 데이터셋에 포함된 주석(annotation)의 특징을 정리했다. 또한 데이터셋이 패션 상품 검출(Fashion detection), 패션 이미지 생성(Fashion image generation), 가상 피팅(Virtual try-on) 그리고 패션 의류 분할(Fashion Clothing segmentation) 등 연구에서의 활용될 수 있는 여부에 대해 분석했다.

  • PDF