• Title/Summary/Keyword: AI 데이터셋

Search Result 224, Processing Time 0.03 seconds

AI Model-Based Automated Data Cleaning for Reliable Autonomous Driving Image Datasets (자율주행 영상데이터의 신뢰도 향상을 위한 AI모델 기반 데이터 자동 정제)

  • Kana Kim;Hakil Kim
    • Journal of Broadcast Engineering
    • /
    • v.28 no.3
    • /
    • pp.302-313
    • /
    • 2023
  • This paper aims to develop a framework that can fully automate the quality management of training data used in large-scale Artificial Intelligence (AI) models built by the Ministry of Science and ICT (MSIT) in the 'AI Hub Data Dam' project, which has invested more than 1 trillion won since 2017. Autonomous driving technology using AI has achieved excellent performance through many studies, but it requires a large amount of high-quality data to train the model. Moreover, it is still difficult for humans to directly inspect the processed data and prove it is valid, and a model trained with erroneous data can cause fatal problems in real life. This paper presents a dataset reconstruction framework that removes abnormal data from the constructed dataset and introduces strategies to improve the performance of AI models by reconstructing them into a reliable dataset to increase the efficiency of model training. The framework's validity was verified through an experiment on the autonomous driving dataset published through the AI Hub of the National Information Society Agency (NIA). As a result, it was confirmed that it could be rebuilt as a reliable dataset from which abnormal data has been removed.

A Study on Construction Method of AI based Situation Analysis Dataset for Battlefield Awareness

  • Yukyung Shin;Soyeon Jin;Jongchul Ahn
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.10
    • /
    • pp.37-53
    • /
    • 2023
  • The AI based intelligent command and control system can automatically analyzes the properties of intricate battlefield information and tactical data. In addition, commanders can receive situation analysis results and battlefield awareness through the system to support decision-making. It is necessary to build a battlefield situation analysis dataset similar to the actual battlefield situation for learning AI in order to provide decision-making support to commanders. In this paper, we explain the next step of the dataset construction method of the existing previous research, 'A Virtual Battlefield Situation Dataset Generation for Battlefield Analysis based on Artificial Intelligence'. We proposed a method to build the dataset required for the final battlefield situation analysis results to support the commander's decision-making and recognize the future battlefield. We developed 'Dataset Generator SW', a software tool to build a learning dataset for battlefield situation analysis, and used the SW tool to perform data labeling. The constructed dataset was input into the Siamese Network model. Then, the output results were inferred to verify the dataset construction method using a post-processing ranking algorithm.

KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension (KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋)

  • Kim, Youngmin;Lim, Seungyoung;Lee, Hyunjeong;Park, Soyoon;Kim, Myungji
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.97-102
    • /
    • 2019
  • KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

  • PDF

A Study on Impacts of De-identification on Machine Learning's Biased Knowledge (머신러닝 편향성 관점에서 비식별화의 영향분석에 대한 연구)

  • Soohyeon Ha;Jinsong Kim;Yeeun Son;Gaeun Won;Yujin Choi;Soyeon Park;Hyung-Jong Kim;Eunsung Kang
    • Journal of the Korea Society for Simulation
    • /
    • v.33 no.2
    • /
    • pp.27-35
    • /
    • 2024
  • We aimed to shed light on the issue of perpetuating societal disparities by analyzing the impact of inherent biases present in datasets used for training artificial intelligence models on the predictions generated by Artificial Intelligence(AI). Therefore, to examine the influence of data bias on AI models, we constructed an original dataset containing biases related to gender wage gaps and subsequently created a de-identified dataset. Additionally, by utilizing the decision tree algorithm, we compared the outputs of AI models trained on both the original and de-identified datasets, aiming to analyze how data de-identification affects the biases in the results produced by artificial intelligence models. Through this, our goal was to highlight the significant role of data de-identification not only in safeguarding individual privacy but also in addressing biases within the data.

A Study on the Dataset Construction Needed to Realize a Digital Human in Fitness with Single Image Recognition (단일 이미지 인식으로 피트니스 분야 디지털 휴먼 구현에 필요한 데이터셋 구축에 관한 연구)

  • Soo-Hyuong Kang;Sung-Geon Park;Kwang-Young Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.642-643
    • /
    • 2023
  • 피트니스 분야 인공지능 서비스의 성능 개선을 AI모델 개발이 아닌 데이터셋의 품질 개선을 통해 접근하는 방식을 제안하고, 데이터품질의 성능을 평가하는 것을 목적으로 한다. 데이터 설계는 각 분야 전문가 10명이 참여하였고, 단일 시점 영상을 이용한 운동동작 자동 분류에 사용된 모델은 Google의 MediaPipe 모델을 사용하였다. 팔굽혀펴기의 운동동작인식 정확도는 100%로 나타났으나 팔꿉치의 각도 15° 이하였을 때 동작의 횟수를 인식하지 않았고 이 결과 값에 대해 피트니스 전문가의 의견과 불일치하였다. 향후 연구에서는 동작인식의 분류뿐만 아니라 운동량을 연결하여 분석할 수 있는 시스템이 필요하다.

Evaluation of Large Language Models' Korean-Text to SQL Capability (대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가)

  • Jooyoung Choi;Kyungkoo Min;Myoseop Sim;Haemin Jung;Minjun Park;Stanley Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

A study on AI upscaling algorithms suitable for facial recognition (얼굴 인식에 적합한 AI 업스케일링 알고리즘에 관한 연구)

  • Doo-il Kwak;Kwang-Young Park
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.598-600
    • /
    • 2023
  • CCTV가 범죄 예방 및 수사에 사용되는데, 수사를 위해 저화질 CCTV 영상에서 특정인의 얼굴 인식엔 어려움을 겪어 CCTV 본연의 역할의 희석된다. 따라서 본 논문은 저화질 영상을 고화질로 변환하여 얼굴 인식의 정확성을 높일 수 있는 알고리즘을 연구하는 것을 목적으로 한다. 기존에 연구된 인공지능 기반의 업스케일링 알고리즘을 분석하여 K-FACE 데이터셋에 적절한 모델을 제안한다. 이를 위해 2020년 이전과 이후의 AI 업스케일링 관련 연구를 비교 분석한다. 향후 제시된 모델을 대상으로 동일한 환경내에서 K-FACE 데이터셋을 학습시켜 통일된 기준의 지표 산출이 필요하다.

Implementation of hand motion recognition-based rock-paper-scissors game using ResNet50 transfer learning (ResNet50 전이학습을 활용한 손동작 인식 기반 가위바위보 게임 구현)

  • Park, Changjoon;Kim, Changki;Son, Seongkyu;Lee, Kyoungjin;Yoo, Heekyung;Gwak, Jeonghwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.77-82
    • /
    • 2022
  • GUI(Graphical User Interface)를 대신하는 차세대 인터페이스로서 NUI(Natural User Interace)에 기대가 모이는 것은 자연스러운 흐름이다. 본 연구는 NUI의 손가락 관절을 포함한 손동작 전체를 인식시키기 위해 웹캠과 카메라를 활용하여 다양한 배경과 각도의 손동작 데이터를 수집한다. 수집된 데이터는 전처리를 거쳐 데이터셋을 구축하며, ResNet50 모델을 활용하여 전이학습한 합성곱 신경망(Convolutional Neural Network) 알고리즘 분류기를 설계한다. 구축한 데이터셋을 입력시켜 분류학습 및 예측을 진행하며, 실시간 영상에서 인식되는 손동작을 설계한 모델에 입력시켜 나온 결과를 통해 가위바위보 게임을 구현한다.

  • PDF

Construction of Web-Based Medical Imgage Standard Dataset Conversion and Management System (웹기반 의료영상 표준 데이터셋 변환 및 관리 시스템 구축)

  • Kim, Ji-Eon;Lim, Dong Wook;Yu, Yeong Ju;Noh, Si-Hyeong;Lee, ChungSub;Kim, Tae-Hoon;Jeong, Chang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.282-284
    • /
    • 2021
  • 최근 4차 산업혁명으로 의료빅데이터 기반으로 한 AI 기술이 급속도로 발전하고 있다. 특히, 의료영상을 기반으로 병변을 탐색, 분활 및 정량화 그리고 자동진단 및 예측 관련된 기술이 AI 제품으로 출시되고 있다. AI 기술개발은 많은 학습데이터가 요구되며, 임상검증에 단일기관에서 2개 이상 기관의 검증이 요구되고 있다. 그러나 아직까지도 단일기관에서 학습용 데이터와 테스트, 검증용 데이터를 달리하여 기술개발에 활용하고 있다. 본 논문은 AI 기술개발에 필요한 영상데이터에 대한 표준화된 데이터셋 변환 및 관리를 위한 시스템에 대해 기술한다. 다기관 데이터를 수집하기 위해서는 각 기관의 의료영상 데이터 수집 및 저장하는 기준이 명확하지 않아 표준화 작업이 필요하다. 제안한 시스템은 기관 또는 다기관 연구 그룹의 의료영상데이터를 표준화하여 저장할 수 있을 뿐만 아니라 의료영상 뷰어 및 의료영상 리스트를 통해 연구자가 원하는 의료영상 데이터 셋을 검색하여 다양한 데이터셋으로 제공할 수 있기 때문에 수집 및 변환 그리고 관리까지 지원할 수 있는 시스템으로 영상기반의 머신러닝 연구에 활력을 불어넣을 수 있을 것으로 기대하고 있다.

Constructing a Dataset for Assessing Skin Condition in Koreans for AI-Personalized Customized Skin Diagnosis (AI 초개인화 맞춤형 피부진단을 위한 한국인 피부상태 측정 데이터 구축)

  • Jeongho Lee;Juyeol Yang;Minseo Choi;Sang-Il Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.698-700
    • /
    • 2023
  • 최근 들어, 미용 상품을 선택하기 전에 자신의 피부 타입과 상태를 정확히 파악하고 맞춤형 상품을 선택하고자 하는 수요가 증가하고 있다. 이에 따라 피부 상태 측정을 위한 기술적 요소의 중요성이 더욱 두드러지고 있다. 그러나 현재까지 피부 상태 측정을 위한 데이터셋이 한국인을 대상으로 측정한 데이터셋이 없는 실정이다. 본 연구에서는 한국인의 피부 상태를 정밀하게 분석하기 위해 고해상도 디지털 카메라로 촬영된 이미지, 정밀 피부측정 장비를 활용하여 측정한 정밀 값, 그리고 피부과 전문의가 진단한 피부상태 진단 등급 데이트를 통합하여 제공을 한다. 추후 제작한 데이터셋을 활용하여 개인 맞춤형 미용상품 추천과 개발 등 다양한 분야에 활용하고자 한다.