• Title/Summary/Keyword: AI 데이터셋

Search Result 215, Processing Time 0.022 seconds

Data set design and implementation for Assistive walking device AI service construction (보조보행기구 AI 서비스 구축을 위한 데이터셋 설계 및 구현)

  • Choi, Kyu-Min;Kim, Yu-Min;Shin, Joon-Pyo;Sung, Seung-min;Lee, Byung-kwon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.227-229
    • /
    • 2021
  • 본 논문에서는 노약자 및 장애인의 증가로 인한 조행보조기구 사용량이 증가하고 있으나 물리적인 보조기구는 있지만 AI를 통한 서비스와 보조보행기구에 관한 AI 데이터셋이 부족하다. 이러한 문제점을 보안하기 위해 본 논문에서는 상기 데이터셋을 설계 및 구축하기 위해 Node JS를 사용하여 이미지 크롤링 프로그램을 구현하여 이미지 데이터를 수집했으며, Yolo Maker를 활용하여 수집된 이미지를 데이터셋으로 변환시켰다. 이를 통해 노약자 및 장애인을 위한 AI 서비스 구축에 필요한 데이터를 손쉽게 설계 및 구축한다.

  • PDF

Adversarial Examples for Robust Reading Comprehension (강건한 질의응답 모델을 위한 데이터셋 증강 기법)

  • Jang, Hansol;Jun, Changwook;Choi, Jooyoung;Sim, Myoseop;Kim, Hyun;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.41-46
    • /
    • 2021
  • 기계 독해는 문단과 질문이 주어질 때에 정답을 맞추는 자연어처리의 연구분야다. 최근 기계 독해 모델이 사람보다 높은 성능을 보여주고 있지만, 문단과 질의가 크게 변하지 않더라도 예상과 다른 결과를 만들어 성능에 영향을 주기도 한다. 본 논문에서는 문단과 질문 두 가지 관점에서 적대적 예시 데이터를 사용하여 보다 강건한 질의응답 모델을 훈련하는 방식을 제안한다. 트랜스포머 인코더 모델을 활용하였으며, 데이터를 생성하기 위해서 KorQuAD 1.0 데이터셋에 적대적 예시를 추가하여 실험을 진행하였다. 적대적 예시를 이용한 데이터로 실험한 결과, 기존 모델보다 1% 가량 높은 성능을 보였다. 또한 질의의 적대적 예시 데이터를 활용하였을 때, 기존 KorQuAD 1.0 데이터에 대한 성능 향상을 확인하였다.

  • PDF

Dataset for Interactive Recommendation System (인터랙션 기반 추천 시스템 개발을 위한 데이터셋 연구)

  • Chung, Euisok;Kim, Hyun Woo;Oh, Hyo-Jung;Song, Hwa Jeon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.481-485
    • /
    • 2020
  • AI와 사용자간의 대화를 통해 사용자의 요구사항을 파악하고, 해당 요구사항에 적합한 상품을 추천하는 형상을 인터랙션 기반 추천 시스템의 한 예로 볼 수 있다. 우리는 해당 시스템 개발을 위하여 의상 코디셋 추천을 위한 대화 기반 데이터셋을 구축하였다. 데이터셋은 대화와 의상 추천 절차를 반복하여 사용자가 원하는 의상셋을 찾아가는 내용으로 구성된다. 그리고, AI의 코디셋 추천 기술 검증을 위해 두가지 의상 추천 평가셋을 제안한다. 본 논문은 대화 데이터셋 및 관련 평가셋의 개발 절차 및 구성에 대하여 기술하고, 관련된 실험 결과 일부를 보여준다.

  • PDF

Quality Evaluation of Chest X-ray Open Dataset through Pixel Value Analysis by Region (영역별 화소값 분석을 통한 흉부 X선 오픈 데이터셋 품질 평가)

  • Choi, Hyeon-Jin;Bea, Su-Bin;Sun, Joo-Sung;Lee, Jung-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.614-617
    • /
    • 2022
  • 인공지능의 발전으로 의료영상 분야에서 딥러닝 기반 질병 진단 연구가 활발하다. 그러나 모델 개발 시 학습 데이터의 개수와 품질은 매우 중요한데, 의료 분야 특성상 접근 가능한 데이터셋이 적으며 오픈 데이터셋은 서로 다른 기관에서 배포되거나 웹상에서 수집된 것으로 진단에 적합한 품질을 기대하기 어렵다. 또한, 기존 연구는 데이터셋이 학습에 적합한지에 대한 품질검증 없이 사용한다. 따라서 본 논문에서는 임상에서 사용하는 화질 평가 요소에 근거를 두고 영역별 화소값 분석을 통한 흉부 X선 영상 품질 평가 기법을 제안한다. 오픈 데이터셋 JSRT, Chest14와 국내 A 병원 데이터셋 AUH에 제안한 기법을 적용한 결과 민감도 91.5%, 특이도 96.1%의 우수한 성능을 확인하였다.

Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset (개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지)

  • Yejee Kang;Li Fei;Yeonji Jang;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

Design of Dataset Archive for AI Education (인공지능 교육을 위한 데이터셋 아카이브 설계)

  • Lee, Se-Hoon;Noh, Ye-Won;Noh, Yeon-Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.233-234
    • /
    • 2022
  • 본 논문에서는 효율적인 AI 교육을 위한 데이터셋 아카이브와 데이터 활용을 위한 프로그래밍 플랫폼과의 연동 모듈을 제안한다. 데이터셋 아카이브는 공공데이터를 전처리하여 생성한 데이터를 모아 설계하며, 프로그래밍 플랫폼 코드비(CodeB)와 연동하여 데이터를 활용할 수 있도록 한다. 코드비(CodeB)는 파이썬 블록 프로그래밍 플랫폼으로 연동을 통해 데이터를 활용한 프로그래밍이 가능하다.

  • PDF

Performance Improvement Analysis of Building Extraction Deep Learning Model Based on UNet Using Transfer Learning at Different Learning Rates (전이학습을 이용한 UNet 기반 건물 추출 딥러닝 모델의 학습률에 따른 성능 향상 분석)

  • Chul-Soo Ye;Young-Man Ahn;Tae-Woong Baek;Kyung-Tae Kim
    • Korean Journal of Remote Sensing
    • /
    • v.39 no.5_4
    • /
    • pp.1111-1123
    • /
    • 2023
  • In recent times, semantic image segmentation methods using deep learning models have been widely used for monitoring changes in surface attributes using remote sensing imagery. To enhance the performance of various UNet-based deep learning models, including the prominent UNet model, it is imperative to have a sufficiently large training dataset. However, enlarging the training dataset not only escalates the hardware requirements for processing but also significantly increases the time required for training. To address these issues, transfer learning is used as an effective approach, enabling performance improvement of models even in the absence of massive training datasets. In this paper we present three transfer learning models, UNet-ResNet50, UNet-VGG19, and CBAM-DRUNet-VGG19, which are combined with the representative pretrained models of VGG19 model and ResNet50 model. We applied these models to building extraction tasks and analyzed the accuracy improvements resulting from the application of transfer learning. Considering the substantial impact of learning rate on the performance of deep learning models, we also analyzed performance variations of each model based on different learning rate settings. We employed three datasets, namely Kompsat-3A dataset, WHU dataset, and INRIA dataset for evaluating the performance of building extraction results. The average accuracy improvements for the three dataset types, in comparison to the UNet model, were 5.1% for the UNet-ResNet50 model, while both UNet-VGG19 and CBAM-DRUNet-VGG19 models achieved a 7.2% improvement.

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

KOMUChat: Korean Online Community Dialogue Dataset for AI Learning (KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구)

  • YongSang Yoo;MinHwa Jung;SeungMin Lee;Min Song
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.2
    • /
    • pp.219-240
    • /
    • 2023
  • Conversational AI which allows users to interact with satisfaction is a long-standing research topic. To develop conversational AI, it is necessary to build training data that reflects real conversations between people, but current Korean datasets are not in question-answer format or use honorifics, making it difficult for users to feel closeness. In this paper, we propose a conversation dataset (KOMUChat) consisting of 30,767 question-answer sentence pairs collected from online communities. The question-answer pairs were collected from post titles and first comments of love and relationship counsel boards used by men and women. In addition, we removed abuse records through automatic and manual cleansing to build high quality dataset. To verify the validity of KOMUChat, we compared and analyzed the result of generative language model learning KOMUChat and benchmark dataset. The results showed that our dataset outperformed the benchmark dataset in terms of answer appropriateness, user satisfaction, and fulfillment of conversational AI goals. The dataset is the largest open-source single turn text data presented so far and it has the significance of building a more friendly Korean dataset by reflecting the text styles of the online community.

AI Model-Based Automated Data Cleaning for Reliable Autonomous Driving Image Datasets (자율주행 영상데이터의 신뢰도 향상을 위한 AI모델 기반 데이터 자동 정제)

  • Kana Kim;Hakil Kim
    • Journal of Broadcast Engineering
    • /
    • v.28 no.3
    • /
    • pp.302-313
    • /
    • 2023
  • This paper aims to develop a framework that can fully automate the quality management of training data used in large-scale Artificial Intelligence (AI) models built by the Ministry of Science and ICT (MSIT) in the 'AI Hub Data Dam' project, which has invested more than 1 trillion won since 2017. Autonomous driving technology using AI has achieved excellent performance through many studies, but it requires a large amount of high-quality data to train the model. Moreover, it is still difficult for humans to directly inspect the processed data and prove it is valid, and a model trained with erroneous data can cause fatal problems in real life. This paper presents a dataset reconstruction framework that removes abnormal data from the constructed dataset and introduces strategies to improve the performance of AI models by reconstructing them into a reliable dataset to increase the efficiency of model training. The framework's validity was verified through an experiment on the autonomous driving dataset published through the AI Hub of the National Information Society Agency (NIA). As a result, it was confirmed that it could be rebuilt as a reliable dataset from which abnormal data has been removed.