• 제목/요약/키워드: AI 데이터셋

검색결과 215건 처리시간 0.024초

보조보행기구 AI 서비스 구축을 위한 데이터셋 설계 및 구현 (Data set design and implementation for Assistive walking device AI service construction)

  • 최규민;김유민;신준표;성승민;이병권
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.227-229
    • /
    • 2021
  • 본 논문에서는 노약자 및 장애인의 증가로 인한 조행보조기구 사용량이 증가하고 있으나 물리적인 보조기구는 있지만 AI를 통한 서비스와 보조보행기구에 관한 AI 데이터셋이 부족하다. 이러한 문제점을 보안하기 위해 본 논문에서는 상기 데이터셋을 설계 및 구축하기 위해 Node JS를 사용하여 이미지 크롤링 프로그램을 구현하여 이미지 데이터를 수집했으며, Yolo Maker를 활용하여 수집된 이미지를 데이터셋으로 변환시켰다. 이를 통해 노약자 및 장애인을 위한 AI 서비스 구축에 필요한 데이터를 손쉽게 설계 및 구축한다.

  • PDF

강건한 질의응답 모델을 위한 데이터셋 증강 기법 (Adversarial Examples for Robust Reading Comprehension)

  • 장한솔;전창욱;최주영;심묘섭;김현;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-46
    • /
    • 2021
  • 기계 독해는 문단과 질문이 주어질 때에 정답을 맞추는 자연어처리의 연구분야다. 최근 기계 독해 모델이 사람보다 높은 성능을 보여주고 있지만, 문단과 질의가 크게 변하지 않더라도 예상과 다른 결과를 만들어 성능에 영향을 주기도 한다. 본 논문에서는 문단과 질문 두 가지 관점에서 적대적 예시 데이터를 사용하여 보다 강건한 질의응답 모델을 훈련하는 방식을 제안한다. 트랜스포머 인코더 모델을 활용하였으며, 데이터를 생성하기 위해서 KorQuAD 1.0 데이터셋에 적대적 예시를 추가하여 실험을 진행하였다. 적대적 예시를 이용한 데이터로 실험한 결과, 기존 모델보다 1% 가량 높은 성능을 보였다. 또한 질의의 적대적 예시 데이터를 활용하였을 때, 기존 KorQuAD 1.0 데이터에 대한 성능 향상을 확인하였다.

  • PDF

인터랙션 기반 추천 시스템 개발을 위한 데이터셋 연구 (Dataset for Interactive Recommendation System)

  • 정의석;김현우;오효정;송화전
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.481-485
    • /
    • 2020
  • AI와 사용자간의 대화를 통해 사용자의 요구사항을 파악하고, 해당 요구사항에 적합한 상품을 추천하는 형상을 인터랙션 기반 추천 시스템의 한 예로 볼 수 있다. 우리는 해당 시스템 개발을 위하여 의상 코디셋 추천을 위한 대화 기반 데이터셋을 구축하였다. 데이터셋은 대화와 의상 추천 절차를 반복하여 사용자가 원하는 의상셋을 찾아가는 내용으로 구성된다. 그리고, AI의 코디셋 추천 기술 검증을 위해 두가지 의상 추천 평가셋을 제안한다. 본 논문은 대화 데이터셋 및 관련 평가셋의 개발 절차 및 구성에 대하여 기술하고, 관련된 실험 결과 일부를 보여준다.

  • PDF

영역별 화소값 분석을 통한 흉부 X선 오픈 데이터셋 품질 평가 (Quality Evaluation of Chest X-ray Open Dataset through Pixel Value Analysis by Region)

  • 최현진;배수빈;선주성;이정원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.614-617
    • /
    • 2022
  • 인공지능의 발전으로 의료영상 분야에서 딥러닝 기반 질병 진단 연구가 활발하다. 그러나 모델 개발 시 학습 데이터의 개수와 품질은 매우 중요한데, 의료 분야 특성상 접근 가능한 데이터셋이 적으며 오픈 데이터셋은 서로 다른 기관에서 배포되거나 웹상에서 수집된 것으로 진단에 적합한 품질을 기대하기 어렵다. 또한, 기존 연구는 데이터셋이 학습에 적합한지에 대한 품질검증 없이 사용한다. 따라서 본 논문에서는 임상에서 사용하는 화질 평가 요소에 근거를 두고 영역별 화소값 분석을 통한 흉부 X선 영상 품질 평가 기법을 제안한다. 오픈 데이터셋 JSRT, Chest14와 국내 A 병원 데이터셋 AUH에 제안한 기법을 적용한 결과 민감도 91.5%, 특이도 96.1%의 우수한 성능을 확인하였다.

개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지 (Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset)

  • 강예지;비립;장연지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

인공지능 교육을 위한 데이터셋 아카이브 설계 (Design of Dataset Archive for AI Education)

  • 이세훈;노예원;노연수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.233-234
    • /
    • 2022
  • 본 논문에서는 효율적인 AI 교육을 위한 데이터셋 아카이브와 데이터 활용을 위한 프로그래밍 플랫폼과의 연동 모듈을 제안한다. 데이터셋 아카이브는 공공데이터를 전처리하여 생성한 데이터를 모아 설계하며, 프로그래밍 플랫폼 코드비(CodeB)와 연동하여 데이터를 활용할 수 있도록 한다. 코드비(CodeB)는 파이썬 블록 프로그래밍 플랫폼으로 연동을 통해 데이터를 활용한 프로그래밍이 가능하다.

  • PDF

전이학습을 이용한 UNet 기반 건물 추출 딥러닝 모델의 학습률에 따른 성능 향상 분석 (Performance Improvement Analysis of Building Extraction Deep Learning Model Based on UNet Using Transfer Learning at Different Learning Rates)

  • 예철수;안영만;백태웅;김경태
    • 대한원격탐사학회지
    • /
    • 제39권5_4호
    • /
    • pp.1111-1123
    • /
    • 2023
  • 원격탐사 영상을 이용한 지표 속성의 변화를 모니터링 하기 위해서 딥러닝(deep learning) 모델을 이용한 의미론적 영상 분할 방법이 최근에 널리 사용되고 있다. 대표적인 의미론적 영상 분할 딥러닝 모델인 UNet 모델을 비롯하여 다양한 종류의 UNet 기반의 딥러닝 모델들의 성능 향상을 위해서는 학습 데이터셋의 크기가 충분해야 한다. 학습 데이터셋의 크기가 커지면 이를 처리하는 하드웨어 요구 사항도 커지고 학습에 소요되는 시간도 크게 증가되는 문제점이 발생한다. 이런 문제를 해결할 수 있는 방법인 전이학습은 대규모의 학습 데이터 셋이 없어도 모델 성능을 향상시킬 수 있는 효과적인 방법이다. 본 논문에서는 UNet 기반의 딥러닝 모델들을 대표적인 사전 학습 모델(pretrained model)인 VGG19 모델 및 ResNet50 모델과 결합한 세 종류의 전이학습 모델인 UNet-ResNet50 모델, UNet-VGG19 모델, CBAM-DRUNet-VGG19 모델을 제시하고 이를 건물 추출에 적용하여 전이학습 적용에 따른 정확도 향상을 분석하였다. 딥러닝 모델의 성능이 학습률의 영향을 많이 받는 점을 고려하여 학습률 설정에 따른 각 모델별 성능 변화도 함께 분석하였다. 건물 추출 결과의 성능 평가를 위해서 Kompsat-3A 데이터셋, WHU 데이터셋, INRIA 데이터셋을 사용하였으며 세 종류의 데이터셋에 대한 정확도 향상의 평균은 UNet 모델 대비 UNet-ResNet50 모델이 5.1%, UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 동일하게 7.2%의 결과를 얻었다.

과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강 (Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues)

  • 임채균;이혜우;오경진;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구 (KOMUChat: Korean Online Community Dialogue Dataset for AI Learning)

  • 유용상;정민화;이승민;송민
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.219-240
    • /
    • 2023
  • 사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

자율주행 영상데이터의 신뢰도 향상을 위한 AI모델 기반 데이터 자동 정제 (AI Model-Based Automated Data Cleaning for Reliable Autonomous Driving Image Datasets)

  • 김가나;김학일
    • 방송공학회논문지
    • /
    • 제28권3호
    • /
    • pp.302-313
    • /
    • 2023
  • 본 연구는 과학기술정보통신부가 2017년부터 1조원 이상을 투자한 'AI Hub 댐' 사업에서 구축된 인공지능 모델 학습데이터의 품질관리를 자동화할 수 있는 프레임워크의 개발을 목표로 한다. 자율주행 개발에 사용되는 AI 모델 학습에는 다량의 고품질의 데이터가 필요하며, 가공된 데이터를 검수자가 데이터 자체의 이상을 검수하고 유효함을 증명하는 데는 여전히 어려움이 있으며 오류가 있는 데이터로 학습된 모델은 실제 상황에서 큰 문제를 야기할 수 있다. 본 논문에서는 이상 데이터를 제거하는 신뢰할 수 있는 데이터셋 정제 프레임워크를 통해 모델의 인식 성능을 향상시키는 전략을 소개한다. 제안하는 방법은 인공지능 학습용 데이터 품질관리 가이드라인의 지표를 기반으로 설계되었다. 한국정보화진흥원의 AI Hub을 통해 공개된 자율주행 데이터셋에 대한 실험을 통해 프레임워크의 유효성을 증명하였고, 이상 데이터가 제거된 신뢰할 수 있는 데이터셋으로 재구축될 수 있음을 확인하였다.