• 제목/요약/키워드: 인공지능 학습용 데이터

검색결과 97건 처리시간 0.021초

인공지능 학습용 데이터 품질에 대한 연구: 퍼지셋 질적비교분석 (A Study on the Artificial Intelligence (AI) Training Data Quality: Fuzzy-set Qualitative Comparative Analysis (fsQCA) Approach)

  • 오현목;이서연;장영훈
    • 경영정보학연구
    • /
    • 제26권1호
    • /
    • pp.19-56
    • /
    • 2024
  • 본 연구는 한국의 인공지능 학습용 데이터 구축 사업과 데이터의 공공 개방에 관한 정책 수행 기관, 데이터 구축 기업, 그리고 이를 활용하는 다양한 기관의 데이터 품질에 대해 이해를 제고하고, 신뢰할 수 있는 인공지능 알고리즘 개발에 있어 가장 중요한 학습용 데이터 품질에 대한 이론적 토대를 만들기 위한 실증적 연구이다. 이를 위해, 데이터의 속성 요인, 데이터 구축환경 요인, 데이터 타입 관련 요인 등 인공지능 학습용 데이터 품질과 관련된 중요 선행요인을 도입하여 이론적 모형을 제안한다. 본 연구는 393명의 인공지능 학습용 데이터 구축 기업과 인공지능 서비스 개발 기업의 실무 담당자를 대상으로 설문조사를 실시하여 데이터를 수집하였다. 데이터 분석은 퍼지셋 질적비교분석 방법과 인공신경망 분석을 통해 이루어졌으며, 분석 결과를 통해 인공지능 학습용 데이터 관련 학술적 및 실무적 시사점을 도출했다.

비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법 (Method for improving video/image data quality for AI learning of unstructured data)

  • 김승희;류동주
    • 융합보안논문지
    • /
    • 제23권2호
    • /
    • pp.55-66
    • /
    • 2023
  • 최근 전세계적으로 사회 모든 분야에서 인공지능 학습용 데이터에 관한 선행연구를 기반으로, 인공지능 학습용 데이터의 가치를 높이고 고품질 데이터를 확보하고자 하는 움직임이 늘고 있다. 따라서, 고품질 데이터를 확보하기 위한 구축사업에서는 품질관리가 매우 중요하다. 이에, 본 논문에서는 인공지능 학습용 데이터를 구축할 시 고품질데이터 확보를 위한 품질관리와 그에 따른 구축공정별 개선방안을 제시하였다. 특히, 인공지능 학습을 위해 구축되는 비정형데이터는 데이터 품질의 80% 이상이 구축과정에서 결정된다. 본 논문에서는 비정형데이터 이미지/영상데이터에 대한 품질검사를 통해 구축단계에서의 획득, data cleaning, labeling 모델에서 발생된 검사절차 및 문제 요소를 해결함으로써 고품질 데이터 확보 방안을 제시하였으며, 제시한 방안을 토대로 인공지능 학습용 데이터 구축에 참여하는 연구단체와 사업자들에게 데이터의 품질편차를 극복하기 위한 대안이 될 것으로 기대된다.

대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축 (Dialogue based multimodal dataset including various labels for machine learning research)

  • 신사임;장진예;김보은;박한무;정혜동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF

인공지능 학습용 데이터 기반의 산림변화탐지 서비스 (Forest Change Detection Service Based on Artificial Intelligence Learning Data)

  • 정한균;김종인;고선영;채승기;신용태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권8호
    • /
    • pp.347-354
    • /
    • 2022
  • 4차 산업혁명 시대가 무르익으면서 방대한 데이터를 기반으로 한 인공지능(AI, Artificial Intelligence)의 활용이 전 산업 분야로 확대 중이다. 그러나 산림 수종을 분석하는 분야는 지금까지 인공지능의 활용이 미진하여 여전히 수작업으로 분석하고 있고 다수의 오류가 발생하고 있다. 본 연구에서는 수도권의 항공사진과 모사 이미지 등을 이용하여 소나무, 낙엽송, 침엽수, 활엽수 등 산림 수종을 분석하기 위한 인공지능 학습용 데이터 약 60,000장을 구축하였고 수종 구분 AI 모델도 함께 개발하였다. 이러한 연구는 우리나라의 산림 변화를 사전에 예측하여 변화에 신속한 대응이 가능하고 산림 주제도 제작 시 필요한 수종 분할 이미지를 기초자료로 활용함으로써 업무 생산성을 높일 것으로 기대한다.

Web Radiology_CDM기반 기계학습을 위한 인공지능 학습 플랫폼 구축 (Construction of Artificial Intelligence Training Platform for Machine Learning Based on Web Radiology_CDM)

  • 노시형;김승진;김지언;이충섭;김태훈;김경원;김태규;윤권하;정창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.487-489
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문에서는 익명화된 데이터를 정제하여 인공지능 연구에 사용할 수 있는 표준화된 데이터 셋을 만들고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기 위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 전체 인공지능 연구프로세스를 보이고 이에 따라 학습을 위한 데이터셋 생성과 인공지능 학습학습용 플랫폼에서 수행되는 수행 과정을 결과로 보인다 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

스마트 자율배송을 위한 클래스 분류와 객체별 학습데이터 유형 (Class Classification and Type of Learning Data by Object for Smart Autonomous Delivery)

  • 강영진;김기환;정석찬
    • 한국빅데이터학회지
    • /
    • 제7권1호
    • /
    • pp.37-47
    • /
    • 2022
  • 자율배송 운행 데이터는 코로나 시대의 라스트마일 배송에 대한 패러다임 변화를 주도하는 핵심이다. 국내 자율배송로봇과 해외 기술선도국가 간의 기술격차 해소를 위해서는 인공지능 학습에 사용 가능한 대규모 데이터 수집과 검증이 최우선으로 요구된다. 따라서 해외 기술선도국가에서는 인공지능 학습데이터를 누구든 사용가능한 공공데이터 형태로 오픈하여 검증과 기술발전에 기여하고 있다. 본 논문은 자율배송로봇 학습을 목적으로 326개의 객체를 수집하고 Mask r-cnn, Yolo v3 등의 인공지능 모델을 학습하고 검증하였다. 추가적으로 두 모델을 기반으로 비교하고 향후 자율배송로봇 연구에 요구되는 요소를 고찰하였다.

드론영상과 인공지능 기반 교통량 추정을 위한 데이터 구축 가이드라인 도출 연구 (Guidelines for Data Construction when Estimating Traffic Volume based on Artificial Intelligence using Drone Images)

  • 한동권;김두표;김성보
    • 한국측량학회지
    • /
    • 제40권3호
    • /
    • pp.147-157
    • /
    • 2022
  • 최근 CCTV (Closed Circuit TeleVision)나 드론영상을 활용하여 인공지능 기반 예측 모델을 통해 차량을 분류하는 객체인식이나 교통량 분석을 하는 많은 연구들이 수행되고 있다. 정확한 교통량 추정을 위한 객체인식 딥러닝 모델을 개발하기 위해서는 체계적인 데이터 구축이 요구되는데 이와 관련된 표준화된 가이드라인은 미흡한 실정이다. 본 연구에서는 드론영상을 활용한 인공지능 기반 교통량 추정 학습데이터 구축 가이드라인 도출을 위하여 선행연구를 분석하고 사업보고서나 기존 인공지능 학습용 데이터 구축 및 품질관리 가이드라인을 참고하였다. 데이터 구축 가이드라인은 크게 데이터 획득, 가공, 검증으로 분류되며, 항목 별 유의사항 및 평가지표 가이드라인을 제시하였다. 본 연구의 결과물인 데이터 구축 가이드라인은 드론 영상 인공지능 기반 도로교통량 추정 분석을 하는데 강건하고 일반화된 인공지능 모델 개발에 도움을 제공하고자 한다.

인공지능 학습용 데이터 기반의 산림 수종 분석 모델 (Forest Tree Species Analysis Model based on Artificial Intelligence Learning Data)

  • 정한균;김종인;고선영;채승기;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.588-591
    • /
    • 2021
  • 4차 산업혁명 시대가 도래하면서 세상이 빠른 속도로 변하고 있다. 특히 데이터·인공지능(AI, Artificial Intelligence)의 활용이 적극적으로 다양한 분야에서 적용되기 시작하고 있다. 하지만 산림수종을 분석하는 업무를 수행하는 과정은 수작업으로 진행하다 보니 오류가 다수 발생하고 있다. 따라서 본 논문에서는 수도권 항공사진을 이용하여 소나무, 낙엽송, 침엽수, 활엽수를 대상으로 자동으로 분석하는 AI 학습용 데이터 약 60,000장을 구축하고, 수종을 구분할 수 있는 AI 모델을 개발하였다. 이를 통해 산림변화탐지 및 산림 분야 주제도 제작 시 수종 분할 이미지를 기초자료로 활용함으로써 업무효율 증대를 기대할 수 있다.

A Study on Construction Method of AI based Situation Analysis Dataset for Battlefield Awareness

  • Yukyung Shin;Soyeon Jin;Jongchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.37-53
    • /
    • 2023
  • 인공지능에 기반한 지능형 지휘통체체계는 복잡하고 방대한 전장정보와 전술 데이터들을 학습모델을 통해 자동으로 융합 및 추출하여 전장상황을 분석한다. 지휘관은 지능형 지휘통제체계의 상황분석 결과를 제공받아 전장인식이 가능하여 의사결정을 지원할 수 있다. 의사결정지원에 특화된 결과를 지휘관에게 제공하기 위해서는 인공지능을 학습하기 위한 실 전장상황과 유사한 전장상황분석 데이터셋 생성이 필요하다. 본 논문은 기존 선행연구인 '인공지능 기반 전장상황분석을 위한 가상 전장상황 데이터 셋 생성 연구'의 다음 단계의 데이터셋 구축 방법 연구로 지휘관의 의사결정지원 및 미래 전장인식을 위해 최종적인 전장상황분석 결과에 필요한 데이터셋을 생성하는 방안에 대해 제안하였다. 전장상황 분석용 학습 데이터셋 생성도구 SW를 설계 및 구현하였고, 구현한 SW를 이용하여 데이터 레이블 작업을 진행하였다. Siamese Network 학습모델을 이용하여 구축한 데이터셋을 입력하고, 후처리 알고리즘을 활용한 출력 결과를 도출하여 생성한 데이터셋을 검증하였다.

2D-CNN 모델을 이용한 메타-전이학습 기반 부정맥 분류 (Arrhythmia classification based on meta-transfer learning using 2D-CNN model)

  • 김아현;염성웅;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.550-552
    • /
    • 2022
  • 최근 사물인터넷(IoT) 기기가 활성화됨에 따라 웨어러블 장치 환경에서 장기간 모니터링 및 수집이 가능해짐에 따라 생체 신호 처리 및 ECG 분석 연구가 활성화되고 있다. 그러나, ECG 데이터는 부정맥 비트의 불규칙적인 발생으로 인한 클래스 불균형 문제와 근육의 떨림 및 신호의 미약등과 같은 잡음으로 인해 낮은 신호 품질이 발생할 수 있으며 훈련용 공개데이터 세트가 작다는 특징을 갖는다. 이 논문에서는 ECG 1D 신호를 2D 스펙트로그램 이미지로 변환하여 잡음의 영향을 최소화하고 전이학습과 메타학습의 장점을 결합하여 클래스 불균형 문제와 소수의 데이터에서도 빠른 학습이 가능하다는 특징을 갖는다. 따라서, 이 논문에서는 ECG 스펙트럼 이미지를 사용하여 2D-CNN 메타-전이 학습 기반 부정맥 분류 기법을 제안한다.