DOI QR코드

DOI QR Code

Method for improving video/image data quality for AI learning of unstructured data

비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법

  • 김승희 (극동대학교/인공지능 보안학과) ;
  • 류동주 (극동대학교/인공지능 보안학과)
  • Received : 2023.05.17
  • Accepted : 2023.06.12
  • Published : 2023.06.30

Abstract

Recently, there is an increasing movement to increase the value of AI learning data and to secure high-quality data based on previous research on AI learning data in all areas of society. Therefore, quality management is very important in construction projects to secure high-quality data. In this paper, quality management to secure high-quality data when building AI learning data and improvement plans for each construction process are presented. In particular, more than 80% of the data quality of unstructured data built for AI learning is determined during the construction process. In this paper, we performed quality inspection of image/video data. In addition, we identified inspection procedures and problem elements that occurred in the construction phases of acquisition, data cleaning, labeling, and models, and suggested ways to secure high-quality data by solving them. Through this, it is expected that it will be an alternative to overcome the quality deviation of data for research groups and operators participating in the construction of AI learning data.

최근 전세계적으로 사회 모든 분야에서 인공지능 학습용 데이터에 관한 선행연구를 기반으로, 인공지능 학습용 데이터의 가치를 높이고 고품질 데이터를 확보하고자 하는 움직임이 늘고 있다. 따라서, 고품질 데이터를 확보하기 위한 구축사업에서는 품질관리가 매우 중요하다. 이에, 본 논문에서는 인공지능 학습용 데이터를 구축할 시 고품질데이터 확보를 위한 품질관리와 그에 따른 구축공정별 개선방안을 제시하였다. 특히, 인공지능 학습을 위해 구축되는 비정형데이터는 데이터 품질의 80% 이상이 구축과정에서 결정된다. 본 논문에서는 비정형데이터 이미지/영상데이터에 대한 품질검사를 통해 구축단계에서의 획득, data cleaning, labeling 모델에서 발생된 검사절차 및 문제 요소를 해결함으로써 고품질 데이터 확보 방안을 제시하였으며, 제시한 방안을 토대로 인공지능 학습용 데이터 구축에 참여하는 연구단체와 사업자들에게 데이터의 품질편차를 극복하기 위한 대안이 될 것으로 기대된다.

Keywords

References

  1. 김연진, 조숙경, 박봉섭, 김경배, 서원대학교, 소방청, "유해화학물질 판독을 위한 인공지능 학습 데이터 라벨링에 관한 연구", 한국통신학회 논문집, pp. 266-267, 2022.
  2. 과학기술정보통신부, 한국지능정보사회진흥원, 한국정보통신기술협회, 「인공지능 학습용 데이터 품질관리 가이드라인 v3.0, 2022.
  3. 과학기술정보통신부, 한국지능정보사회진흥원, 한국정보통신기술협회, 「인공지능학습용 데이터 품질관리 가이드라인 v2.0 제2권 데이터구축 안내서」, p.13, 2022.
  4. 과학기술정보통신부, 한국지능정보사회진흥원, 한국정보통신기술협회, 「인공지능 학습용데이터 품질관리 안내서 v1.0 제1권 품질관리구축 안내서」, 2021.
  5. 이창엽, 이홍재, 최용락, "데이터 품질관리 체계 수립질병 데이터를 중심으로", 한국 IT 정책경영학회논문지, 2018.
  6. 유성근, 조성만, 송민정, 전소연, 임송원, 정서경, 박상일, 박구만, 김희태, 이대성, 서울과학기술대학교, "딥러닝을 활용한 향상된 라벨인식 방법에관한 연구", 주식회사테크윙, 춘계학술발표대회논문집, 2018.
  7. 한국지능정보사회진흥원(NIA), 인공지능 학습용데이터 구축 사업관리 매뉴얼, 2021 재구성.
  8. 과학기술정보통신부, 한국지능정보사회진흥원.AI-Hub, AI.DATA INSIGHT Vol. 09.
  9. 한국지능정보사회진흥원(NIA), 인공지능 학습용데이터 구축 지원 자료-AI-Hub 활용 성과, 2022.
  10. 과학기술정보통신부, 한국지능정보사회진흥원, 인공지능 학습용 데이터 품질관리 가이드라인 v1.0, 2021, 재구성/3D모델링 데이터 및 품질검증 TTA, v2, 2022.
  11. 김동기, 최병기, 이재호, "명세 기반 인공지능 학습데이터 수집 방법", 정보처리학회논문지/소프트웨어 및 데이터 공학 제11호, 2022.
  12. 이운영, "인공지능 학습을 위한 패션 레이블드 데이터 분석", 한국디자인학회지, 2022.