의료 합성데이터 적정성 검증 사례 연구

A Case Study on Medical Synthetic Data Sets Evaluation

  • 김성현 (한국지능정보사회진흥원 지능데이터본부) ;
  • 신신애 (한국지능정보사회진흥원 지능데이터본부) ;
  • 조연제 (한국지능정보사회진흥원 지능데이터본부)
  • Sung Hyun Kim (Dept. of AI Data, National Information Society Agency) ;
  • SinAe Shin (Dept. of AI Data, National Information Society Agency) ;
  • Yeon-je Cho (Dept. of AI Data, National Information Society Agency)
  • 발행 : 2024.10.31

초록

과학기술정보통신부와 한국지능정보사회진흥원은 2022년부터 인공지능 학습용 데이터를 구하기 힘든 의료 분야의 AI 학습용 합성데이터를 구축하여 제공하고 있다. 하지만 구축한 합성데이터에 대해 안전성 측면의 검증을 수행하지 않아 다운로드가 불가능한 AI허브의 온라인 안심존을 통해서만 제공하였다. 데이터 활용성의 향상을 위해 합성데이터는 자유로운 활용이 가능한 형태로 개방 되어야 한다. 본 연구에서는 개인정보위원회에서 발간한 합성데이터 생성 참조모델(2024.5)에 따라 검증한 2개 데이터 사례를 제시하여 검증 내용에 대한 구체적인 정보를 제공하고 다른 합성데이터 생성과 검증에 대한 가이드를 제시하였다.

키워드

과제정보

저자들은 자료와 인터뷰를 제공해주신 데이터 합성기관관계자들께 감사드립니다. 본 논문의 내용은 연구자들의 개인적인 의견일 뿐 소속기관과는 무관함을 알려드립니다.

참고문헌

  1. National Information Society Agency (2023). '가짜' 데이터가 만드는 '진짜' 인공지능 시대. IT & Future Strategy, Seoul: National Information Society Agency.
  2. 개인정보보호위원회, (2024) 합성데이터 생성 참조모델. 대한민국정부
  3. ICO, Privacy-enhanced technologies guideline, 2023. pp.17
  4. Yonglong et al. "StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners". NeurIPS, 2023.
  5. Lin Long et al. "On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey". 2024.. 6.
  6. Karras, T et al., Progressive growing of gans for improved quality, stability, and variation. arXiv preprint. 2017
  7. Karras, T., Alias-free generative adversarial networks. Advances in neural information processing systems, 34, 852-863. 2021.
  8. Waheed et al. "CovidGAN: Data Augmentation Using Auxiliary Classifier GAN for Improved Covid-19 Detection, IEEE Access, vol. 8, pp. 91916-91923, 2020