의료 데이터의 멀티 모달 학습을 기반으로 한 임상 기록 생성 모델

Clinical Note Generation Model Based on Multimodal Learning of Medical Data

  • 유민서 (동덕여자대학교 문헌정보학과) ;
  • 김현희 (동덕여자대학교 정보통계학과)
  • Minseo Yoo (Dept. of Library and Information Science, Dongduk Women's University) ;
  • Hyon Hee Kim (Dept. of Statistics and Information Science, Dongduk Women's University)
  • 발행 : 2024.10.31

초록

대한민국 의료공백에 의해 영상의학 진단이 지체됨에 따라 많은 환자들이 치료 시기를 놓치고 있다. 본 연구에서는 진단 가속을 위해 흉부 X-ray 이미지와 임상 노트 텍스트로 구성된 데이터를 멀티모달 학습시키고, 흉부 X-ray 이미지에 대한 임상 기록을 생성하는 모델을 제안하였다. 이미지 임베딩 생성에는 PubMed 텍스트/이미지 쌍을 학습한 BiomedCLIP을 사용하고, 이미지 임베딩을 텍스트화하고 최종 텍스트 생성하는 과정에는 PLM 모델 T5를 사용한다. T5는 경량화된 모델이므로 컴퓨팅 자원이 부족한 의료 실무 환경에서도 충분히 임상 노트를 생성을 수행할 수 있으며, 이를 통한 정밀의학의 실용화를 기대할 수 있다.

키워드

참고문헌

  1. 박성제, 뇌혈전 의심 중3 응급실서 12시간 대기...부모 "현실 개탄스러워", 연합뉴스, 2024, https://www.yna.co.kr/view/AKR20240829100900051?input=1195m
  2. 권연아, 국내 병원들, AI 의료체계 속속 도입...첨단의료 혁신은 진행 중, 바이오타임스, 2024, https://www.biotimes.co.kr/news/articleView.html?idxno=16055
  3. Zhang, Sheng, et al. "BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs."arXiv preprint arXiv:2303.00915 (2023).
  4. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., ... & Poon, H. (2021). Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare(HEALTH), 3(1), 1-23.
  5. Dosovitskiy, Alexey. "An image is worth16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
  6. Mokady, Ron, Amir Hertz, and Amit H. Bermano. "Clipcap: Clip prefix for image captioning." arXiv preprint arXiv:2111.09734 (2021).
  7. https://www.kaggle.com/datasets/financekim/curated-cxr-report-generation-dataset
  8. https://physionet.org/content/mimic-cxr/2.1.0/
  9. https://openi.nlm.nih.gov/