DOI QR코드

DOI QR Code

Construction of Korean symptom articulation data using rule-based data augmentation technique

규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축

  • Seong-Won Jeon (Dept. of Applied Artificial Intelligence, Hanyang University, Major in Bio Artificial Intelligence) ;
  • Dong-Jun Lee (Dept. of Millitary Information Engineering, Hanyang University) ;
  • Dong-Ho Lee (Dept. of Applied Artificial Intelligence, Hanyang University, Major in Bio Artificial Intelligence)
  • 전성원 (한양대학교 인공지능융합학과 바이오인공지능융합전공 ) ;
  • 이동준 (한양대학교 국방정보공학과) ;
  • 이동호 (한양대학교 인공지능융합학과 바이인공지능융합전공 )
  • Published : 2023.05.18

Abstract

건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

Keywords

Acknowledgement

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. RS-2022-00155885, 인공지능융합혁신인재양성(한양대학교 ERICA))을 받아 수행된 연구임. 이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 202300000000924). 본 연구는 2023년 과학기술정통신부 및 정보통신기획평가원의 SW중심대학지원사업의 연구결과로 수행되었음(2018-0-00192)