관계형 테이블 합성데이터를 위한 기존 평가 지표의 한계와 개발 방향

Limitations and Improvements of Evaluation Metrics for Relational Tabular Synthetic Data

  • 이수빈 (이화여자대학교 인공지능융합전공) ;
  • 배호 (이화여자대학교 사이버보안학과)
  • Su-Bin Lee (Dept. of Artificial Intelligence Convergence, Ewha Womans University) ;
  • Ho Bae (Dept. of Cyber Security, Ewha Womans University)
  • 발행 : 2024.10.31

초록

합성데이터는 통계적 특성이 유사한 가상의 데이터로, 개인정보 보호 및 데이터 부족 문제를 해결하는 데 기여한다. 이를 관계형 데이터베이스로 확장한 관계형 테이블 합성데이터는 금융, 통신 등 다양한 응용 분야에서 사용되고 있으며 이에 대한 유용성과 안전성을 평가하는 다양한 지표들이 개발되어왔다. 그러나 현재 사용되는 평가지표는 단일 테이블이나 여러 테이블을 하나로 결합한 후 평가하는 경우가 많아 관계형 데이터의 복잡한 구조를 충분히 반영하지 못한다는 한계가 있다. 따라서 본 논문은 관계형 테이블 합성데이터 평가 시 기존 지표에 대한 한계를 분석하고, 데이터 간 관계 보존을 효과적으로 평가할 수 있는 포괄적 평가 지표의 필요성을 강조하며, 이를 위한 향후 지표 개발 방향성을 논의한다. 본 연구는 관계형 테이블 합성데이터의 신뢰성과 품질을 높이는 데 중요한 기여를 할 것으로 기대된다.

키워드

과제정보

이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.RS-2022-00155966, 인공지능융합혁신인재양성(이화여자대학교))

참고문헌

  1. 개인정보보호위원회, "합성데이터 생성 참조모델," 개인정보보호위원회, 대한민국, 2023.
  2. M. Giuffre, D. L. Shung, "Harnessing the power of synthetic data in healthcare: innovation, application, and privacy," NPJ Digital Medicine, vol. 6
  3. H. Murtaza, M. Ahmed, N. F. Khan, G. Murtaza, S. Zafar, A. Bano, "Synthetic data generation: State of the art in health care domain," Computer Science Review, vol. 48, pp. 100546, May 2023.
  4. M. Dogariu, B. Kim, L.-D. Stefan, B.-A. Boteanu, C. Lamba, B. Ionescu, "Generation of Realistic Synthetic Financial Time-series," ACM Transactions on Multimedia Computing, Communications, and Applications, vol. 18, no. 3, Mar. 2022
  5. M. Goyal, Q. H. Mahmoud, "Privacy Mechanisms and Evaluation Metrics for Synthetic Data Generation: A Systematic Review," Electronics, vol. 13, no. 17, pp. 3509, Sept. 2024.
  6. Z. Zhao, A. Kunar, R. Birke, L. Y. Chen, "CTAB-GAN: Effective Table Data Synthesizing," in Proceedings of The 13th Asian Conference on Machine Learning, PMLR, vol. 157, pp. 97-112, Nov. 2021.
  7. M. Vero, M. Balunovic, M. Vechev, "CuTS: Customizable Tabular Synthetic Data Generation," in Proceedings of the 41st International Conference on Machine Learning, PMLR, vol. 235, pp. 49408-49433, July 2024.
  8. T. Sattarov, M. Schreyer, D. Borth, "FedTabDiff: Federated Learning of Diffusion Probabilistic Models for Synthetic Mixed-Type Tabular Data Generation," arXiv preprint, arXiv:2401.06263, Jan. 2024.
  9. K. Cai, X. Xiao, G. Cormode, "PrivLava: Synthesizing Relational Data with Foreign Keys under Differential Privacy," Proceedings of the ACM on Management of Data, vol. 1, no. 2, pp. 142:1-142:25, 2023.
  10. M. Park, S. Kang, "Row Conditional-TGAN for generating synthetic relational databases," Proceedings of the 2021 International Conference on Data Mining and Applications, pp. 78-85, 2021.
  11. M. Miletic, M. Sariyar, "Challenges of Using Synthetic Data Generation Methods for Tabular Microdata," Applied Sciences, vol. 14, no. 14, pp. 5975, 2024.
  12. V. S. Chundawat, A. K. Tarun, M. Mandal, M. Lahoti, P. Narang, "TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data," arXiv preprint, arXiv:2207.05295, July 2022.
  13. M. Hernandez, G. Epelde, A. Alberdi, R. Cilla, D. Rankin, "Synthetic Tabular Data Evaluation in the Health Domain Covering Resemblance, Utility, and Privacy Dimensions," Methods of Information in Medicine, vol. 62, no. 1, pp. 11-22, 2023.
  14. A. Goncalves, P. Ray, B. Soper, J. Stevens, L. Coyle, A. P. Sales, "Generation and Evaluation of Synthetic Patient Data," BMC Medical Research Methodology, vol. 20, no. 1, pp. 1-13, May 2020.
  15. S. C. Yang, B. Eaves, M. Schmidt, K. Swanson, P. Shafto, "Structured Evaluation of Synthetic Tabular Data," arXiv preprint, arXiv:2403.10424, March 2024.
  16. C. A. Mami, A. Coser, A. T. P. Boudewijn, M. Volpe, M. Whitworth, D. Panfilo, S. Saccani, "Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders," Proceedings of NeurIPS 2022, Dec. 2022.
  17. N. Patki, R. Wedge, K. Veeramachaneni, "The Synthetic Data Vault (SDV)," in Proceedings of the 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA), pp. 399-410, Oct. 2016.
  18. A. V. Solatorio, O. Dupriez, "REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers," arXiv preprint, arXiv:2302.02041, Feb. 2023.
  19. A. Sanfeliu, K. S. Fu, "A distance measure between attributed relational graphs for pattern recognition," IEEE Transactions on Systems, Man, and Cybernetics, vol. 13, no. 3, pp. 353-362, 1983.
  20. H. Whitney, "Congruent Graphs and the Connectivity of Graphs," American Journal of Mathematics, vol. 54, pp. 150-168, 1932.
  21. L. Sweeney, "k-Anonymity: A Model for Protecting Privacy," International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, vol. 10, no. 5, pp. 557-570, 2002.
  22. A. Machanavajjhala, D. Kifer, J. Gehrke, M. Venkitasubramaniam, "ℓ-Diversity: Privacy Beyond k-Anonymity," ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 1, no. 1, pp. 3-23, March 2007.