A Study on the Construction of Specialized NER Dataset for Personal Information Detection

개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험

  • Hyerin Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Li Fei (Institute of Language and Information Studies, Yonsei University) ;
  • Yejee kang (Institute of Language and Information Studies, Yonsei University) ;
  • Seoyoon Park (Institute of Language and Information Studies, Yonsei University) ;
  • Yeseul Cho (WorldVertex) ;
  • Hyeonmin Seong (WorldVertex) ;
  • Sungsoon Jang (WorldVertex) ;
  • Hansaem Kim (Institute of Language and Information Studies, Yonsei University)
  • Published : 2022.10.18

Abstract

개인정보에 대한 경각심 및 중요성 증대에 따라 텍스트 내 개인정보를 탐지하는 태스크가 주목받고 있다. 본 연구에서는 개인정보 탐지 및 비식별화를 위한 개인정보 특화 개체명 태그셋 7개를 고안하는 한편 이를 바탕으로 비식별화된 원천 데이터에 가상의 데이터를 대치하고 개체명을 주석함으로써 개인정보 특화 개체명 데이터셋을 구축하였다. 개인정보 분류 실험에는 KR-ELECTRA를 사용하였으며, 실험 결과 일반 개체명 및 정규식 바탕의 규칙 기반 개인정보 탐지 성능과 비교하여 특화 개체명을 활용한 딥러닝 기반의 개인정보 탐지가 더 높은 성능을 보임을 확인하였다.

Keywords

Acknowledgement

본 연구는 2022년도 정부(개인정보보호위원회)의 재원으로 한국인터넷진흥원의 지원을 받아 수행된 연구임(No. 1781000006, 대화형 텍스트 데이터에서 AI 기반 개인정보 탐지 및 비식별화 기술 개발)