DOI QR코드

DOI QR Code

A Study on Identifying Personal Information on Conversational Text Data

대화형 텍스트 데이터 내 개인정보 식별에 대한 연구

  • Cha, Do Hyun (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Kown, Bo Keun (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Youn, Hee Chang (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Lee, Gu Hyup (Department of Computer Science and Engineering, Dongguk University-Seoul) ;
  • Joo, Jong Wha J. (Department of Computer Science and Engineering, Dongguk University-Seoul)
  • 차도현 (동국대학교 컴퓨터정보통신공학부 컴퓨터공학전공) ;
  • 권보근 (동국대학교 컴퓨터정보통신공학부 컴퓨터공학전공) ;
  • 윤희창 (동국대학교 컴퓨터정보통신공학부 컴퓨터공학전공) ;
  • 이구협 (동국대학교 컴퓨터정보통신공학부 컴퓨터공학전공) ;
  • 주종화 (동국대학교 컴퓨터정보통신공학부 컴퓨터공학전공)
  • Published : 2022.11.21

Abstract

데이터 3 법을 필두로, 기업은 개인정보가 포함된 데이터를 활용하기 위해 비식별 처리가 필요하게 되었다. 기존 방식은, 비정형 텍스트 데이터에서 정규표현식을 통한 개인정보 식별은 데이터의 다양성에 의해 한계가 명확하며, 기존의 Named Entity Recognition(NER) 태스크로 해결하기에는 언어의 중의적 표현과 2 인 대화에서 나타나는 개인정보가 누구의 것인지 판단하지 못한다는 한계가 존재한다. 따라서 우리는 기존의 한계점을 극복하고 개선하기 위해 BERT 언어 모델에 화자 정보를 학습시키고, 하나의 어절에 2 개의 tag 를 labeling 하는 방법을 제안하여 정확한 개인정보 식별을 시도하였다.

Keywords

Acknowledgement

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. 2021R1F1A1054528) and MSIT(Ministry of Science and ICT), Korea, under the ITRC(Information Technology Research Center) support program(IITP-2022-2020-0-01789) supervised by the IITP(Institute for Information & Communications Technology Planning & Evaluation).