A Study on the Preservation of Similarity of privated Data

Kang, Dong-Hyun;Oh, Hyun-Seok;Yong, Woo-Seok;Lee, Won-Seok;

doi:10.3745/PKIPS.y2017m11a.285

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

2017.11a
/
Pages.285-288
/
2017
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

A Study on the Preservation of Similarity of privated Data

비식별 데이터의 유사성 보존에 관한 연구

Kang, Dong-Hyun (Dept. of Computer Science, Yonsei University) ;
Oh, Hyun-Seok (Dept. of Computer Science, Yonsei University) ;
Yong, Woo-Seok (Dept. of Computer Science, Yonsei University) ;
Lee, Won-Seok (Dept. of Computer Science, Yonsei University)

강동현 (연세대학교 컴퓨터과학과) ;
오현석 (연세대학교 컴퓨터과학과) ;
용우석 (연세대학교 컴퓨터과학과) ;
이원석 (연세대학교 컴퓨터과학과)

Published : 2017.11.01

https://doi.org/10.3745/PKIPS.y2017m11a.285 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

비식별화 모델은 데이터 공유를 위한 모델로 원본데이터를 비식별화 변환 처리하여 개인정보를 보호함과 동시에 분석에 필요한 데이터를 외부에 제공하는 모델로 연구되어 왔다. 변환 방법으로는 삭제, 일반화, 범주화 기술 등이 주로 사용되며 변환 과정 중에는 재식별 가능성을 최소화하기 위해 k-익명성, l-다양성, t-근접성 혹은 differential privacy 등의 프라이버시 모델이 적용되고 있다. 하지만 변환된 비식별 데이터 세트는 필연적으로 원본 데이터 세트와 다른 값을 가지며 이는 결과적으로 최종 분석 결과에 영향을 주게 된다. 이를 위해 두 데이터 세트 간의 차이를 상이도(dissimilarity) 혹은 정보 손실율(information loss)이라는 지표로 측정 하고 있으며 본 지표는 비식별 데이터의 활용성을 평가 하는 데에 매우 중요한 역할을 한다. 본 연구에서는 비식별 데이터와 원본 데이터와 간의 차이를 도메인 기반의 절대적인 기준대비로 표현한 상이도 측정 방법을 제안하며, 그 유효성을 실데이터 기반의 실험을 통해 검증하였다.

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

A Study on the Preservation of Similarity of privated Data

비식별 데이터의 유사성 보존에 관한 연구

Abstract

Keywords