DOI QR코드

DOI QR Code

Re-anonymization Technique for Dynamic Data Using Decision Tree Based Machine Learning

결정트리 기반의 기계학습을 이용한 동적 데이터에 대한 재익명화기법

  • 김영기 (경희대학교 컴퓨터공학과) ;
  • 홍충선 (경희대학교 컴퓨터공학과)
  • Received : 2016.08.18
  • Accepted : 2016.10.26
  • Published : 2017.01.15

Abstract

In recent years, new technologies such as Internet of Things, Cloud Computing and Big Data are being widely used. And the type and amount of data is dramatically increasing. This makes security an important issue. In terms of leakage of sensitive personal information. In order to protect confidential information, a method called anonymization is used to remove personal identification elements or to substitute the data to some symbols before distributing and sharing the data. However, the existing method performs anonymization by generalizing the level of quasi-identifier hierarchical. It requires a higher level of generalization in case where k-anonymity is not satisfied since records in data table are either added or removed. Loss of information is inevitable from the process, which is one of the factors hindering the utility of data. In this paper, we propose a novel anonymization technique using decision tree based machine learning to improve the utility of data by minimizing the loss of information.

사물인터넷, 클라우드 컴퓨팅, 빅데이터 등 새로운 기술의 도입으로 처리하는 데이터의 종류와 양이 증가하면서, 개인의 민감한 정보가 유출되는 것에 대한 보안이슈가 더욱 중요시되고 있다. 민감정보를 보호하기 위한 방법으로 데이터에 포함된 개인정보를 공개 또는 배포하기 전에 일부를 삭제하거나 알아볼 수 없는 형태로 변환하는 익명화기법을 사용한다. 그러나 준식별자의 일반화 수준을 계층화하여 익명화를 수행하는 기존의 방법은 데이터 테이블의 레코드가 추가 또는 삭제되어 k-익명성을 만족하지 못하는 경우에 더 높은 일반화 수준을 필요로 한다. 이와 같은 과정으로 인한 정보의 손실이 불가피하며 이는 데이터의 유용성을 저해하는 요소이다. 따라서 본 논문에서는 결정트리 기반의 기계학습을 적용하여 기존의 익명화방법의 정보손실을 최소화하여 데이터의 유용성을 향상시키는 익명화기법을 제안한다

Keywords

Acknowledgement

Grant : ICBMS 플랫폼 간 정보모델 연동 및 서비스 매쉬업을 위한 스마트 중재 기술 개발

Supported by : 정보통신기술진흥센터

References

  1. Chikwang Hwang, Jongwon Choe, Choong Seon Hong, "A Study on Service-based Secure Anonymization for Data Utility Enhancement," Journal of KIISE, Vol. 42, No. 5, pp. 681-689, May. 2015. (in Korean) https://doi.org/10.5626/JOK.2015.42.5.681
  2. L. Sweeny, "k-anonymity: a model for protecting privacy," International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, Vol. 10, No. 5, pp. 557-570, 2012. https://doi.org/10.1142/S0218488502001648
  3. Byun, Ji-Won, et al., "Efficient k-anonymization using clustering techniques," International Conference on Database Systems for Advanced Applications, pp. 188-200, Apr. 2007.
  4. Lin, Jun-Lin, and Meng-Cheng Wei, "Genetic algorithm- based clustering approach for k-anonymization," Journal of Expert Systems with Applications, Vol. 36, No. 6, pp. 9784-9792, Dec. 2009. https://doi.org/10.1016/j.eswa.2009.02.009
  5. Li, Tiancheng, and Ninghui Li, "On the tradeoff between privacy and utility in data publishing," ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 517-526, Jun. 2009.
  6. H. Kim, "Privacy Preserving for Statistical Anonymity," NIA Privacy Issues, No. 2, Jun. 2012. (in Korean)
  7. Xiaoshuang Xu, Masayuki Numao, "An Efficient Clustering Method for k-Anonymization," International Symposium on Computing and Networking, pp. 499-502, Dec. 2015.
  8. ARX, [Online], Available: http://arx.deidentifier.org/
  9. Java-ML, [Online], Available: http://java-ml.sourceforge.net/