Noise Averaging Effect on Privacy-Preserving Clustering of Time-Series Data

시계열 데이터의 프라이버시 보호 클러스터링에서 노이즈 평준화 효과

  • 문양세 (강원대학교 컴퓨터과학과) ;
  • 김혜숙 (강원대학교 컴퓨터과학과)
  • Received : 2009.08.14
  • Accepted : 2009.12.28
  • Published : 2010.03.15

Abstract

Recently, there have been many research efforts on privacy-preserving data mining. In privacy-preserving data mining, accuracy preservation of mining results is as important as privacy preservation. Random perturbation privacy-preserving data mining technique is known to well preserve privacy. However, it has a problem that it destroys distance orders among time-series. In this paper, we propose a notion of the noise averaging effect of piecewise aggregate approximation(PAA), which can be preserved the clustering accuracy as high as possible in time-series data clustering. Based on the noise averaging effect, we define the PAA distance in computing distance. And, we show that our PAA distance can alleviate the problem of destroying distance orders in random perturbing time series.

최근, 개인 데이터의 프라이버시 보호에 대한 문제가 대두됨에 따라 대용량 데이터를 대상으로 하는 데이터 마이닝 분야에서도 프라이버시 보호 문제에 대한 활발한 연구가 진행되고 있다. 데이터 마이닝에서의 프라이버시 보호 문제는 정보제공자에 의해 제공된 정보 중 민감한 개인 정보의 노출이 없이도 가능한 정확한 마이닝 결과를 얻는 것이다. 데이터 마이닝의 프라이버시 보호 기법에서는 데이터의 보호뿐만 아니라 결과의 정확도 또한 중요한 요인이다. 이에 따라, 본 논문에서는 시계열 데이터 클러스터링을 기반으로 랜덤 데이터 교란 기법에서 결과의 정확도를 높이는 기법으로 노이즈 평준화 개념을 제시한다. 기존의 랜덤 데이터 교란 기법은 데이터의 프라이버시는 잘 보호하지만 시계열간의 거리-순서가 보존되지 않아 결과의 정확도가 크게 떨어지는 문제점을 가진다. 이를 위해, 본 논문에서는 PAA를 기반으로 하는 노이즈 평준화 개념을 제시하고, 구체적인 예를 통해, 제안한 노이즈 평준화 개념이 랜덤 데이터 교란 기법에서 클러스터링 결과의 정확도를 높일 수 있음을 체계적으로 설명한다.

Keywords

References

  1. R. Agrawal and R. Srikant, "Privacy Preserving Data Mining," In Proc. of the Int'l Conf. on Management of Data, Dallas, Texas, pp.439-450, May 2000.
  2. Y. Lindell and B. Pinkas, "Privacy Preserving Data Mining," Advances in Cryptology, vol.1807, pp.35-53, Dec. 2000.
  3. A. V. Evfimievski, R. Srikant, R. Agrawal, and J. Gehrke, "Privacy Preserving Mining of Association Rules," In Proc. of the 8th Int'l Conf. on Knowledge Discovery and Data Mining, Edmonton, Canada, pp.217-228, July 2002.
  4. W.-S. Han, J. Lee, Y.-S. Moon, H. Jiang, "Ranked Subsequence Matching in Time-Series Databases," In Proc. of the 33th Int'l Conf. on Very Large Data Bases, Vienna, Austria, pp.423-434, Sept. 2007.
  5. H.-S. Kim, Y.-S. Moon, "Privacy-Preserving Clustering on Time-Series Data Using Fourier Magnitudes," Journal of KIISE: Databases, vol.35, no.6, pp.481-494, Dec. 2008. (in Korean)
  6. S. Rizvi and J. R. Haritsa, "Maintaining Data Privacy in Association Rule Mining," In Proc. of the 28th Int'l Conf. on Very Large Data Bases, Hong Kong, China, pp.682-693, Sept. 2002.
  7. S. Papadimitriou, F. Li, G. Kollios, and P. S. Yu, "Time Series Compressibility and Privacy," In Proc. of the 33th Int'l Conf. on Very Large Data Bases, Vienna, Austria, pp.459-470, Sept. 2007.
  8. J. Vaidya and C. Clifton, "Privacy-Preserving k-Means Clustering over Vertically Partitioned Data," In Proc. of the 9th Int'l Conf. on Knowledge Discovery and Data Mining, Washington D.C., pp.24-27, Aug. 2003.
  9. S. Mukherjee and Z. Chen, "A Privacy-Preserving Technique for Euclidean Distance-based Mining Algorithms Using Fourier-Related Transforms," The VLDB Journal, vol.15, no.4, pp.293-315, Nov. 2006. https://doi.org/10.1007/s00778-006-0010-5