DOI QR코드

DOI QR Code

A Study on the Data Fusion for Data Enrichment

데이터 보강을 위한 데이터 통합기법에 관한 연구

  • 정성석 (전북대학교 수학 통계정보과학과) ;
  • 김순영 (전북대학교 수학 통계정보과학과) ;
  • 김현진 (전북대학교 수학 통계정보과학과)
  • Published : 2004.11.01

Abstract

One of the best important thing in data mining process is the quality of data used. When we perform the mining on data with excellent quality, the potential value of data mining can be improved. In this paper, we propose the data fusion technique for data enrichment that one phase can improve data quality in KDD process. We attempted to add k-NN technique to the regression technique, to improve performance of fusion technique through reduction of the loss of information. Simulations were performed to compare the proposed data fusion technique with the regression technique. As a result, the newly proposed data fusion technique is characterized with low MSE in continuous fusion variables.

데이터마이닝에서 가장 중요한 요소 중 하나는 마이닝에 사용될 데이터의 질이다. 질 높은 데이터를 바탕으로 마이닝이 수행될 때, 데이터마이닝의 잠재적 가치는 증대될 것이다. 본 논문에서는 지식발견 과정 중 데이터의 질을 향상시키기 위한 한 단계인 데이터 보강을 위해 데이터 통합 기법을 제안하고, 모의실험을 통해 제안된 알고리즘의 효율성을 비교하였다. 실험결과 제안된 알고리즘이 데이터 통합의 성능을 향상시킴을 알 수 있었다.

Keywords

References

  1. Ingram, D., O'Hare, J., Scheuren, F. and Turek, J. (2000). Statistical matching: a new validation case study, Proceedings of the Survey Research Methods Section, American Statistical Association
  2. R$\"a$ssler, S. (2002). Statistical Matching : A frequentist theory, Practical applications, and alternative Bayesian approaches, Springer Verlag, New York
  3. Saporta, G. (2002). Data fusion and data grafting, Computational Statistics & Data Analysis, 38, 465-473 https://doi.org/10.1016/S0167-9473(01)00072-X
  4. U.S. Department of Commerce, (1980). Report on exact and statistical matching techniques, Statistical Policy Working Paper 5. Washington, DC: Federal Committee on Statistical Methodology
  5. Van der Putten, P., Joost N. K. and Gupta, A. (2002). Why the information explosion can be bad for data mining, and how data fusion provides a way out, Second SIAM International Conference on Data Mining, Arlington, April, 11-13
  6. Yoshizoe, Y. and Araki, M. (1999). Use of statistical matching for household surveys in Japan, In 52nd Session of the International Statistical Institute, Helsinki, Finland