A Study of Big Data Domain Automatic Classification Using Machine Learning

머신러닝을 이용한 빅데이터 도메인 자동 판별에 관한 연구

  • Received : 2018.11.06
  • Accepted : 2018.12.31
  • Published : 2018.12.31

Abstract

This study is a study on domain automatic classification for domain - based quality diagnosis which is a key element of big data quality diagnosis. With the increase of the value and utilization of Big Data and the rise of the Fourth Industrial Revolution, the world is making efforts to create new value by utilizing big data in various fields converged with IT such as law, medical, and finance. However, analysis based on low-reliability data results in critical problems in both the process and the result, and it is also difficult to believe that judgments based on the analysis results. Although the need of highly reliable data has also increased, research on the quality of data and its results have been insufficient. The purpose of this study is to shorten the work time to automizing the domain classification work which was performed from manually to using machine learning in the domain - based quality diagnosis, which is a key element of diagnostic evaluation for improving data quality. Extracts information about the characteristics of the data that is stored in the database and identifies the domain, and then featurize it, and automizes the domain classification using machine learning. We will use it for big data quality diagnosis and contribute to quality improvement.

본 연구는 빅데이터 품질 진단의 핵심 요소인 도메인 기반 품질 진단을 위한 도메인 자동 판별에 관한 연구다. 빅데이터의 가치와 활용도의 증가와 4차 산업혁명의 대두로, 법률, 의료, 금융 등 IT와 융합된 다양한 분야에서 빅데이터를 활용하여 새로운 가치를 창출하려는 노력을 진행중이다. 하지만, 신뢰도가 낮은 데이터에 기반한 분석은 과정과 결과 모두에서 치명적인 문제를 발생하며, 분석 결과에 따른 판단 또한 신뢰하기 어려워 진다. 이처럼 신뢰도가 높은 데이터의 필요성 또한 증가하였지만, 데이터의 품질 확보에 대한 연구와 그에 대한 결과는 미비하다. 본 연구는 데이터 품질 향상을 위한 진단 평가의 핵심적 요소인 도메인 기반 품질 진단에서, 수작업으로 진행되었던 도메인 판별 작업을 머신러닝을 이용하여 자동화 함으로써, 작업시간을 단축하는 것을 목표로 한다. 데이터 베이스에 저장된, 도메인이 판별되어 있는 데이터의 특성에 관한 정보들을 추출하여 변수화하고, 이를 머신러닝을 이용하여 도메인 판별을 자동화 한다. 이를 빅데이터 품질 진단에 활용하고, 품질 향상에 기여하도록 한다.

Keywords

References

  1. 이진형, "머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구", 한국빅데이터논문지, 제2권 제2호, 2017
  2. Robert E. Schapire, "Random Forests", Machine Learning, 45, 5-32, 2001 https://doi.org/10.1023/A:1010933404324
  3. A Liaw, M Wiener, Classification and regression by randomForest, R news, 2002
  4. B.P.Weidema, M.S.Wesnæs, Data quality management for life cycle inventories-an example of using data quality indicators, Vol4, Issues 3-4, 1996, Pages 167-174 https://doi.org/10.1016/S0959-6526(96)00043-1
  5. 이상기, 채철주, 홍의경," 데이터 프로파일링과 정규 표현식 활용 비정형 과학기술 빅데이터 품질관리 방안", 한국콘텐츠학회논문지, 제14권, 제12호, p486-793, 2014
  6. 명재호, 안희진 이창수, 김성현 임동진, 오경조, 이종규, 김선영, 최용준, 데이터 품질 가이드라인, 한국데이터진흥원, 2011
  7. 데이터 품질관리 지침, 한국데이터베이스진흥센터, 2006
  8. 데이터 산업 백서, 한국데이터진흥원, 2017
  9. 차경엽, 심광호, "공공부문 정보시스템 데이터의 신뢰성 점검기법 개발", 한국통계학회논문집, 제17권, P745-753, 2010
  10. 데이터 분석 전문가 가이드, 한국데이터베이스진흥원, 2016
  11. J. VanderPlas, Python Data Science Handbook: Essential Tools for Working with Data, 2016
  12. T.F. Cootes, M.C.Ionita, C.Lindner, P.Sauer, "Robust and Accurate Shape Model Fitting Using Random Forest Regression Voting", Computer Vision - ECCV 2012, pp 278-291, 2012
  13. 김선호, 이창수, "데이터 품질관리 프로세스 평가를 위한 프로세스 참조모델", 한국전자거래학회지, 제18권, 2013
  14. Caballero, I., Caro, A., Calero, C., Piattini, M., "IQM3 : Information Quality, Management Maturity Model," Journal of Universal Computer Science Vol. 14, No. 22, pp. 3658-3685, 2008.
  15. ISO 8000-1 Data quality-Part1 : Overview, ISO, 2009
  16. Pipino, L. L., Lee, Y. W., Wang R. Y., "Data quality as-sessment", Communications of the ACM, Vol. 45, No. 4, pp. 211-218, 2002. https://doi.org/10.1145/505248.506010
  17. Ryu, K. S., Park, J. S., Park, J. H., "A data quality management maturity model," ETRI Journal, Vol. 28, No. 2, 2006.
  18. Leo L. Pipino, Yang W. Lee, and Richard Y. Wang, "Data Quality Assessment," Communications of the ACM, vol. 45, no. 4, Apr. 2002, pp. 211-218. https://doi.org/10.1145/505248.506010