DOI QR코드

DOI QR Code

Apache NiFi-based ETL Process for Building Data Lakes

데이터 레이크 구축을 위한 Apache NiFi기반 ETL 프로세스

  • Received : 2021.07.23
  • Accepted : 2021.08.09
  • Published : 2021.08.31

Abstract

In recent years, digital data has been generated in all areas of human activity, and there are many attempts to safely store and process the data to develop useful services. A data lake refers to a data repository that is independent of the source of the data and the analytical framework that leverages the data. In this paper, we designed a tool to safely store various big data generated by smart cities in a data lake and ETL it so that it can be used in services, and a web-based tool necessary to use it effectively. Implement. A series of processes (ETLs) that quality-check and refine source data, store it safely in a data lake, and manage it according to data life cycle policies are often significant for costly infrastructure and development and maintenance. It is a labor-intensive technology. The mounting technology makes it possible to set and execute ETL work monitoring and data life cycle management visually and efficiently without specialized knowledge in the IT field. Separately, a data quality checklist guide is needed to store and use reliable data in the data lake. In addition, it is necessary to set and reserve data migration and deletion cycles using the data life cycle management tool to reduce data management costs.

최근 들어 인간의 모든 활동 영역에서 디지털 데이터가 생성되고 있고 데이터를 안전하게 저장하고 가공하여 유용한 서비스를 개발하려는 시도가 많아지고 있다. 데이터 레이크는 데이터의 출처나 데이터를 활용하는 분석 프레임워크에 독립된 데이터 저장소를 말한다. 본 논문에서는 스마트시티에서 생성되는 다양한 빅데이터를 데이터 레이크에 안전하게 저장하고 서비스에서 활용할 수 있게 ETL 하는 도구와 이를 효과적으로 사용하는데 필요한 웹기반 도구를 설계하고 구현한다. 원천 데이터를 품질검사하고 정제하여 데이터 레이크에 안전하게 저장한 다음 데이터 수명주기 정책에 따라 관리하는 일련의 과정(ETL)은 대부분 비용이 많이 드는 인프라와 개발 및 유지 관리에 상당한 노력이 필요한 기술이다. 구현기술을 통해 IT분야 전문지식이 없어도 가시적이고 효율적으로 ETL 작업 모니터링, 데이터 수명주기 관리 설정과 실행이 가능하다. 이와는 별개로 데이터 레이크에 신뢰할 수 있는 데이터를 저장하고 사용하려면 데이터 품질검사 리스트 가이드가 필요하다. 또한, 데이터 수명주기 관리 도구를 통해 데이터 마이그레이션 및 삭제 주기를 설정하고 예약하여 데이터 관리 비용을 줄일 수 있어야 한다.

Keywords

Acknowledgement

본 연구는 참고문헌[1]을 토대로 작성되었고, 농촌진흥청연구사업(농식품소비, 유전체특성 및 질병의 연관성분석(과제번호: PJ01538032020))지원과 2021년 식품의약품안전처의 연구개발비(21163MFDS517)로 수행되었으며 이에 감사드립니다.

References

  1. 이경민, "스마트시티를 위한 데이터 레이크의 ETL 프로세스 설계 및 구현", 충북대학교 석사학위논문, 2020.
  2. 김정욱, 최연석, 권준철, 부창진, "스마트시티", 제주, 제주대학교출판부, 2015.
  3. 삼정KPMG 경제연구원, "데이터 중심의 도시 운영, Data-Driven 스마트 시티를 주목하라", 삼정PKMG 경제연구원, 제103호, 2019.
  4. 최종근, "데이터 마이그레이션을 위한 오픈소스 ETL도구 평가", 숭실대학교 정보과학대학원, 2011.
  5. Alapati Sam R, "Expert Hadoop Administration: Managing, Tuning, and Securing Spark, YARN, and HDFS", Boston, MA: Addison Wesley, 2016
  6. Xplent, https://www.xplenty.com/
  7. Talend, https://www.talend.com/
  8. Stitch, https://www.stitchdata.com/
  9. Informatica Powercenter, https://www.informatica.com/products/data-integration/powercenter.html
  10. Pogiatzis, A.; Samakovitis, G. "An Event-Driven Serverless ETL Pipeline on AWS". Appl. Sci. 2021, 11, 191. https://doi.org/10.3390/app11010191