DOI QR코드

DOI QR Code

Development and Application of a Big Data Platform for Education Longitudinal Study Analysis

교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용

  • 박정 (흥도초등학교) ;
  • 조완섭 (충북대학교 대학원 빅데이터학과)
  • Received : 2020.07.21
  • Accepted : 2020.08.25
  • Published : 2020.08.30

Abstract

In this paper, we developed a big data platform to store, process, and analyze effectively on such education longitudinal study data. And it was applied to the Seoul Education Longitudinal Study(SELS) to confirm its usefulness. The developed platform consists of data preprocessing unit and data analysis unit. The data preprocessing unit 1) masking, 2) converts each item into a factor 3) normalizes / creates dummy variables 4) data derivation, and 5) data warehousing. The data analysis unit consists of OLAP and data mining(DM). In the multidimensional analysis, OLAP is performed after selecting a measure and designing a schema. The DM process involves variable selection, research model selection, data modification, parameter tuning, model training, model evaluation, and interpretation of the results. The data warehouse created through the preprocessing process on this platform can be shared by various researchers, and the continuous accumulation of data sets makes further analysis easier for subsequent researchers. In addition, policy-makers can access the SELS data warehouse directly and analyze it online through multi-dimensional analysis, enabling scientific decision making. To prove the usefulness of the developed platform, SELS data was built on the platform and OLAP and DM were performed by selecting the mathematics academic achievement as a measure, and various factors affecting the measurements were analyzed using DM techniques. This enabled us to quickly and effectively derive implications for data-based education policies.

본 논문에서는 교육종단연구 데이터를 효과적으로 저장·처리·분석하기 위한 데이터 플랫폼을 개발하고, 이를 서울교육종단연구(SELS)에 적용하여 유용성을 확인한다. 플랫폼은 데이터 전처리부와 데이터 분석부로 구성된다. 데이터 전처리부에서는 1) 마스킹 2) 요인화 3) 정규화·이산화 4) 데이터 유도 5) 데이터 웨어하우징 과정을 통해 교육종단연구 데이터 웨어하우스를 생성하게 된다. 데이터 분석부는 OLAP과 데이터 마이닝(DM)으로 구성된다. 먼저, OLAP에서는 측정값 선정, 스키마 설계를 거쳐 OLAP을 수행하게 된다. 이후 DM에서는 변수 선택, 연구모형 선택, 데이터 수정, 인수튜닝, 모형학습, 모형평가 및 해석단계를 거친다. 본 플랫폼에서 전처리 과정을 거쳐 생성된 데이터 웨어하우스는 다양한 연구자들에 의해 공유될 수 있고, 지속적인 연구결과 데이터 셋의 축적이 가능하므로 후속 연구자들은 추가적인 분석을 수월하게 수행할 수 있게 된다. 또한, 정책입안자들도 SELS 데이터 웨어하우스에 직접 접근하여 다차원 분석을 통해 온라인으로 분석할 수 있어 과학적인 의사결정이 가능하게 된다. 본 연구에서는 개발된 플랫폼의 유용성을 입증하기 위해 SELS 데이터를 플랫폼 상에서 구축하고 수학 학업성취도를 측정값으로 선정하여 OLAP 및 DM을 수행하였으며, 측정값에 영향을 주는 다양한 요인을 데이터 마이닝 기법을 사용하여 분석하였다. 이를 통해 데이터 기반 교육정책 시사점을 빠르고 효과적으로 도출할 수 있었다.

Keywords

References

  1. 김계수(2007), Amos 구조방정식 모형 분석, 서울: 한나래.
  2. 김슬람(2018), 노인 고혈압 외래환자 의료비 영향 요인 분석: 시도별 의료이용을 중심으로, 충북대학교 석사학위 논문.
  3. 김양훈(2019), "인천시교육청, 학생 예측기법 빅데이터 학교 신설 업무 활용". 매일일보, 2019. 6. 27.
  4. 문보경(2019), "교육 정책 빅데이터 활용해 수립...관계기관 첫 회의 가져". 전자신문, 2019. 2. 17.
  5. 박선우(2018), "빅데이터 시대와 데이터 융합," 정보통신방송정책, 30(1), 1-24.
  6. 박현정, 정동욱, 강주연, 하여진, 홍자연, 박민호, 신지숙, & 이진실(2012), 서울교육종단연구 2차 년도 기초분석 보고서, 서울특별시교육연구정보원.
  7. 배미희, 최중진, & 김청송(2016), "학교폭력 가해자, 피해자, 방관자 예측모형 연구," 청소년학연구, 23(8), 385-413.
  8. 배정수, & 송병국(2015), "의사결정나무 분석기법을 활용한 고등학생 진로결정수준 결정요인 우선순위 탐구," 진로교육연구, 28(4), 79-105.
  9. 부산교육정책연구소.(2019), 2019 부산교육종단 연구 협력학교 설명회 자료집, 부산광역시교육청.
  10. 서울교육연구정보원.(2010), 데이터 기반 서울 교육정책 설계 서울교육종단연구, 서울특별시 교육청.
  11. 서울대학교 교육연구소(2011). 교육학용어사전, 서울: 하우동설.
  12. 성기선, 양길석, 김준엽, 박소영, 민병철, 윤일경, 이종현, & 이경아.(2013), 경기교육종단연구 1차년도 기초분석 보고서, 경기도교육연구원.
  13. 오영세(2019), "서울시교육청, 수요자 중심교육⋅교육서비스 빅데이터로 실현한다". 에듀인뉴스, 2019. 6. 17.
  14. 이주리(2009), "Data Mining 을 이용한 초등학생의 삶의 만족도에 대한 보호요인 및 위험요인 탐색," 아동학회지, 30(1), 11-25.
  15. 이현호(2016), R과 SQL을 활용한 실전 데이터 전처리, 서울: 카오스북.
  16. 이혜주 & 정의현(2014), "데이터마이닝 기법을 이용한 스트레스 결정요인의 연차별 추이 분석," 아동교육, 23(3), 63-80.
  17. 임성택, 어성민, & 신미숙.(2013), 강원 학생 교육성취도 종단연구, 강원도교육 연구원.
  18. 조완섭(2017), "빅데이터 거버넌스와 표준화 동향," OSIA Standards & Technology Review, 30(2), 26-29.
  19. 조완섭외(2018), 데이터베이스 시스템, 홍릉과학출판사.
  20. 조철호(2015), SPSS/AMOS 활용 구조방정식모형 논문통계분석, 서울:청람.
  21. 최선희(2014), 다중지능, 수학 기피성향, 수학학업성취도 간의 관계, 이화여자대학교 대학원 석사학위 논문.
  22. 최지선, & 상경아(2019), "초등학생 수학 성취도에 영향을 미치는 교육맥락변인에 대한 동아시아 5개국 비교," 초등수학교육, 22(3), 167-180.
  23. 최형철(2019), 결측 데이터의 결측치 대체 방법에서 효과적 투표방식 적용에 대한 연구, 한양대학교 대학원 석사학위 논문.
  24. Breiman, L.(2001), "Random forests," Machine learning, 45(1), 5-32. https://doi.org/10.1023/A:1010933404324
  25. Cupples, L. A., Bailey, J. N., Cartier, K. C., Falk, C. T., Liu, K.-Y., Ye, Y., Yu, R., Zhang, H., & Zhao, H.(2005), "Data mining," Genetic Epidemiology, 29(S1), S103-S109. https://doi.org/10.1002/gepi.20117
  26. Flach, P.(최재영 옮김) (2016), 머신러닝: 데이터 를 이해하는 알고리즘의 예술과 과학, 경기:비제이퍼블릭.
  27. Goyal, M., & Vohra, R.(2012). "Applications of data mining in higher education," International Journal of Computer Science Issues, 9(2), 113-120.
  28. Guyon, I., Weston, J., Barnhill, S., & Vapnik, V.(2002), "Gene selection for cancer classification using support vector machines," Machine learning, 46(1-3), 389-422. https://doi.org/10.1023/a:1012487302797
  29. Han, J., Kamber, M., & Pei, J.(정사범, 송용근 옮김)(2016), 데이터 마이닝: 개념과 기법, 서울:에이콘.
  30. Kuhn, M., & Johnson, K.(권정민 옮김)(2018), 실천 예측 분석 모델링, 서울: 에이콘.

Cited by

  1. 머신러닝을 활용한 서울시 중학생 진로성숙도 예측 요인 탐색 vol.5, pp.2, 2020, https://doi.org/10.36498/kbigdt.2020.5.2.155