DOI QR코드

DOI QR Code

벤처기업정밀실태조사와 한국기업혁신조사 데이터를 활용한 통계적 매칭의 타당성 검증

The Validity Test of Statistical Matching Simulation Using the Data of Korea Venture Firms and Korea Innovation Survey

  • 투고 : 2023.02.13
  • 심사 : 2023.03.04
  • 발행 : 2023.03.31

초록

최근 데이터 경제가 가속화되면서 경영학 분야에서는 데이터 매칭이라는 새로운 기법이 주목받고 있다. 데이터 매칭은 모집단이 같지만 서로 다른 표본에서 수집된 데이터셋을 합치는 기법 또는 처리 과정을 의미한다. 그중에서 통계적 매칭은 서로 다른 데이터를 결합하는데 있어서 사업자 번호와 같이 기준이 되는 변수가 없는 경우 통계적 함수를 활용하여 데이터를 매칭하는 방법이다. 선행연구 검토결과 경제학, 교육학, 보건, 의료 등 다양한 분야에서 통계적 매칭이 많이 사용되고 있는데 반해 경영학 분야는 제한적임을 확인할 수 있었다. 본 연구는 기존 경영학 분야에서 충분히 연구되지 않았던 통계적 매칭의 유용성을 검증하고 활용도를 높이는 방안을 연구하고자 한다. 연구목적을 달성하기 위해 본 연구에서는 2020 벤처기업정밀실태조사와 2020 한국기업혁신조사 자료를 활용하여 통계적 매칭 시뮬레이션을 수행하였다. 먼저, 선행연구를 바탕으로 통계적 매칭에 사용되는 변수를 선정하였다. 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수와 제공변수는 중소기업 혁신에서 가장 중요한 연구인력 비율과 R&D 비용으로 각각 설정하였다. 사전 검증을 위해 2020 벤처기업정밀실태조사 자료를 수여자 데이터 30%와 기여자 데이터 70%로 분할하였다. 통계적 매칭에는 마할라노비스 거리와 랜덤 핫덱을 결합한 방식을 사용하였고, 성능평가는 수여자 데이터와 원시 데이터의 평균값 비교와 커널 밀도 함수(Kernel Density Estimation)를 통해 데이터 분포를 비교하였다. 검증결과, 수여자 데이터 30%와 기여자 데이터 70%에서 추출된 매칭 데이터의 평균값이 통계적으로 유의한 차이가 없는 것으로 나타나 유사한 데이터가 매칭된다는 것을 확인하였다. 또한, 두 데이터의 커널 밀도 함수로 도출한 데이터 분포 역시 유사한 형태가 나타나는 것을 확인할 수 있었다. 사후 검증에는 2020 벤처기업정밀실태조사에서 임의로 30%를 수여자 데이터로 추출하고 2020 한국기업혁신조사 자료를 기여자 데이터로 설정하여 통계적 매칭을 수행하고 검증하였다. 사전 검증과 마찬가지로 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수는 연구 인력 비율과 R&D 비용으로 정의하였다. 분석 결과, 수여자 데이터의 연구인력 비율의 평균과 기여자 데이터의 평균은 예상과 다르게 통계적으로 차이가 있는 것으로 나타났다. 하지만 커널 밀도 함수에 따른 두 데이터의 분포는 유사한 형태를 보이는 것으로 조사되어 통계적 매칭의 적절성을 확인할 수 있었다. R&D 비용은 통계적 매칭 수행 결과, 수여자 데이터의 R&D 비용 평균과 기여자 데이터의 평균이 통계적으로 차이가 없었고, 커널 밀도 함수도 유사한 분포를 보이는 것으로 조사되었다. 이러한 결과는 모집단은 동일하지만 서로 다른 표본에서 수집된 자료를 통계적으로 결합하여 신뢰할 수 있는 새로운 데이터를 확보할 수 있다는 측면에서 큰 의의가 있다. 또한, 경영학 분야에서 많이 사용되지 않았던 데이터 매칭 방법론을 모의실험을 통해 타당성을 검증함으로써 연구용 데이터 확보와 연구방법론의 확장에 기여했다는 점에서 시사점을 가진다.

The change to the data economy requires a new analysis beyond ordinary research in the management field. Data matching refers to a technique or processing method that combines data sets collected from different samples with the same population. In this study, statistical matching was performed using random hotdeck and Mahalanobis distance functions using 2020 Survey of Korea Venture Firms and 2020 Korea Innovation Survey datas. Among the variables used for statistical matching simulation, the industry and the number of workers were set to be completely consistent, and region, business power, listed market, and sales were set as common variables. Simulation verification was confirmed by mean test and kernel density. As a result of the analysis, it was confirmed that statistical matching was appropriate because there was a difference in the average test, but a similar pattern was shown in the kernel density. This result attempted to expand the spectrum of the research method by experimenting with a data matching research methodology that has not been sufficiently attempted in the management field, and suggests implications in terms of data utilization and diversity.

키워드

과제정보

이 논문은 2021년 대한민국 교육부와 한국연구재단의 인문사회분야 신진연구자지원사업의 지원을 받아 수행된 연구임(NRF-2021S1A5A8061237)

참고문헌

  1. 금종예, 모영민 (2022). 교육 분야 데이터의 통계적 매칭 적용 가능성 탐색-사교육 변수를 중심으로. 교육연구논총, 43(4), 43-76. 
  2. 김경훈 (2022). 통제집단합성법 (Synthetic Control Method) 을 사용한 한국의 자본이동관리정책에 대한 효과 분석. 시장경제연구, 51(1), 29-47. 
  3. 김동성, 김종우, 이홍주, 강만수 (2017). 공공부문 데이터의 경제적 가치평가 연구: 소상공인 신용보증 데이터 사례. 지식경영연구, 18(1), 67-81.  https://doi.org/10.15813/KMR.2017.18.1.004
  4. 김성호, 조성빈 (2005). 마할라노비스 거리를 이용한 자료융합전략의 성과측정. 경영학연구, 34(6), 1853-1867. 
  5. 김희경 (2010). 가중 k-최근접이웃방법을 이용한 통계적 매칭기법에 관한 연구. 박사학위논문, 동국대학교 대학원, 서울. 
  6. 박희창, 조광현 (2006). 통계적 데이터 퓨전을 위한 SAS 매크로. Journal of the Korean Data Analysis Society, 8(5), 1927-1937. 
  7. 벤처기업정밀실태조사(공공용). (2020). doi:10.23333/P.142003.001 
  8. 변종석, 이석훈, 정구현 (2013). 가계금융, 복지조사의 무응답 처리를 위한 유용한 보조정보 선정. 조사연구, 14(1), 69-91. 
  9. 안경민 (2021). 통계적 매칭과 머신러닝 앙상블 기법을 활용한 기업혁신 및 경영성과 예측 모형 개발. 박사학위논문, 동국대학교 대학원, 서울. 
  10. 안경민, 이영찬 (2021). 앙상블 학습을 이용한 기업혁신과 경영성과 예측. 정보시스템연구, 30(4), 247-275. 
  11. 오미애 (2015). 보건복지분야 데이터 연계 필요성 및 활용방안. 보건복지포럼, 9, 17-28. 
  12. 오미애, 최현수, 김수현, 장준혁, 진재현, 천미경 (2017). 기계학습(Machine Learning) 기반 사회보장 빅데이터 분석 및 예측 모형 연구. 세종: 한국보건사회연구원, pp. 1-183. 
  13. 오미애, 최현수, 김용대, 이용희, 진재현 (2014). 보건복지통계정보 생산 및 활용 촉진을 위한 마이크로데이터 통합 연계 방안. 세종: 한국보건사회연구원, pp. 1-206. 
  14. 이규엽, 박상철, 류성열 (2020). 공공 빅데이터 플랫폼 성과평가 모형. 지식경영연구, 21(4), 243-263.  https://doi.org/10.15813/KMR.2020.21.4.013
  15. 이유진 (2021). 산업단지 입주가 기업의 생산성과 고용 증가에 미치는 영향 분석. 산업경제연구, 34(4), 897-923. 
  16. 이준원 (2019). 기술금융 중소기업과 일반 중소기업의 경영성과 비교분석-기술신용대출을 받은 기술금융 중소기업을 중심으로. 한국혁신학회지, 14(1), 279-299. 
  17. 정성석, 김순영, 김현진 (2004). 데이터 보강을 위한 데이터 통합기법에 관한 연구. 응용통계연구, 17(3), 605-617.  https://doi.org/10.5351/KJAS.2004.17.3.605
  18. 정용찬, 이원태, 정혁, 김윤화, 유선실, 정부연, 오윤석, 박민규, 권헌영, 오형나 (2017). 조사환경 변화에 대응한 ICT 통계 생산체계 혁신 방안 연구(II) 총괄보고서. 정보통신정책연구원, pp. 1-237. 
  19. 최봉, 윤종진, 엄태휘 (2019). 서울시 공공빅데이터 활성화 방안 연구. 지식경영연구, 20(3), 73-89.  https://doi.org/10.15813/KMR.2019.20.3.005
  20. Chang, S. J., & Shim, J. (2015). When does transitioning from family to professional management improve firm performance? Strategic Management Journal, 36(9), 1297-1316.  https://doi.org/10.1002/smj.2289
  21. Curtis, L. H., Hammill, B. G., Eisenstein, E. L., Kramer, J. M., & Anstrom, K. J. (2007). Using inverse probability-weighted estimators in comparative effectiveness analyses with observational databases. Medical Care, 45(10), 103-107. 
  22. D'Alberto, R., Zavalloni, M., Raggi, M., & Viaggi, D. (2018). AES impact evaluation with integrated farm data: Combining statistical matching and propensity score matching. Sustainability, 10(11), 1-24.  https://doi.org/10.3390/su10020001
  23. D'Alberto, R., & Raggi, M. (2021). How much reliable are the integrated 'live' data? A validation strategy proposal for the non-parametric micro statistical matching. Journal of Applied Statistics, 48(2), 322-348.  https://doi.org/10.1080/02664763.2020.1724272
  24. D'Orazio, M., Di Zio, M., & Scanu, M. (2006). Statistical matching: Theory and practice. John Wiley & Sons. 
  25. Eccles, R. G., Ioannou, I., & Serafeim, G. (2014). The impact of corporate sustainability on organizational processes and performance. Management Science, 60(11), 2835-2857.  https://doi.org/10.1287/mnsc.2014.1984
  26. Ferrando, A., & Mulier, K. (2015). Firms' financing constraints: Do perceptions match the actual situation? The Economic and Social Review, 46(1), 87. 
  27. Hansen, B. B., & Bowers, J. (2008). Covariate balance in simple, stratified and clustered comparative studies. Statistical Science, 23(2), 219-236. 
  28. Holsapple, C. W., & Wu, J. (2011). An elusive antecedent of superior firm performance: The knowledge management factor. Decision Support Systems, 52(1), 271-283.  https://doi.org/10.1016/j.dss.2011.08.003
  29. Ingram, D. D., O'Hare, J., Scheuren, F., & Turek, J. (2000). Statistical matching: A new validation case study. In Proceedings of the Survey Research Methods Section, American Statistical Association, 746-751. 
  30. Kwon, J., & Johnson, M. E. (2018). Meaningful healthcare security: Does meaningful-use attestation improve information security performance? MIS Quarterly, 42(4), 1043-1068. 
  31. Limna, P., Kraiwanit, T., & Siripipatthanakul, S. (2023). The growing trend of digital economy: A review article. International Journal of Computing Sciences Research, 7, 1351-1361.  https://doi.org/10.25147/ijcsr.2017.001.1.106
  32. MartMn-de Castro, G., LMpez-SMez, P., Delgado-Verde, M., Quintane, E., Casselman, R. M., Reiche, B. S., & Nylund, P. A. (2011). Innovation as a knowledge-based outcome. Journal of Knowledge Management, 15(6), 928-947.  https://doi.org/10.1108/13673271111179299
  33. Nold, H. A. (2012). Linking knowledge processes with firm performance: organizational culture. Journal of Intellectual Capital, 13(1), 16-38.  https://doi.org/10.1108/14691931211196196
  34. RMssler, S. (2004). Data fusion: identification problems, validity, and multiple imputation. Austrian Journal of Statistics, 33(1/2), 153-171. 
  35. Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.  https://doi.org/10.1093/biomet/70.1.41
  36. Singh, A. C., Mantel, H., Kinack, M., & Rowe, G. (1990). On methods of statistical matching with and without auxiliary information. Technical Report SSMD-90-016E, Methodology Branch, Statistics Canada. 
  37. Van Der Putten, P., Kok, J. N., & Gupta, A. (2002). Data fusion through statistical matching. MIT Sloan School of Management, 1-13. 
  38. Van Pelt, X. (2001). The fusion factory: A constrained data fusion approach. master's thesis. leiden institute of advanced computer science. Leiden University, The Netherlands. 
  39. Wiener, M., Saunders, C., & Marabelli, M. (2020). Big-data business models: A critical literature review and multiperspective research framework. Journal of Information Technology, 35(1), 66-91.  https://doi.org/10.1177/0268396219896811
  40. Yang, S., & Kim, J. K. (2020). Statistical data integration in survey sampling: A review. Japanese Journal of Statistics and Data Science, 3, 625-650.  https://doi.org/10.1007/s42081-020-00093-w
  41. Zheng, W., Zhou, Y., Liu, S., Tian, J., Yang, B., & Yin, L. (2022). A deep fusion matching network semantic reasoning model. Applied Sciences, 12(7), 3416.