DOI QR코드

DOI QR Code

정교한 데이터 분류를 위한 방법론의 고찰

A Review of the Methodology for Sophisticated Data Classification

  • 투고 : 2021.03.09
  • 심사 : 2021.03.17
  • 발행 : 2021.03.31

초록

전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

키워드

참고문헌

  1. T. M. Mitchell, "The discipline of machine learniing(Vol. 9)", Carnegie Mellon University, Shcool of Computer Science, MachineLearning Department, 2006.
  2. 김영진, 류정우, 송원문, 김명원, "의사결정트리를 이용한 날씨에 따른 화재발생 확률 예측모델", 정보과학회논문지: 소프트웨어 및 응용", 제 40권 11 호, 2013.11.
  3. 엄남경, 우성희, 이상호, "SVM과 의사결정트릴를 이용한 혼합형 침입탐지 모델", 한국정보터리학회논문지, 제 14권 제 1호, pp. 1-6,2007.
  4. 최종후, 서두성, "데이터마이닝 의사결정나무의 응요", 통계청:통계분석연구", 제 4권 1호, pp. 61-83, 1999.
  5. 이극노, 이홍철, "이동통신고객 분류를 위한 의사결정트리(C4.5)와 신경망 결함 알고리즘에 관한 연구", 한국지능정보시스템학회논문지, 제 9권, 제1호, pp. 139-155, 2003.06
  6. 이동훈, 오성희, "랜덤 포레스트를 이용한 머리 방향 인식", 정보과학회논문지, 제 40권, 제 8호, 2013.8.
  7. 이준헌, 백준걸, "랜덤포레스트(Random Forest) 기반 다 범주 분류기를 이용한 실시간 대조관리도", 대한산업공학회 추계학술대회 논문집, pp. 673-682, 2017.11
  8. 김판준, "An Analytical Studyon Automatic Classfication fo Domestic Journal articles Using Random Forest", 정보관리학회논문지, Vol. 36. No. 2, 통권 112호, pp. 57-77, 2019.
  9. Taegyun. & Yi, Gwan-Su, "Application of Random Forest algorithm for the decision support system of medical diagnosis with the selection of significant clinical test", The Transaction of the Korean Institute of Electrical Engineers, 57(6), pp. 1058-1062, 2008.
  10. Chen Huang, et al., "Head pose estimation based on random forests for multiclass classification," Proc. of the IEEE International Conference on Pattern Recognition, 2010.
  11. J. W. Hwa, C. Y. Park, "Variable Selection in Linear Discriminant Analysis", Journal of The Korean Data Analysis Society(JKDAS), Vol.11, No.1, pp. 381-389, 2009.
  12. Y. H. Oh, H. Kim, J. S. Yun, J. S. Lee, "Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games", Journal of the Korean Institute of Industrial Engineers(KIIE), Vol.40, No.1, pp. 8-17, 2014(2). https://doi.org/10.7232/JKIIE.2014.40.1.008
  13. J. K. Lee, J. S. Kim, "Study on the Deacidification of Wine Made from Campbell Early", Korean Journal of Food Science and Technology, Korean Society of Food Science and Technology, Vol.38, No.3, pp. 408-413, 2006(6).