• 제목/요약/키워드: 지능 시스템

검색결과 12,345건 처리시간 0.033초

분류 알고리즘 기반 주문 불균형 정보의 단기 주가 예측 성과 (Classification Algorithm-based Prediction Performance of Order Imbalance Information on Short-Term Stock Price)

  • 김선웅
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.157-177
    • /
    • 2022
  • 투자자들은 증권회사가 제공하는 시세표인 Limit Order Book 정보를 통해 국내외 투자자들이 제출하는 주문 정보를 실시간으로 파악하면서 거래에 참여하고 있다. Limit Order Book에 실시간으로 공개되고 있는 주문 정보가 주가 예측에서 유용성이 있을까? 본 연구는 장 중 투자자들의 매수와 매도 주문이 어느 한쪽으로 쏠리면서 주문 불균형이 나타나는 경우 미래 주가 등락의 예측 변수로서 유의성이 있는지를 분석하는 것이다. 분류 알고리즘을 이용하여 주문 불균형 정보의 당일 종가 등락에 대한 예측 정확도를 높이고, 예측 결과를 이용한 데이트레이딩 전략을 제안하며 실증분석을 통해 투자 성과를 분석한다. 자료는 2004년 1월 19일부터 2022년 6월 30일까지의 4,564일 동안의 코스피200 주가지수선물 5 분 봉 주가를 분석하였다. 실증분석 결과는 다음과 같다. 첫째, 총매수 주문량과 총매도 주문량의 불균형 정도로 측정하는 주문 불균형지수와 주가는 유의적 상관성을 보인다. 둘째, 주문 불균형 정보는 당일 종가까지의 미래 주가 등락에 대해서도 유의적인 영향력이 나타났다. 셋째, 주문 불균형 정보를 이용한 당일 종가 등락의 예측 정확도는 Support Vector Machines 알고리즘이 54.1%로 가장 높게 나타났다. 넷째, 하루 중 이른 시점에서 측정한 주문 불균형지수가 늦은 시점에서 측정한 주문 불균형지수보다 예측 정확성이 더 높았다. 다섯째, 종가 등락 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 비교모형의 투자 성과보다 높게 나타났다. 여섯째, 분류 알고리즘을 이용한 투자 성과는 K-Nearest Neighbor 알고리즘을 제외하면 모두 비교모형보다 총수익 평균이 높게 나타났다. 일곱째, Logistic Regression, Random Forest, Support Vector Machines, XGBoost 알고리즘의 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 수익성과 위험성을 동시에 평가하는 샤프비율에서도 비교모형보다 높은 결과를 보여주었다. 본 연구는 Limit Order Book 정보 중 총매수 주문량과 총매도 주문량 정보의 경제적 가치가 존재함을 밝혔다는 점에서 기존의 연구와 학술적 차별점을 갖는다. 본 연구의 실증분석 결과는 시장 참여자들에게 투자 전략적 측면에서 함의가 있다고 판단된다. 향후 연구에서는 최근 활발히 연구가 진행되고 있는 딥러닝 모형 등으로의 확장을 통해 주가 예측의 정확도를 높임으로써 데이트레이딩 투자전략의 성과를 개선할 필요가 있다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.

프로세스 마이닝을 이용한 군수품 계약업무 분석 : 공군 군수사 계약업무를 중심으로 (Analysis of Munitions Contract Work Using Process Mining)

  • 주용선;김수환
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.41-59
    • /
    • 2022
  • 군수물자의 적기 조달은 군의 작전능력 유지를 위해서 필수적이며, 계약업무는 적기 조달을 위한 첫 단추라고 할 수 있다. 또한 신속한 계약체결은 수요자의 여유로운 납기설정을 가능케 하며, 예산 집행의 가능성을 높여주기 때문에 예산의 조기집행과 이·불용 방지를 위해서도 계약 프로세스 개선이 필수적이다. 최근 빅데이터를 이용한 연구가 여러 분야에서 활발히 진행되고 있으며, 빅데이터를 이용한 프로세스 분석 및 개선 기법인 프로세스 마이닝 역시 민간에서 널리 활용되고 있다. 하지만 군 내 계약업무에 대한 분석은 업무 담당자의 경험과 단편적인 정보를 활용한 이·불용 문제사례별 원인 파악 및 대응적 모색과 같은 개별적 분석수준에 그치고 있다. 본 연구는 계약 프로세스 개선을 위해 공군 군수사령부 재정처가 2019년 11월부터 약 1년간 직접 계약한 총 560건의 계약업무에 관한 데이터를 가지고 프로세스 마이닝 기법을 이용하여 분석하였다. 분산된 데이터를 종합하여 프로세스 맵을 도출하고, 프로세스의 흐름, 수행시간 분석, 병목 분석 및 추가 세부분석을 실시했다. 분석결과 다수 계약 건에서 의뢰 후 재검토/수정이 반복 발생하고 있음을 발견할 수 있었다. 반복적인 재검토/수정은 원가계산 완료까지의 소요일수 지연에 크게 영향을 미치고 있으며, 이는 병목 지점 시각화를 통해서도 명확하게 드러났다. 재검토/수정은 계약의뢰가 많은 상위 5개 부서에서 60% 이상 발생하고, 의뢰가 집중되는 상반기에 주로 발생하는데 이는 소요부서의 계약의뢰 전 면밀한 사전검토가 필요함을 의미한다. 그리고 재정처의 계약업무는 법령에 따른 절차대로 수행되고 있었으나, 일부 업무의 순서조정이 필요함을 알 수 있었다. 본 연구는 군 내 계약업무 분석에 프로세스 마이닝을 이용한 첫 사례이다. 이를 기반으로 프로세스 마이닝을 군대 내 다양한 업무에 적용하기 위한 연구가 더욱 수행된다면, 각종 업무의 효율화를 이끌어 낼 수 있을 것으로 기대한다.

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.

ESG 평가방법 비교: K-ESG 가이드라인을 중심으로 (Comparison of ESG Evaluation Methods: Focusing on the K-ESG Guideline)

  • 조찬희;이형용
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.1-25
    • /
    • 2023
  • ESG 경영은 시대의 필수가 되어 가고 있지만, ESG 평가지표가 전세계적으로 600여개나 되어서 개별 회사에 대해 평가기관에 따라 서로 다른 ESG 등급이 부여되어 시장의 혼란을 초래하였다. 또한 ESG 적용 방법이 공개되지 않아서 ESG 경영을 도입하려는 회사가 도움을 받을 수 있는 방법이 많지 않았다. 이에 산업통상자원부는 부처 합동으로 K-ESG 가이드라인을 발표하였다. 기존 연구들 중에 ESG 평가회사별 평가등급 비교나 평가 진단항목의 적용에 대한 연구가 거의 없었다. 이에 본 연구에서는 K-ESG 가이드라인을 통해 이미 ESG 등급을 보유한 회사에 적용하여 K-ESG 가이드라인의 적용 용이성과 개선점을 도출하고자 하였다. 글로벌 ESG 평가기관, 국내 ESG 평가기관의 ESG 등급을 보유한 기업에 대해 K-ESG 가이드라인을 통해 산출한 점수를 비교하여 K-ESG 가이드라인의 위치도 확인하고자 한다. 분석 결과로서 첫째, K-ESG 가이드라인은 개별 회사가 ESG 목표 설정과 ESG 실천의 방향을 자체적으로 설정하는데 명확하고 자세한 기준을 제공해주고 있다. 둘째, K-ESG 가이드라인은 글로벌 대표 ESG 평가기관 및 국내의 KCGS의 평가지표를 포괄하는 61개의 진단항목과 12개의 추가 진단항목을 갖추고 있어서 국내외 ESG 평가기준에 적합하다. 셋째, K-ESG 가이드라인의 ESG 평가등급은 글로벌 ESG 평가기관 중 Refinitiv보다 낮았고 MSCI보다 높았으며 국내 ESG 평가기관인 KCGS의 등급보다 낮거나 유사한 결과가 나왔다. 넷째, K-ESG 가이드라인의 적용 용이성은 높은 것으로 판단된다. 다섯째, K-ESG 가이드라인의 개선되어야 할 점으로서 정부가 K-ESG 환경 영역의 진단항목에 대한 산업평균 통계치를 집계하여 정부의 ESG 전용 사이트에 발표할 필요가 있다. 또한 산업별 E, S 그리고 G의 적용 가중치도 확정하여 공시를 할 필요가 있다. 이 연구는 ESG 경영에 관심이 있는 ESG 평가기관, 기업의 경영진 그리고 ESG 담당자 등에게 ESG 경영전략 수립과 세부이행에 있어 도움이 될 것이며, K-ESG 가이드라인의 추후 개정 시 참고할 제언도 제공한다.

철도 유휴부지 활용방안: 군집분석을 활용한 태양광발전 입지 제안 (Utilizing the Idle Railway Sites: A Proposal for the Location of Solar Power Plants Using Cluster Analysis)

  • 강은경;양선욱;권지윤;양성병
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.79-105
    • /
    • 2023
  • 지구온난화와 기후변화 등의 유례없는 기상이변으로 전 세계 곳곳이 극심한 몸살을 앓고 있으며, 경제적 손실 또한 눈덩이처럼 불어나고 있다. 이러한 문제를 해결하기 위해 2016년 '파리기후변화협정(The Paris Agreement)'이 체결되어 지구의 평균온도 상승을 1.5℃ 아래로 유지하기 위한 정부간 협의체가 결성되었으며, 우리나라도 2050년 탄소중립을 선언함으로써 기후재앙을 막기 위한 노력을 진행하고 있다. 특히, 온실가스 배출로 인한 기온상승은 수출 의존도가 높은 우리나라 경제는 물론 환경과 사회 전반에 부정적인 영향을 미칠 것으로 예상된다. 또한, 교통수단의 다변화가 가속화되면서 수단선택의 변화도 크게 증가하고 있는 가운데 저성장 시대의 개발 패러다임이 도시재생으로 변화함에 따라, 노선의 수요 감소, 선형 개량, 도심 철도의 외곽 이설 등에 영향을 받아 증가하고 있는 철도 유휴부지 활용에 대한 관심이 높아지고 있다. 한편, 철도 유휴부지를 활용한 태양광발전은 '재생에너지 3020'의 태양광발전 목표를 일부 달성하면서도, 입지를 둘러싼 환경훼손과 주민 수용성 문제에서 자유로워질 수 있는 장점에도 불구하고, 설비실태나 설비계획에 있어 미진한 상황이다. 이에, 본 연구에서는 국가철도공단과 재생에너지클라우드플랫폼에서 제공하는 데이터를 활용하여 태양광발전 설비 설치가 가능한 적합 유휴지를 발굴 및 분석하는 알고리즘을 개발하고, 사용자가 원하는 조건을 고려한 잠재적인 적합 지역을 탐색 및 도출함으로써, 개발 초기 설비나 확충 등에 소요되는 막대한 비용을 절약할 수 있는 방안을 마련하고자 하였다. 본 연구는 다양한 군집분석을 활용하여 철도 유휴부지에 태양광발전 설치입지를 도출할 수 있는 최적의 알고리즘을 개발하고, 면적, 설치용량, 발전량, 예상수익 등이 모두 높은 '태양광발전 설치 적극권장 지역' 202곳을 도출하였다. 이를 바탕으로 경제와 환경을 동시에 고려한 관점에서 의사결정자의 합리적인 판단을 도울 수 있을 것으로 기대한다.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

전자결제서비스 이용 사업자 폐업 예측에서 비재무정보 활용을 통한 머신러닝 모델의 정확도 향상에 관한 연구 (A study on improving the accuracy of machine learning models through the use of non-financial information in predicting the Closure of operator using electronic payment service)

  • 공현정;황유진;박성혁
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.361-381
    • /
    • 2023
  • 기업 부도 예측에 관한 연구는 재무정보를 중심으로 연구되어 왔다. 기업의 재무정보는 분기별로 갱신되기 때문에 실시간으로 기업의 폐업 가능성을 예측하는 데 있어 적시성이 부족하게 되는 문제가 발생한다. 이를 개선하고자 하는 평가 기업에서는 대상 기업의 건전성을 판단하기 위한 재무정보 외의 정보를 활용한 기업의 건전성을 판단하는 방법이 필요하다. 이를 위해 정보 기술의 발달로 기업에 대한 비재무정보 수집이 용이해지면서 기업 부도 예측에 재무정보 외의 추가적인 변수와 여러 가지 방법론을 적용하는 연구가 진행되어 왔으며, 이 중에서도 어떤 변수들이 기업의 부도를 예측하는데 영향을 주는지를 밝히는 것이 중요한 연구 과제가 되었다. 본 연구에서는 전자결제서비스를 이용하는 사업자의 폐업을 예측할 때 비재무정보를 구성하는 전자결제 정보들이 얼마나 영향을 미치는지를 살펴보았으며, 재무정보와 비재무정보 결합에 따른 폐업 예측 정확도 차이를 살펴보았다. 구체적으로, 재무정보 모형과 비재무정보 모형, 그리고 이를 결합한 모형으로 구성된 세 가지 연구 모형을 설계하였으며 Multi Layer Perceptron(MLP) 알고리즘을 포함한 여섯 가지 알고리즘으로 폐업 예측 정확도를 확인하였다. 재무정보와 비재무정보를 결합한 모형이 가장 높은 예측 정확도를 보였으며, 그 다음으로는 비재무정보 모형, 재무정보 모형의 순서로 예측 정확도가 확인되었다. 알고리즘별 폐업 예측 정확도는 여섯 가지의 알고리즘 중 XGBoost가 가장 높은 예측 정확도를 보였다. 사업자의 폐업 예측에 활용된 전체 87개의 변수를 대상으로 상대적 중요도를 살펴본 결과 폐업 예측에 중요하게 영향을 미친 변수는 상위 20개 중 70% 이상이 비재무정보인 것으로 확인되었다. 이를 통해 비재무정보의 전자결제 정보가 사업자의 폐업을 예측하는 중요한 변수임을 확인하였으며, 비재무 정보가 재무정보의 대안적 정보로서 활용할 수 있는 가능성 역시 살펴볼 수 있었다. 본 연구를 기반으로 사업자의 폐업을 예측할 수 있는 정보로서 비재무정보의 수집과 활용에 대한 중요성을 인식하고 기업의 의사결정에 활용할 수 있는 방안에 대해서도 다루었다.

산업별 지속가능경영 전략 고찰: ESG 보고서와 뉴스 기사를 중심으로 (A Study on Industry-specific Sustainability Strategy: Analyzing ESG Reports and News Articles)

  • 김원희;권영옥
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.287-316
    • /
    • 2023
  • 최근 전 세계적으로 기업의 환경(Environmental)·사회(Social)·지배구조(Governance)의 비재무적 요소를 고려한 지속가능경영이 필수적으로 요구되면서, 각 기업들은 이에 대응할 수 있는 전략적 방향 수립이 중요해지고 있다. 특히 기업이 속한 산업별로 상이한 ESG 이슈에 대한 이해를 바탕으로 산업과 개별 기업의 특성을 반영한 전략을 개발하고 추진할 수 있어야 할 것이다. 이에 본 연구에서는 금융, 제조, IT 분야별로 나누어 주요 국내 기업들의 ESG 보고서와 관련 뉴스 기사를 이용하여 산업별 ESG 동향과 활동을 비교 분석하였다. 키워드 빈도분석과 토픽 모델링을 활용한 분석 결과, 국내 ESG 선도 기업들의 지속가능경영 활동에서의 산업별 차이를 도출 할 수 있다. 금융 분야에서는 '고객 중심 경영'과 '기후 변화 대응', 제조 분야에서는 '지속가능한 공급망 관리'와 '탄소중립', IT 분야에서는 '기술혁신'과 '디지털 책임'이 강조되었다. ESG 요소별 우선 순위가 높은 활동의 예를 들면, 환경 측면에서는 '에너지 절감과 친환경 활동', 사회 측면에서는 '사회공헌과 상생', 지배구조 측면에서는 '이사회 독립성 강화와 리스크 관리' 등으로 나타났다. 더 나아가 산업별 각 ESG 요소의 핵심 이슈 뿐 아니라 ESG 보고서와 뉴스 기사의 내용 유사성 및 차별점도 확인하였다. 연구의 결과는 산업별 동향을 고려한 ESG 경영 전략 및 정책의 방향성을 제시하고 있으며 이는 산업별 ESG 평가체계 수립에도 도움이 될 것으로 기대한다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.