• 제목/요약/키워드: 야구경기 데이터

검색결과 43건 처리시간 0.029초

의사결정 트리를 이용한 야구기사 작성 기법 (Generating baseball articles using decision tree)

  • 김주봉;고현영;용상혁;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2016
  • '야구경기 결과에 대해 자동으로 기사를 작성할 수 있는가'에서 본 논문에서는 야구 경기 데이터들을 기반으로 의사결정 트리기법을 사용하여 경기결과의 문맥과 기사작성에 필요한 요소들을 자동으로 추출해보았다. 그 결과 해당경기의 데이터를 가지고 객관적인 야구기사를 생산해 낼 수 있음을 도출해냈다.

데이터마이닝을 이용한 프로야구 경기 시뮬레이터에서의 투수 선정 방법에 대한 연구 (The Study of Selecting Pitcher using Data Mining on Professional Baseball Game Simulator)

  • 정지문;박혜원;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.370-374
    • /
    • 2000
  • 야구 경기에서는 한 경기에 여러 투수가 등판하게 되는데, 상황에 따라 성격이 다른 투수가 공을 던지게 된다. 이러한 등판 투수의 선정은 감독 고유의 권한이며 감독이 오랜 경험을 통해 승리하기 위해 최적의 투수를 선정하게 된다. 본 논문은 그러한 감독의 경험을 학습하기 위하여 프로야구 경기에서 발생하는 기록 데이터를 데이터마이닝을 이용하여 분석한 후, 앞으로 열릴 경기에 등판할 투수를 미리 예측할 수 있는 방안에 대하여 연구하였다.

날씨와 한화 이글스의 상관관계 (The Correlation Of Weather And Hanhwa Eagles)

  • 허태성;강하람
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.237-238
    • /
    • 2021
  • 야구는 데이터 스포츠라 불릴 만큼 경기마다 많은 데이터가 생성되며, 이를 바탕으로 경기를 진행한다. 본 연구는 한국 프로야구 구단인 한화 이글스의 승률 및 타자의 성적과 날씨 사이의 상관관계를 분석하였다. 이를 위하여 한화 이글스의 승률과 타자의 성적을 한국프로야구(KBO) 공식 홈페이지 및 야구 기록 통계사이트 스탯티즈(statiz)에서 수집하였으며, 날씨 데이터는 온도와 습도를 고려한 불쾌지수 데이터를 기상청으로 부터 수집하였다. 파이선의 pandas 라이브러리를 사용하여 데이터 전처리를 실행하였다. 이후 파이선의 matplotlib 라이브러리를 이용하여 데이터 분석 및 시각화를 진행하였다. 본 연구의 분석 결과로는 불쾌지수가 보통일 때 승률이 가장 크고 높음일 때 가장 낮음을 확인할 수 있었다. 또한, 타자들의 평균 성적을 분석한 결과 보통과 매우 높음은 전체적인 타격 지수가 비슷하나 높음일 때 부진한 것으로 나왔다.

  • PDF

순환신경망을 활용한 야구승부예측 (A Prediction of Baseball Game Results Using Recurrent Neural Netowrks)

  • 정경석;김진학;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.873-876
    • /
    • 2017
  • 최근 딥러닝(Deep-learning)을 활용한 기상 예측, 심리 예측, 교통상황 예측 등 다양한 분야에 걸쳐 여러 모델의 인공신경망이 활용되고 있다. 본 논문에서는 여러 분야 중 스포츠라는 분야에 접근했으며, 딥러닝 모델을 통해 승부를 예측하는 실험을 진행하였다. 야구의 승부는 선수의 능력치, 기상의 변화, 험/어웨이 여부, 교체 여부 등 가늠할 수 없이 수많은 데이터들에 의존하고 있다. 그러나 본 논문에서는 이러한 수많은 데이터 중 경기 외적인 데이터를 제외한 데이터를 활용하여 그 다음 경기의 승부를 예측할 수 있을 지를 연구한다. 날짜 별 경기들이 훈련데이터가 되고 목표는 이전 경기들의 영향으로 예측된 다음 경기의 승/패를 예측한다. 즉 순차적인 데이터의 활용에 적합한 모델, Recurrent Neural-Network을 이용하였다. 이를 위하여 KBreport에서 데이터를 수집하였고, 수집된 데이터를 훈련 데이터 세트로 만들어 Recurrent Neural Network를 통해 훈련시켜 다음 경기의 승패를 예측하였다.

마르코프 연쇄를 이용한 한국 프로야구 경기 분석 (Analysis of the Korean Baseball League using a Markov Chain Model)

  • 문형우;우용태;신양우
    • 응용통계연구
    • /
    • 제26권4호
    • /
    • pp.649-659
    • /
    • 2013
  • 본 논문에서는 마르코프 연쇄로 모형을 이용하여 한국프로야구의 경기결과를 예측하고 분석하였다. 타자의 타격결과와 주자상태를 나타내는 확률과정을 구체적으로 정의하여 경기진행 상황을 동적으로 반영한 프로야구 경기를 마르코프 연쇄를 구성하여 실제 데이터를 바탕으로 주자 상태를 고려한 진루행렬과 각 선수별 타격 확률을 구하여 경기당 득점 분포와 타석에 서는 타자 수의 분포를 구하였다.

랜덤 포레스트 기법을 이용한 한국 프로야구 승부 예측에 관한 연구 (A Study on Result Prediction of Korean professional baseball using Random Forest Method)

  • 이재익;이종혁;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.721-722
    • /
    • 2014
  • 야구는 흔히 기록의 스포츠라는 별명으로 많이 불린다. 그만큼 야구라는 운동이 갖는 기록의 종류는 무척 다양하고 또한 기록의 활용 가능성 역시 무궁무진하다. 이러한 별명에 걸맞게 미국에서는 야구에 대한 다양하고 방대한 정보를 수집하고 활용하고 있다. 그러나 한국 프로야구에 대한 정보의 수집과 활용은 아직까지 크게 부각되지 못하는 것이 현실이다. 랜덤 포레스트 기법을 이용하여 경기의 승부를 예측함으로써 한국 프로야구 데이터의 수집과 활용을 증대 시키는 효과를 기대 해 본다. 본 논문에서는 2014년 한국 프로야구의 승부 예측을 주제로 어떠한 누적 스포츠 데이터집단이 가장 유효한지를 실험 하였다. 승부 예측을 하기위해 사용된 누적 스포츠 데이터는 2014년 선수와 팀 기록, 2013부터 2014년까지의 선수와 팀 기록, 2012년부터 2014년까지의 선수와 팀 기록이다. 이들 세 그룹의 데이터를 이용하여 이분데이터 모형에 랜덤 포레스트 기법을 사용한 승부예측 알고리즘에 적용 시킨 후 어느 그룹의 데이터가 가장 실제 2014 한국 프로야구 정기결과와 맞을 확률이 높음을 구하여 가장 유용한 데이터 그룹이 어떤 그룹인지 연구 하였다.

BERT MRC를 활용한 한국 프로야구 Q&A 시스템 (Korean Baseball League Q&A System Using BERT MRC)

  • 서정우;김창민;김효진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.459-461
    • /
    • 2020
  • 매일 게시되는 다양한 프로야구 관련 기사에는 경기 결과, 각종 기록, 선수의 부상 등 다양한 정보가 뒤섞여있어, 사용자가 원하는 정보를 찾아내는 과정이 매우 번거롭다. 본 논문에서는 문서 검색과 기계 독해를 이용하여 야구 분야에 대한 Q&A 시스템을 제안한다. 기사를 형태소 분석하고 BM25 알고리즘으로 얻은 문서 가중치로 사용자 질의에 적합한 기사들을 선정하고 KorQuAD 1.0과 직접 구축한 프로야구 질의응답 데이터셋을 이용해 학습시킨 BERT 모델 기반 기계 독해로 답변 추출을 진행한다. 야구 특화 데이터 셋을 추가하여 학습시켰을 때 F1 score, EM 모두 15% 내외의 정확도 향상을 보였다.

  • PDF

빅데이터를 활용한 타자의 장타력과 일일 평균 기온 간의 상관관계 분석 (Big Data Analysis of the Correlation between Average Daily Temperature and Batting Power)

  • 김세민;신좌철
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.225-230
    • /
    • 2020
  • KBO리그는 경기수가 많아서 오랜 기간에 걸쳐서 진행되고 있다. 또한 우리나라는 다양하고 뚜렷한 기후를 가지고 있다. 이에 본 연구에서는 야구기록 중 홈런, 3루타, 2루타, 루타수, 장타율, 순장타율 등 장타력에 관한 기록과 일일 평균 기온과의 상관 관계를 분석하고 야구 기록 중 3차 기록을 정의하였다. 본 연구를 위하여 일일 평균 기온 데이터와 2019년 KBO 리그에서 규정타석에 진입한 타자를 대상으로 SEMMA 기법을 통하여 상관관계를 분석하였다. 본 연구 결과를 통하여 일일 평균 기온이 타자들의 장타력에 영향을 주었다는 것을 알 수 있었다. 특히 20.0도에서 24.9도 사이를 기록한 날에 타자들의 장타력이 낮아졌다는 것을 알 수 있었으며, 타자가 상대하는 투수의 몸 상태와 관련있다고 논의하였다. 이에 경기 외적인 조건을 통하여 야구 경기에서 선수, 코칭스태프, 프런트가 경기에 활용할 수 있음을 기대할 수 있다. 또한 차후 타격 기록 뿐만 아니라 투구, 주루, 수비 등의 기록을 함께 분석하면 더욱 유용한 분석 모델이 될 수 있을 것으로 기대한다.

야구 피타고라스 승률의 수렴특성 (Convergence characteristics of Pythagorean winning percentage in baseball)

  • 이장택
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권6호
    • /
    • pp.1477-1485
    • /
    • 2016
  • 본 연구에서는 한국프로야구에서 팀의 득점과 실점을 가지고 시즌 승률을 예측하는 야구의 피타고라스 정리에 의한 기대승률의 수렴특성을 살펴보았다. 사용한 자료는 2005년부터 2014년까지의 한국프로야구 정규시즌 초부터 정규시즌 말까지의 팀대 팀 전체기록이며, 그 결과 야구 팀의 특징 중에서 팀의 순위와 경기진행률이 수렴특성에 영향을 주는 것으로 나타났다. 팀의 순위는 하위 팀들의 기대승률이 최종 기대승률에 빨리 수렴하였으며, 경기진행률은 20% 이하에는 최종 기대승률과 많은 차이를 보였으나 70% 이상부터는 통계적으로 최종 기대승률과 유의한 차이가 발생하지 않았다.

야구기록 활용에 기반한 '한국야구명예의전당' 운영 방안 연구 (A Study on the Excellent Operation of the "Korea Baseball Hall of Fame" Based on Baseball Records)

  • 최태석;임진희
    • 한국기록관리학회지
    • /
    • 제16권3호
    • /
    • pp.157-177
    • /
    • 2016
  • 본 연구는 야구기록 활용에 기반하여 '한국야구명예의전당'을 운영하기 위한 효과적인 방향성을 제시하는 것이 목적이다. 이를 위해 문헌 조사에 의한 미국과 일본 명예의 전당 사례 분석과 한국 야구기록의 종류와 관리현황, 현업에서 종사 중인 야구 관계자들의 면담을 통해 문제점을 도출하였다. 종합 방안으로서 '한국야구명예의전당'에서 수집, 관리, 활용해야 할 관련 아카이브 컬렉션 구성과 야구 영웅의 기억을 보존하기 위한 구술 확보의 필요성, 야구 경기기록의 DB화와 데이터 구축 등을 제시하였다.