Abstract
In this paper, we propose a procedure for identifying sports game highlights using online live comments. Highlights in sports games can be defined as important events that capture the viewers' attention, often involving scoring. Internet portals and many other platforms may edit game videos and provide highlight scenes. Since reviewing each game and identifying highlights manually can be labor-intensive and time-consuming, statistical learning procedures are beneficial for the automatic identification of highlights. In this paper, we extract words from preprocessed live comments, and divide videos into one-minute intervals to create a document-term matrix summarizing the frequency of word occurrences at each timestamp. Next, employing the log-odds ratios as weights, the weighted sum of the term frequencies at each timestamp is calculated to generate an event score. Then, the nonparametric kernel regression model is applied to event scores to estimate the underlying trend of event scores. The residual for each timestamp is obtained as the difference between underlying trend and the actual event score. Finally, we predict events as those instances whose residuals are widely deviated from the estimated trend levels. Applying this approach to real soccer games, we could predict actual highlights more accurately compared to simply using comment frequencies.
이 논문에서는 스포츠 경기의 댓글을 이용하여 경기 중 하이라이트에 해당되는 사건이 발생한 시점을 식별하는 절차를 제안한다. 스포츠 경기의 하이라이트는 각 경기 중 득점 등 시청자들의 관심을 집중시키는 중요한 장면으로 정의할 수 있다. 인터넷 포털 등에서는 이용자들을 위해 하이라이트에 해당되는 이벤트가 발생하는 장면들만 편집하여 제공하기도 한다. 경기를 일일이 검토하여 하이라이트 장면을 식별하기 위해서는 많은 노력과 번거로움이 수반될 수 있으므로 통계적인 학습을 통해 하이라이트를 자동 식별하는 절차가 유용하게 활용될 수 있다. 이 논문에서는 스포츠 경기 중 축구 경기의 득점 장면을 식별하는 것을 목표로 하였다. 먼저 댓글을 전처리하여 단어들을 추출하고 동영상을 1분 단위로 나누어 각 시점별로 단어의 출현빈도를 정리한 문서-단어행렬을 작성하였다. 다음으로 이 문서-단어행렬을 이용하여 이벤트와 단어 사이의 연관성을 오즈비로 나타내고, 로그-오즈비를 가중치로 하여 각 시점별로 출현한 단어들의 가중합을 구하여 이벤트 스코어를 작성하였다. 생성된 이벤트 스코어에 커널회귀모형을 적용하여 이벤트 스코어의 기조적인 추세와 이 추세로부터 실제 이벤트 스코어가 얼마나 차이가 나는지를 측정하여 잔차를 구하고 이 잔차가 큰 값들을 이벤트로 정의하였다. 이러한 방식을 실제 축구 경기에 적용한 결과, 단순히 댓글의 빈도수를 사용하거나 "골"과 같은 특정 단어의 출현빈도를 이용할 때보다 정확하게 실제 이벤트 상황을 식별할 수 있음을 확인할 수 있었다.