• 제목/요약/키워드: predicting movie success

검색결과 11건 처리시간 0.029초

정보 소득율 기반의 변수 선택을 통한 영화 관객 수 예측 (Predicting the Number of Movie Audiences Through Variable Selection Based on Information Gain Measure)

  • 박현목;최상현
    • Journal of Information Technology Applications and Management
    • /
    • 제26권3호
    • /
    • pp.19-27
    • /
    • 2019
  • In this study, we propose a methodology for predicting the movie audience based on movie information that can be easily acquired before opening and effectively distinguishing qualitative variables. In addition, we constructed a model to estimate the number of movie audiences at the time of data acquisition through the configured variables. Another purpose of this study is to provide a criterion for categorizing success of movies with qualitative characteristics. As an evaluation criterion, we used information gain ratio which is the node selection criterion of C4.5 algorithm. Through the procedure we have selected 416 movie data features. As a result of the multiple linear regression model, the performance of the regression model using the variables selection method based on the information gain ratio was excellent.

트위터를 이용한 기계학습 기반의 영화흥행 예측 (Predicting Movie Success based on Machine Learning Using Twitter)

  • 임준엽;황병연
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.263-270
    • /
    • 2014
  • 본 논문에서는 영화의 흥행을 예측하기 위한 방법을 제안한다. 최근 영화시장이 성장함에 따라 시장의 수요를 예측하기 위한 다양한 연구들이 수행되고 있다. 영화는 비교적 수명주기가 짧은 문화상품이다. 따라서 안정적인 수익을 창출하기 위해 개봉 전 마케팅비용 및 개봉 후 스크린 수 등에 대한 설계가 필요하다. 이를 위해서는 상품의 수요와 경제적인 수익규모에 대한 계산이 선행되어야 한다. 기존 관련 연구들의 경우 예측을 위한 변수로서 주로 영화 자체의 속성들이나 시장에서의 경쟁요인 등을 이용한다. 그러나 정작 상품을 구매하는 주체인 잠재관객들에 대한 비중은 비교적 미비하다. 따라서 본 논문에서는 사람들이 가진 영화에 대한 인지도를 고려하기 위해 트위터를 하나의 설문표본으로서 활용했다. 기존에 사용된 변수들과 트위터에서 추출한 정보를 오프라인 요소와 온라인 요소로 정의하고, 두 요소를 취합하여 기계학습을 적용했다. 실험을 통해 본 논문에서 제시하는 예측기법을 검증했으며, 실험결과 약 95%의 정확도로 영화의 흥행을 예측했다.

영화 흥행 결정 요인과 흥행 성과 예측 연구 (A Study for the Development of Motion Picture Box-office Prediction Model)

  • 김연형;홍정한
    • Communications for Statistical Applications and Methods
    • /
    • 제18권6호
    • /
    • pp.859-869
    • /
    • 2011
  • 영화의 흥행 결정 요인에 대한 학문적 연구와 함께 상업적 시각에서 개별 영화의 흥행 예측에 대한 관심이 증대되고 있다. 본 연구는 2010년 한국에서 개봉된 영화를 대상으로 영화 흥행에 영향을 미치는 요인들과 영화 흥행 성과간의 관계를 분석하였다. 제작 전 투자 의사결정단계에서 영화 장르, 관람등급, 감독, 배우가 통계적으로 유의한 결과를 보였으며, 배급편성의 의사결정단계에서는 배우효과, 스크린수, 배급사파워, 소셜미디어가 통계적으로 유의한 결과를 나타내고 있다. 선택확률개념을 이용한 다항로짓모형을 통해 영화 흥행작의 성과에 영향을 미치는 요인을 검증하였으며, 인공신경망, 판별분석과 비교하여 다항로짓모형의 흥행영화 예측력을 입증하였다.

다중회귀 분석을 이용한 영화 흥행 예측 (Predicting Financial Success of a Movie Using Multiple Regression Analysis)

  • 정회윤;양형정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.275-278
    • /
    • 2013
  • 영화의 흥행 요소를 파악하여 영화의 흥행 여부를 예측하는 것은 영화의 수익성 부분에서 아주 중요하다. 영화 시장이 과거와는 다르게 증가함에 따라, 다양한 영화 흥행에 관한 예측 연구들이 개발되었다. 본 논문에서는 영화 흥행 요소들을 수집하고 다중회귀 분석을 통해서 유의수준을 만족하는 흥행 요소들을 선택한다. 그 후, 이러한 요소들을 예측 방법들의 입력값으로 사용하여 영화 흥행을 예측한다. 성능을 비교하기 위해 본 논문에서 제안한 방법과 현재 개발된 영화 흥행 예측 방법(다중회귀, 의사결정트리, 인공신경망)들을 정확도와 평균제곱근오차를 통해 예측 모형의 성능을 비교한다. 그 결과, 다중 회귀 분석을 통해 유의한 흥행요소들만을 고려한 예측 방법의 정확도가 모든 흥행 요소들을 고려한 예측 방법보다 평균 8.2% 향상되었고, 현재까지 개발된 영화 흥행 예측 방법보다 더 높은 예측 성능을 보여준다.

  • PDF

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

영화 흥행 실적 예측을 위한 빅데이터 전처리 (Big Data Preprocessing for Predicting Box Office Success)

  • 전희국;현근수;임경빈;이우현;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.615-622
    • /
    • 2014
  • 국제적 수준으로 성장한 한국의 영화 시장 환경은 더욱 타당한 자료 분석에 근거한 의사 결정 수단을 필요로 하게 되었다. 또한 발전된 정보 환경으로 인해 실시간으로 생성되는 대규모 데이터를 신속히 처리하고 분석하여 보다 정밀한 결과를 예측할 수 있어야 한다. 특히 전처리 작업은 정보 분석 과정 중 가장 많은 시간이 소요 되므로 대규모 데이터 기반 분석 환경에서도 합리적인 시간 내에 처리할 수 있어야 한다. 본 논문에서는 영화 흥행 예측을 위한 대용량 데이터 전처리 방법을 연구하였다. 영화 흥행 데이터의 특성을 분석해 전처리의 각 유형별 처리 방법을 설정했으며 하둡 기반 맵리듀스 프레임워크를 사용하는 방법을 사용하였다. 실험 결과 빅데이터 기법을 사용한 전처리가 기존의 방법보다 더 좋은 수행 결과를 보이는 것을 확인하였다.

기계학습 기반의 영화흥행예측 방법 비교: 인공신경망과 의사결정나무를 중심으로 (A Comparison of Predicting Movie Success between Artificial Neural Network and Decision Tree)

  • 권신혜;박경우;장병희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권4호
    • /
    • pp.593-601
    • /
    • 2017
  • 본 연구는 영화산업의 가치사슬단계에 따라 각 단계에서 고려할 수 있는 변인을 활용하여 제작/투자, 배급, 상영단계별 모형을 구성하였다. 모형의 예측력을 높이기 위해 회귀분석으로 유의미한 변인을 도출하여 모형을 추가로 설정하였다. 주어진 변인을 바탕으로 기계학습 분석방법인 인공신경망과 의사결정나무 분석방법 간의 예측력 차이를 비교하였다. 분석 결과, 제작/투자 모형과 배급 모형에서 모든 변인을 투입했을 때는 인공신경망의 정확도가 의사결정나무보다 높았으나, 회귀분석결과에 따라 선정된 변인을 투입하였을 때는 의사결정나무의 정확도가 더 높았다. 상영 모형에서는 회귀분석결과의 반영여부와 관계없이 인공신경망의 정확도가 의사결정나무의 정확도보다 높게 나타났다. 본 논문은 영화흥행 예측연구에 기계학습기법을 적용하여 예측성과가 향상됨을 확인하였다는데 의의가 있다. 선형회귀분석 결과를 기계학습기법에 반영함으로써 기존의 선형적 분석방법의 한계를 극복하고자 하였다.

빅데이터 분석을 통한 천만 관객 영화 예측 모델 (A Model of Predictive Movie 10 Million Spectators through Big Data Analysis)

  • 우종필;이응환
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.63-71
    • /
    • 2018
  • 최근 5년(2013~2017년) 연속 영화 총 관객 수가 2억 명이 넘는 국내 영화 산업에서 천만 관객을 돌파한 한국 영화 간에는 어떤 요인이 영향을 미쳤는지 분석해 보았다. 일반적으로 천만 관객 돌파에 영향을 주는 요인으로는 스크린 수와 평점을 중요하게 보는 시각이 많았다. 본 연구에서는 스크린 수, 평점을 포함하고 추가적으로 4가지 요인을 설정하여 가설을 수립하고 빅데이터 분석을 통해 천만 관객 돌파 유무와의 상관관계를 분석했다. 이를 통해 천만 관객 돌파 예측 정확도는 91%, 누적 관객 수 예측 정확도는 99.4%까지 맞추는 유의미한 결과를 얻었다.

한국 영화의 산업의 흥행 극대화를 위한 AutoML 기반의 박스오피스 유형 분류 및 예측 모델 (A Box Office Type Classification and Prediction Model Based on Automated Machine Learning for Maximizing the Commercial Success of the Korean Film Industry)

  • 임수빈;문지훈;노승민
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.45-55
    • /
    • 2023
  • 본 논문은 한국 영화 산업의 의사 결정자들이 온라인상에서의 영화의 흥행을 극대화할 수 있도록 지원하는 데 도움을 주고자 역대 박스오피스 영화를 수집하여 영화를 유형별로 군집화하고, 유형별 온라인 박스오피스를 예측하는 모델을 제시한다. 이를 위해 먼저 다양한 특성을 고려하여 영화의 흥행 요인을 식별하고, 계산 효율성을 고려하여 특성 차원을 줄인다. 다음으로 영화의 유형을 체계적으로 분류하고, 유형별 온라인 박스오피스를 예측하며 흥행에 이바지한 요소를 분석한다. 이때, AutoML (Automated Machine Learning) 기법을 활용함으로써 다양한 기계학습 알고리즘을 자동으로 구성하고, 문제에 최적화된 알고리즘을 선택함으로써 여러 알고리즘을 쉽게 시도 및 선택한다. 이를 통해 정보화된 판단을 내릴 수 있는 기반을 제공하고, 영화 산업의 더 나은 성과를 도모하는 데 이바지할 것으로 기대할 수 있다.

  • PDF

영화 흥행에 영향을 미치는 새로운 변수 개발과 이를 이용한 머신러닝 기반의 주간 박스오피스 예측 (Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning)

  • 송정아;최근호;김건우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.67-83
    • /
    • 2018
  • 2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출 점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를 예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며, 새롭게 제시한 변수들을 포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수 있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.