초록
본 연구는 영화 흥행의 척도로서 총 관객수의 예측을 다루었다. 의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine과 같은 데이터마이닝 분류 기법들을 사용하여 개봉 전, 개봉 일, 개봉 1주 후, 그리고 개봉 2주 후 시점 별로 예측이 이루어진다. 국적, 등급, 개봉 월, 개봉 계절, 감독, 배우, 배급사, 관객수, 그리고 스크린 수와 같은 영화의 내재적인 속성을 나타내는 변수 뿐만 아니라 포털의 평점과 평가자 수, 블로그 수, 뉴스 수와 같은 온라인 구전 변수들이 예측변수로 사용되었다. 10-중 교차 검증에서 신경망모형의 정확도는 개봉 전 시점에서도 90% 이상의 높은 예측력을 보였다. 또한 최종 온라인 구전 변수의 추정치를 예측변수로 추가함으로서 예측의 정확도가 더 높아짐을 볼 수 있다.
This study deals with the prediction of the total number of movie audiences as a measure for the box office. Prediction is performed by classification techniques of data mining such as decision tree, multilayer perceptron(MLP) neural network model, multinomial logit model, and support vector machine over time such as before movie release, release day, after release one week, and after release two weeks. Predictors used are: online word-of-mouth(OWOM) variables such as the portal movie rating, the number of the portal movie rater, and blog; in addition, other variables include showing the inherent properties of the film (such as nationality, grade, release month, release season, directors, actors, distributors, the number of audiences, and screens). When using 10-fold cross validation technique, the accuracy of the neural network model showed more than 90 % higher predictability before movie release. In addition, it can be seen that the accuracy of the prediction increases by adding estimates of the final OWOM variables as predictors.