• 제목/요약/키워드: Movie Lens Data

검색결과 41건 처리시간 0.025초

영화 데이터를 위한 쌍별 규합 접근방식의 군집화 기법 (Pairwise fusion approach to cluster analysis with applications to movie data)

  • 김희진;박세영
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.265-283
    • /
    • 2022
  • 사용자들의 영화정보를 기록한 MovieLens 데이터는 추천 시스템 연구에서 아이디어를 탐색하고 검증하는데 상당한 가치가 있는 데이터로, 기존 데이터 분할 및 군집화 알고리즘을 사용하여 사용자 평점 데이터를 기반으로 항목 집합을 분할하는 연구 등에 사용되는 데이터이다. 본 논문에서는 기존 연구에서 대표적으로 사용되었던 영화 평점 데이터와 영화 장르 데이터를 통해 사용자의 장르 선호도를 예측하여 선호도 패턴을 기반으로 사용자를 군집화(clustering)하고, 유의미한 정보를 얻는 연구를 진행하였다. MovieLens 데이터는 영화의 전체 개수에 비해 사용자별 평균 영화 평점 수가 낮아 결측 비율이 높다. 이러한 이유로 기존의 군집화 방법을 적용하는 데 한계가 존재한다. 본 논문에서는 MovieLens 데이터 특성에 모티브를 얻어 쌍별 규합 벌점함수(pairwise fused penalty)를 활용한 볼록 군집화(convex clustering) 기반의 방법을 제안한다. 특히 결측치 대체(missing imputation)도 동시에 해결하는 최적화 문제를 통해 기존의 군집화 분석과 차별화하였다. 군집화는 반복 알고리즘인 ADMM을 통해 제안하는 최적화 문제를 풀어 진행한다. 또한 시뮬레이션과 MovieLens 데이터 적용을 통해 제안하는 군집화 방법이 기존의 방법보다 노이즈 및 이상치에 상대적으로 민감하지 않은 것으로 보인다.

개인성향과 협업 필터링을 이용한 개선된 영화 추천 시스템 (Improved Movie Recommendation System based-on Personal Propensity and Collaborative Filtering)

  • 박두순
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권11호
    • /
    • pp.475-482
    • /
    • 2013
  • 추천 시스템들에 대한 여러 방법들이 연구되고 있다. 개인화와 추천 시스템 중에서 가장 성공적인 방법은 협업 필터링이다. 협업 필터링은 고객들의 프로파일 정보를 기반으로 추천을 하므로 데이터가 충분하지 않다면 항목을 추천하는데 있어서 희박성의 문제가 제기된다. 본 연구에서는 희박성의 문제를 해결하는 방법으로 가중치를 가진 개인 성향을 협업 필터링에 활용하는 방법을 제안한다. 본 연구에서 가중치를 가진 최적의 개인 성향을 찾기 위해 공개 데이터인 MovieLens Data를 이용하여 성능 평가하였다. 실험 결과 본 연구에서 제안한 가중치를 가진 개인 성향들로 구축된 시스템이 기존의 개인 성향들을 이용한 시스템보다 향상된 성능을 보였다.

Movie Popularity Classification Based on Support Vector Machine Combined with Social Network Analysis

  • Dorjmaa, Tserendulam;Shin, Taeksoo
    • 한국IT서비스학회지
    • /
    • 제16권3호
    • /
    • pp.167-183
    • /
    • 2017
  • The rapid growth of information technology and mobile service platforms, i.e., internet, google, and facebook, etc. has led the abundance of data. Due to this environment, the world is now facing a revolution in the process that data is searched, collected, stored, and shared. Abundance of data gives us several opportunities to knowledge discovery and data mining techniques. In recent years, data mining methods as a solution to discovery and extraction of available knowledge in database has been more popular in e-commerce service fields such as, in particular, movie recommendation. However, most of the classification approaches for predicting the movie popularity have used only several types of information of the movie such as actor, director, rating score, language and countries etc. In this study, we propose a classification-based support vector machine (SVM) model for predicting the movie popularity based on movie's genre data and social network data. Social network analysis (SNA) is used for improving the classification accuracy. This study builds the movies' network (one mode network) based on initial data which is a two mode network as user-to-movie network. For the proposed method we computed degree centrality, betweenness centrality, closeness centrality, and eigenvector centrality as centrality measures in movie's network. Those four centrality values and movies' genre data were used to classify the movie popularity in this study. The logistic regression, neural network, $na{\ddot{i}}ve$ Bayes classifier, and decision tree as benchmarking models for movie popularity classification were also used for comparison with the performance of our proposed model. To assess the classifier's performance accuracy this study used MovieLens data as an open database. Our empirical results indicate that our proposed model with movie's genre and centrality data has by approximately 0% higher accuracy than other classification models with only movie's genre data. The implications of our results show that our proposed model can be used for improving movie popularity classification accuracy.

무비렌즈 데이터를 이용한 하이브리드 추천 시스템에 대한 실증 연구 (An Empirical Study on Hybrid Recommendation System Using Movie Lens Data)

  • 김동욱;김성근;강주영
    • 한국빅데이터학회지
    • /
    • 제2권1호
    • /
    • pp.41-48
    • /
    • 2017
  • 최근 추천 시스템의 인기와 함께 추천 시스템의 알고리즘의 성능에 대한 평가가 중요해 졌다. 본 연구는 영화 데이터에서 다양한 알고리즘 중 어떤 알고리즘의 효과적인지 판단하기 위하여 모델링과 RMSE를 통한 모델 검증을 하였다. 본 연구의 데이터는 무비렌즈의 평가 데이터 10만건을 활용하여 피어슨 상관계수를 활용한 사용자 기반 협업 필터링, 코사인 상관계수를 활용한 아이템 기반 협업 필터링 그리고 특이 값분해를 활용한 아이템 기반 협업 필터링 모델을 만들었다. 세가지 추천 모델로 평점을 예측한 결과 사용자 기반 협업 필터링보다 아이템 기반 협업 필터링의 정확도가 월등히 높은 것을 확인했고, 행렬 분해를 사용했을 때 더 정확한 추천을 할 수 있었다.

  • PDF

MEC 기반 비디오 캐시 시나리오를 위한 시계열 사용자 요청 패턴 데이터 세트 분석 (Analysis of time-series user request pattern dataset for MEC-based video caching scenario)

  • 왈리드 아크바르;아팍 모하마드;송왕철
    • KNOM Review
    • /
    • 제24권1호
    • /
    • pp.20-28
    • /
    • 2021
  • 소셜 미디어 애플리케이션 및 모바일 장치의 광범위한 사용으로 인해 데이터 트래픽이 지속해서 증가하고 있다. 소셜 미디어 애플리케이션은 끝없이 많은 양의 멀티미디어 트래픽, 특히 비디오 트래픽을 생성하고 있다. YouTube, Daily Motion 및 Netflix와 같은 많은 소셜 미디어 플랫폼이 생성하는 것이다. 이러한 플랫폼에서는 다른 비디오와 비교하여 몇 개의 인기 비디오가 여러 번 요청된다. 이러한 인기 있는 비디오는 지속적인 사용자 요구 사항을 충족하기 위해 사용자 주변에 캐시해야 한다. MEC는 일관된 사용자 요구와 사용자 근접 캐시를 위한 필수 패러다임으로 부상했다. 시간에 따라 사용자 요구 패턴이 어떻게 달라지는지를 이해하는 것이 과제이다. 본 논문은 공개 데이터셋인 MovieLens 20M, MovieLens 100K, The Movies Dataset 3개를 분석하여 시간에 따른 사용자 요청 패턴을 찾는다. 모든 데이터셋의 시간별, 일별, 월별 및 연간 추세를 확인할 수 있다. MEC 기반 비디오 캐시 시나리오에서 사용자 요청 패턴을 분석 및 생성함으로써, 많은 연구에서 사용될 수 있을 것이다.

Personalized Movie Recommendation System Combining Data Mining with the k-Clique Method

  • Vilakone, Phonexay;Xinchang, Khamphaphone;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1141-1155
    • /
    • 2019
  • Today, most approaches used in the recommendation system provide correct data prediction similar to the data that users need. The method that researchers are paying attention and apply as a model in the recommendation system is the communities' detection in the big social network. The outputted result of this approach is effective in improving the exactness. Therefore, in this paper, the personalized movie recommendation system that combines data mining for the k-clique method is proposed as the best exactness data to the users. The proposed approach was compared with the existing approaches like k-clique, collaborative filtering, and collaborative filtering using k-nearest neighbor. The outputted result guarantees that the proposed method gives significant exactness data compared to the existing approach. In the experiment, the MovieLens data were used as practice and test data.

장르유사도와 선호장르를 이용한 협업필터링 설계 (Collaborative Filtering Design Using Genre Similarity and Preffered Genre)

  • 김경록;변재희;문남미
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.159-168
    • /
    • 2011
  • 전자상거래와 소셜미디어 서비스의 활성화에 따라, 집단지성을 개인 맞춤 서비스에 활용하는 추천시스템에 관한 연구가 활발히 진행되고 있다. 또한, 스마트폰의 발달과 모바일 환경의 발달에 따라 단말의 제약성에도 불구하고 개인화 서비스에 대한 연구가 가속화되고 있다. 대표적인 예로 위치기반 서비스와의 결합이다. 이에 본 연구에서는 영화의 장르유사도와 선호장르를 이용한 추천시스템을 제안한다. 영화 장르 유사도 프로파일을 생성하여 이를 모바일실험 환경에서 서비스 될 수 있도록 설계하고 프로토 타이핑 한 후에 MovieLens 데이터를 적용하여 평가한다.

Bayesian Approach to Users' Perspective on Movie Genres

  • Lenskiy, Artem A.;Makita, Eric
    • Journal of information and communication convergence engineering
    • /
    • 제15권1호
    • /
    • pp.43-48
    • /
    • 2017
  • Movie ratings are crucial for recommendation engines that track the behavior of all users and utilize the information to suggest items the users might like. It is intuitively appealing that information about the viewing preferences in terms of movie genres is sufficient for predicting a genre of an unlabeled movie. In order to predict movie genres, we treat ratings as a feature vector, apply a Bernoulli event model to estimate the likelihood of a movie being assigned a certain genre, and evaluate the posterior probability of the genre of a given movie by using the Bayes rule. The goal of the proposed technique is to efficiently use movie ratings for the task of predicting movie genres. In our approach, we attempted to answer the question: "Given the set of users who watched a movie, is it possible to predict the genre of a movie on the basis of its ratings?" The simulation results with MovieLens 1M data demonstrated the efficiency and accuracy of the proposed technique, achieving an 83.8% prediction rate for exact prediction and 84.8% when including correlated genres.

빅데이터 추천시스템을 위한 과립기반 연관규칙 마이닝 (Granule-based Association Rule Mining for Big Data Recommendation System)

  • 박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.67-72
    • /
    • 2021
  • 연관규칙 마이닝은 여러 테이블에 숨겨진 패턴들의 관계를 나타내주는 방법이다. 요즈음에는 연관규칙 마이닝에 보다 세부적인 의미를 추가하기 위하여 과립화 논리를 이용하고 있다. 또한 기존의 데이터를 이용하여 추천하는 기존의 시스템과는 달리 과립화 연관규칙에서는 신규 가입자나 신규상품에 대한 추천의 경우도 가능하다. 따라서 연관규칙의 과립화의 정성적인 크기를 결정하는 것이 추천 시스템의 성능을 좌우한다. 본 논문에서는 관람자가 평가한 영화에 대한 관계를 파악하기 위하여 퍼지논리와 샤논 엔트로피 개념을 이용하여 관람자와 영화데이터에 대한 과립화 방법을 제안한다. 연구는 관람자와 영화간의 연관규칙의 함의에 결정적인 역할을 하는 데이터의 과립화의 크기를 결정하는 부분과 이러한 과립화를 이용하여 관람자와 영화간의 연관규칙을 추출하는 두 번째 부분으로 구성되어 있으며 넷플릭스의 MovieLens데이터를 이용하여 분석하였다. 최종적으로 도출된 연관규칙의 의미와 추천의 정확도 및 고려해야하는 함의를 제시하였다.

반사실적 데이터 증강에 기반한 인과추천모델: CausRec사례 (A Causal Recommendation Model based on the Counterfactual Data Augmentation: Case of CausRec)

  • 송희석
    • Journal of Information Technology Applications and Management
    • /
    • 제30권4호
    • /
    • pp.29-38
    • /
    • 2023
  • A single-learner model which integrates the user's positive and negative perceptions is proposed by augmenting counterfactual data to the interaction data between users and items, which are mainly used in collaborative filtering in this study. The proposed CausRec showed superior performance compared to the existing NCF model in terms of F1 value and AUC in experiments using three published datasets: MovieLens 100K, Amazon Gift Card, and Amazon Magazine. Compared to the existing NCF model, the F1 and AUC values of CausRec showed 1.2% and 2.6% performance improvement in MovieLens 100K data, and 2.2% and 10% improvement in Amazon Gift Card data, respectively. In particular, in experiments using Amazon Magazine data, F1 and AUC values were improved by 11.7% and 21.9%, respectively, showing a significant performance improvement effect. The performance of CausRec is improved because both positive and negative perceptions of the item were reflected in the recommendation at the same time. It is judged that the proposed method was able to improve the performance of the collaborative filtering because it can simultaneously alleviate the sparsity and imbalance problems of the interaction data.