• 제목/요약/키워드: Movie Lens Data

검색결과 42건 처리시간 0.026초

Clustering-based Hybrid Filtering Algorithm

  • Qing Li;Kim, Byeong-Man;Shin, Yoon-Sik;Lim, En-Ki
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.10-12
    • /
    • 2003
  • Recommender systems help consumers to find the useful products from the overloaded information. Researchers have developed content-based recommenders, collaborative recommenders, and a few hybrid systems. In this research, we extend the classic collaborative recommenders by clustering method to form a hybrid recommender system. Using the clustering method, we can recommend the products based on not only the user ratings but also other useful information from user profiles or attributes of items. Through our experiments on well-known MovieLens data set, we found that the information provided by the attributes of item on the item-based collaborative filter shows advantage over the information provided by user profiles on the user-based collaborative filter.

  • PDF

명시적 및 암시적 피드백을 활용한 그래프 컨볼루션 네트워크 기반 추천 시스템 개발 (Developing a Graph Convolutional Network-based Recommender System Using Explicit and Implicit Feedback)

  • 이흠철;김동언;이청용;김재경
    • 한국IT서비스학회지
    • /
    • 제22권1호
    • /
    • pp.43-56
    • /
    • 2023
  • With the development of the e-commerce market, various types of products continue to be released. However, customers face an information overload problem in purchasing decision-making. Therefore, personalized recommendations have become an essential service in providing personalized products to customers. Recently, many studies on GCN-based recommender systems have been actively conducted. Such a methodology can address the limitation in disabling to effectively reflect the interaction between customer and product in the embedding process. However, previous studies mainly use implicit feedback data to conduct experiments. Although implicit feedback data improves the data scarcity problem, it cannot represent customers' preferences for specific products. Therefore, this study proposed a novel model combining explicit and implicit feedback to address such a limitation. This study treats the average ratings of customers and products as the features of customers and products and converts them into a high-dimensional feature vector. Then, this study combines ID embedding vectors and feature vectors in the embedding layer to learn the customer-product interaction effectively. To evaluate recommendation performance, this study used the MovieLens dataset to conduct various experiments. Experimental results showed the proposed model outperforms the state-of-the-art. Therefore, the proposed model in this study can provide an enhanced recommendation service for customers to address the information overload problem.

장르별 협업필터링을 이용한 영화 추천 시스템의 성능 향상 (Performance Improvement of a Movie Recommendation System using Genre-wise Collaborative Filtering)

  • 이재식;박석두
    • 지능정보연구
    • /
    • 제13권4호
    • /
    • pp.65-78
    • /
    • 2007
  • 추천시스템은 개인화 서비스를 구현하는 방법 중의 하나이다. 추천시스템은 다양한 기법을 통해 구축될 수 있는데, 최근 전자상거래 분야에서 사용되는 기법들 중에서 대표적인 것이 협업필터링이다. 협업필터링은 영화나 음악 같이 명시적인 속성만으로 그 특성을 기술하는데 한계가 있는 아이템의 추천문제에 효과적으로 적용되어 왔다. 하지만, 이 기법은 희박성, 확장성 및 투명성 등의 문제점을 가지고 있는데, 본 연구에서는 희박성과 확장성 문제를 극복하는 방안으로 장르별 협업필터링 방법을 제안한다. 장르별 협업필터링 방법은 아이템을 최종적으로 추천하기 전에 아이템의 상위 카테고리, 즉 장르에 대한 정보를 활용하는 방법이다. 본 연구에서 제안하는 방법의 실용성을 보이기 위하여, 영화 추천시스템인 GenreWise_CF를 개발하여, 공개 데이터인 MovieLens Data에 적용하여 평가하였다. 실험 결과, 본 연구에서 제안한 GenreWise_CF가 전통적인 협업 필터링을 적용하여 개발한 추천시스템인 Basic_CF보다 향상된 성능을 보였다.

  • PDF

협력적 여과 시스템에서 사용자 변동 계수를 이용한 기본 평가간 예측 (Default Voting using User Coefficient of Variance in Collaborative Filtering System)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권11호
    • /
    • pp.1111-1120
    • /
    • 2005
  • 협력적 여과 시스템에서 대부분의 사용자들은 모든 아이템에 대하여 선호도를 평가하지 않으므로 인하여 사용자~아이템 행렬은 희박성을 나타내며, 또한 사용자가 평가하지 않은 아이템으로부터 결측치가 발생한다. 일반적인 결측치 예측 방법은 특정 대상의 사용자가 평가하지 않은 결측치를 이 사용자와 비슷한 흥미를 갖는 사용자들의 평가값을 기반으로 예측하나, 기본 평가값 예측 방법은 사용자-아이템 렬의 결측치를 특정 사용자가 아닌 전체 사용자에 대하여 예측한다. 기본 평가값 예측 방법 중 가장 많이 사용되는 방법은 아이템 평균이나 사용자 평균을 이용한 방법이다. 그러나 이 방법은 아이템이나 사용자의 특성, 또한 데이타 집합의 분포 특성을 전혀 고려하지 않는다는 문제점을 갖는다. 본 논문에서는 이러한 문제점을 해결하기 위하여 데이타 집합에 나타난 사용자의 변동 계수를 이용하는 기본 평가값 예측방법을 제안한다. 제안한 방법에서는 수식을 이용하여 자동적으로 사용자 변동 계수의 임계값을 선택하고, 그 임계값에 따라 사용자 평균에서 아이템 평균으로 전환하여 사용자들의 결측치에 대한 기본 평가값을 결정한다. 그러나 사용자 변동 계수들의 분포 정보로 인하여 사용자 변동 계수와 임계갈이 항상 일정한 관계를 유지하는 것이 아니므로, 제안된 방법에서는 임계값을 선택하기 위하여 사용자 변동 계수의 평균과 변동 계수의 분포 정보를 병합한다. 제안된 방법은 사용자가 영화에 대하여 평가한 MovieLens 데이타 집합을 대상으로 평가되었으며, 기존의 기본 평가값 예측 방법보다 그 성능이 우수함을 보인다.

Issues and Challenges in the Extraction and Mapping of Linked Open Data Resources with Recommender Systems Datasets

  • Nawi, Rosmamalmi Mat;Noah, Shahrul Azman Mohd;Zakaria, Lailatul Qadri
    • Journal of Information Science Theory and Practice
    • /
    • 제9권2호
    • /
    • pp.66-82
    • /
    • 2021
  • Recommender Systems have gained immense popularity due to their capability of dealing with a massive amount of information in various domains. They are considered information filtering systems that make predictions or recommendations to users based on their interests and preferences. The more recent technology, Linked Open Data (LOD), has been introduced, and a vast amount of Resource Description Framework data have been published in freely accessible datasets. These datasets are connected to form the so-called LOD cloud. The need for semantic data representation has been identified as one of the next challenges in Recommender Systems. In a LOD-enabled recommendation framework where domain awareness plays a key role, the semantic information provided in the LOD can be exploited. However, dealing with a big chunk of the data from the LOD cloud and its integration with any domain datasets remains a challenge due to various issues, such as resource constraints and broken links. This paper presents the challenges of interconnecting and extracting the DBpedia data with the MovieLens 1 Million dataset. This study demonstrates how LOD can be a vital yet rich source of content knowledge that helps recommender systems address the issues of data sparsity and insufficient content analysis. Based on the challenges, we proposed a few alternatives and solutions to some of the challenges.

A Hybrid Recommendation System based on Fuzzy C-Means Clustering and Supervised Learning

  • Duan, Li;Wang, Weiping;Han, Baijing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권7호
    • /
    • pp.2399-2413
    • /
    • 2021
  • A recommendation system is an information filter tool, which uses the ratings and reviews of users to generate a personalized recommendation service for users. However, the cold-start problem of users and items is still a major research hotspot on service recommendations. To address this challenge, this paper proposes a high-efficient hybrid recommendation system based on Fuzzy C-Means (FCM) clustering and supervised learning models. The proposed recommendation method includes two aspects: on the one hand, FCM clustering technique has been applied to the item-based collaborative filtering framework to solve the cold start problem; on the other hand, the content information is integrated into the collaborative filtering. The algorithm constructs the user and item membership degree feature vector, and adopts the data representation form of the scoring matrix to the supervised learning algorithm, as well as by combining the subjective membership degree feature vector and the objective membership degree feature vector in a linear combination, the prediction accuracy is significantly improved on the public datasets with different sparsity. The efficiency of the proposed system is illustrated by conducting several experiments on MovieLens dataset.

Design of a Recommendation System for Improving Deep Neural Network Performance

  • Juhyoung Sung;Kiwon Kwon;Byoungchul Song
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.49-56
    • /
    • 2024
  • There have been emerging many use-cases applying recommendation systems especially in online platform. Although the performance of recommendation systems is affected by a variety of factors, selecting appropriate features is difficult since most of recommendation systems have sparse data. Conventional matrix factorization (MF) method is a basic way to handle with problems in the recommendation systems. However, the MF based scheme cannot reflect non-linearity characteristics well. As deep learning technology has been attracted widely, a deep neural network (DNN) framework based collaborative filtering (CF) was introduced to complement the non-linearity issue. However, there is still a problem related to feature embedding for use as input to the DNN. In this paper, we propose an effective method using singular value decomposition (SVD) based feature embedding for improving the DNN performance of recommendation algorithms. We evaluate the performance of recommendation systems using MovieLens dataset and show the proposed scheme outperforms the existing methods. Moreover, we analyze the performance according to the number of latent features in the proposed algorithm. We expect that the proposed scheme can be applied to the generalized recommendation systems.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

대표 속성을 이용한 최적 연관 이웃 마이닝 (Optimal Associative Neighborhood Mining using Representative Attribute)

  • 정경용
    • 전자공학회논문지CI
    • /
    • 제43권4호
    • /
    • pp.50-57
    • /
    • 2006
  • 최근 정보 기술의 발전에 따라 다양하고 폭넓은 정보들이 디지털 형태로 빠르게 생산 및 배포되고 있다. 사용자가 이러한 정보과잉 속에서 자신이 원하는 정보를 단시간 내에 검색하는 것은 그리 쉬운 일이 아니다. 따라서 유비쿼터스 상거래에서 사용자가 정보를 효율적으로 이용할 수 있도록 제어하고 필터링하는 일을 도와주는 개인화된 추천 시스템이 등장하였으며, 더 나아가 사용자가 원하는 아이템을 예측하고 추천해주고 있으며 이를 위해 협력적 필터링을 적용하고 있다. 이는 사용자의 성향에 맞는 아이템을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 사용자들간의 유사도 가중치를 계산한다. 본 연구는 정보의 속성에 대한 사용자의 선호도를 고려하지 않은 문제를 개선하기 위하여 연관 이웃 마이닝을 사용하여 대표속성에 대한 연관 사용자의 선호도를 협력적 필터링에 반영하였다. 연관 이웃 마이닝은 선호도에 가장 크게 영향을 미치는 속성을 추출하여 유사한 성향을 가진 연관 사용자를 군집한다. 제안된 방법은 사용자가 아이템에 대해서 평가한 MovieLens 데이터 집합을 대상으로 평가되었으며, 기존의 nearest neighbor model과 K-means 군집보다 그 성능이 우수함을 보인다.

협력필터링과 사회연결망을 이용한 신규고객 추천방법에 대한 연구 (The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis)

  • 신창훈;이지원;양한나;최일영
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.19-42
    • /
    • 2012
  • 고객이 상품을 구매하는 패턴이 빠르게 변화하고 있다. 오프라인에서 고객이 직접 상품을 보고, 체험한 후 구매하던 패턴이 TV홈쇼핑, 인터넷 쇼핑 등 고객이 편리한 장소에서 자유롭게 구매하는 방법으로 확산되었다. 이처럼 구매 가능한 상품의 범위는 점점 더 다양해지고 있지만 이로 인하여 고객이 상품을 구매할 때 생기는 번거로움은 더욱 커지고 있다. 오프라인에서는 물건을 직접보고 구매하기 때문에 반품율이 낮은 반면에 온라인 구매 물품은 배송과 환불 등에서 복잡한 일들이 많이 발생한다. 온라인을 통해서 물건을 구매할 때 상품에 대한 사전 정보는 매우 한정적이며 실제로 물건을 구매했을 경우 고객이 생각했던 것과 다를 수 있다. 이러한 결과는 결국 고객의 불만족 및 구매취소로 이어진다. 또한 TV홈쇼핑이나 인터넷 쇼핑 등을 통해서 물건을 구매할 때 고객들은 이미 상품을 구매한 고객의 리뷰에도 관심을 기울이고 있다. 좋은 평가를 받은 상품은 더 많은 매출로 이어질 수 있기 때문에 기업은 이에 관심을 기울일 필요가 있다. 고객의 욕구를 만족시킬 수 있는 적절한 상품을 추천해 주고 이를 구매로 연결시키는 것은 기업의 이윤 창출과 직결되기 때문에 그 중요성이 강조된다. 고객을 위한 추천방법은 베스트셀러기반 추천방법, 인구통계 정보기반 추천방법, 최소질의대상 상품결정방법, 내용필터링기법, 협력필터링기법 등이 존재하며, 이에 대한 많은 연구가 활발하게 진행되고 있다. 그러나 위의 방법들을 신규고객에게 적용하는 것에는 문제가 발생할 수 있다. 신규고객은 상품에 대한 과거 구매이력이 존재하지 않기 때문이다. 이를 해결하기 위한 방안으로 가입 시, 고객의 인구통계적 정보나 선호도에 대한 응답을 유도하는 방법을 활용할 수 있다. 그러나 고객이 이에 대한 번거로움을 느낄 수도 있으며, 불완전한 답변을 하게 되면 추천의 정확도는 감소한다. 최근 이미 상품을 구매한 고객의 리뷰 및 기업에서 추천하는 제품에 의존하는 고객들이 증가하면서 이를 악용하는 사례도 자주 등장한다. 결국 추천에 대한 고객들의 신뢰는 감소하게 될 것이다. 따라서 좀 더 명확한 방식의 추천시스템이 절실하며, 이것이 개선된다면 는 곧 고객들의 신뢰 증가로 이어질 것이다. 본 연구에서는 협력필터링기법과 사회연결망기법의 중심성을 결합한 분석을 시도하였다. 중심성은 신규고객의 선호도를 기존고객들의 데이터를 통하여 유추하기 위하여 활용되는 정보이다. 기존 연구들에서는 기존고객들의 구매 가운데 구매성향이 유사한 고객들의 정보에 초점을 맞추고 있으며 구매성향이 다른 고객들의 정보에 대한 분석은 이루어지고 있지 않다. 그러나 이처럼 구매성향이 서로 다른 고객들의 정보를 활용한다면 추천의 정확성이 더 향상되지 않을까 하는 점을 기반으로 데이터들을 다양한 방식으로 분석하였다. 연구에 사용된 데이터는 미네소타대학의 GroupLens Research Project팀이 협력필터링기법을 통하여 영화를 추천하기 위해 만든 MovieLens의 데이터이다. 이는 1,684편의 영화에 대한 선호도를 943명이 응답한 정보로 총 100,000개의 데이터가 있다. 이를 시간 순으로 구분하여 초기 50,000개의 데이터를 기존고객의 데이터로, 후기 50,000개의 데이터를 신규고객의 데이터로 사용하였다. 이 때, 신규고객과 기존고객은 연구자가 임의로 구분한 것이다. 따라서 신규고객이라고 표현되는 고객의 데이터는 실제로 추천시스템을 통해 정보를 제공받은 고객이라고는 볼 수 없다. 그러나 현실적으로 실제 신규고객의 데이터를 수집하는 것이 쉽지 않기 때문에 전체 고객의 정보를 시간 순으로 구분하고 신규고객으로 분류한 것임을 밝혀둔다. 제시된 추천시스템은 [+]집단 추천시스템, [-]집단 추천시스템, 통합 추천시스템으로 총 3가지이다. [+]집단 추천시스템은 기존의 연구들과 유사한 방식으로 유사도가 높은 고객들을 신규고객의 이웃고객으로 분석하였다. 유사도가 높다는 것은 다른 고객들과 상품 구매에 대한 성향이 유사한 것을 의미한다. 또한 [-]집단 추천시스템은 유사도가 낮고 다른 고객들과 상품의 구매패턴이 반대에 가까운 고객들의 데이터를 활용하였으며, 통합 추천시스템은 [+]집단 추천시스템과 [-]집단 추천시스템을 결합한 방식이다. [+]집단 추천시스템과 [-]집단 추천시스템에서 각각 추천된 영화 가운데 중복되는 영화만을 신규고객에게 추천하는 방식이다. 다양한 방법의 시도를 통하여 적절한 추천시스템을 찾고, 추천시스템의 정확도를 향상시키는데 그 목적이 있다. 활용된 데이터의 분석 결과는 통합 추천시스템이 정확도가 가장 높았으며 [-]집단 추천시스템, [+]집단 추천시스템의 순인 것으로 나타났다. 이는 통합 추천시스템이 가장 효율적일 것이라는 연구자의 추측과 일치하는 결과이다. 각각의 추천시스템은 정확도의 변화를 쉽게 비교할 수 있도록 등고선지도 및 그래프를 이용하여 나타냈다. 연구의 한계점으로는 연구자가 제시한 통합 추천시스템과 [-]집단 추천시스템에 대한 정확도는 향상되었지만 이는 임의로 구분한 기준을 바탕으로 분석하였다는 점이다. 실제 추천된 영화를 바탕으로 신규고객이 영화를 선택 한 것이 아니라 기존고객의 데이터를 임의로 분류하였기 때문이다. 따라서 이는 추천 영화가 실제 고객에 미친 영향이 아니라는 한계가 존재한다. 또한 영화가 아닌 다른 상품에 대해서 이 추천시스템을 적용하였을 경우 추천 정확도에는 차이가 있을 수 있다. 따라서 추천시스템을 적용할 때에는 각 상품 및 고객집단의 특성에 적합한 적용이 필요하다.