협력적 여과 시스템에서 사용자 변동 계수를 이용한 기본 평가간 예측

Default Voting using User Coefficient of Variance in Collaborative Filtering System

  • 고수정 (인덕대학 컴퓨터소프트웨어과)
  • 발행 : 2005.11.01

초록

협력적 여과 시스템에서 대부분의 사용자들은 모든 아이템에 대하여 선호도를 평가하지 않으므로 인하여 사용자~아이템 행렬은 희박성을 나타내며, 또한 사용자가 평가하지 않은 아이템으로부터 결측치가 발생한다. 일반적인 결측치 예측 방법은 특정 대상의 사용자가 평가하지 않은 결측치를 이 사용자와 비슷한 흥미를 갖는 사용자들의 평가값을 기반으로 예측하나, 기본 평가값 예측 방법은 사용자-아이템 렬의 결측치를 특정 사용자가 아닌 전체 사용자에 대하여 예측한다. 기본 평가값 예측 방법 중 가장 많이 사용되는 방법은 아이템 평균이나 사용자 평균을 이용한 방법이다. 그러나 이 방법은 아이템이나 사용자의 특성, 또한 데이타 집합의 분포 특성을 전혀 고려하지 않는다는 문제점을 갖는다. 본 논문에서는 이러한 문제점을 해결하기 위하여 데이타 집합에 나타난 사용자의 변동 계수를 이용하는 기본 평가값 예측방법을 제안한다. 제안한 방법에서는 수식을 이용하여 자동적으로 사용자 변동 계수의 임계값을 선택하고, 그 임계값에 따라 사용자 평균에서 아이템 평균으로 전환하여 사용자들의 결측치에 대한 기본 평가값을 결정한다. 그러나 사용자 변동 계수들의 분포 정보로 인하여 사용자 변동 계수와 임계갈이 항상 일정한 관계를 유지하는 것이 아니므로, 제안된 방법에서는 임계값을 선택하기 위하여 사용자 변동 계수의 평균과 변동 계수의 분포 정보를 병합한다. 제안된 방법은 사용자가 영화에 대하여 평가한 MovieLens 데이타 집합을 대상으로 평가되었으며, 기존의 기본 평가값 예측 방법보다 그 성능이 우수함을 보인다.

In collaborative filtering systems most users do not rate preferences; so User-Item matrix shows great sparsity because it has missing values for items not rated by users. Generally, the systems predict the preferences of an active user based on the preferences of a group of users. However, default voting methods predict all missing values for all users in User-Item matrix. One of the most common methods predicting default voting values tried two different approaches using the average rating for a user or using the average rating for an item. However, there is a problem that they did not consider the characteristics of items, users, and the distribution of data set. We replace the missing values in the User-Item matrix by the default noting method using user coefficient of variance. We select the threshold of user coefficient of variance by using equations automatically and determine when to shift between the user averages and item averages according to the threshold. However, there are not always regular relations between the averages and the thresholds of user coefficient of variances in datasets. It is caused that the distribution information of user coefficient of variances in datasets affects the threshold of user coefficient of variance as well as their average. We decide the threshold of user coefficient of valiance by combining them. We evaluate our method on MovieLens dataset of user ratings for movies and show that it outperforms previously default voting methods.

키워드

참고문헌

  1. B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, 'Application of Dimensionality Reduction in Recommender System A Case Study,' Proceddings of ACM WebKDD, 2000
  2. B. Sarwar, J. Konstan, Al Borchers, J. Herlocker, B. Miller, and J. Riedl, 'Using Filtering Agents to Improve Prediction Quality in the GroupLens Research Collaborative Filtering System,' Proceedings of the 1998 Conference on Computer Supported Cooperative Work, 1998 https://doi.org/10.1145/289444.289509
  3. David Pennock, Eric Horvitz, Steve Lawrence, and C Lee Giles, 'Collaborative Filtering by Personality Diagnosis: A Hybrid Memory- and Model-Based Approach,' Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, UAI 2000
  4. John. S. Breese, D. Heckerman, and C. Kadie, 'Empirical Analysis of Predictive Algorithms for Collaborative Filtering,' Proceedings of the Conference on Uncertainty in Artificial Intelligence, Madison, WI, 1998
  5. Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, and John Riedl, 'An algorithmic framework for performing collaborative filtering,' Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999 https://doi.org/10.1145/312624.312682
  6. Sonny Han Seng Chee , Jiawei Han, Ke Wang, 'RecTree: An Efficient Collaborative Filtering Method,' Proceedings of the Third International Conference on Data Warehousing and Knowledge Discovery, September, 2001
  7. 조선호, 김진수, 이정현, '엔트로피와 Default Voting을 이용한 협력적 필터링에서의 사용자 유사도 측정', 한국정보과학회 추계 학술발표논문집(II), 2001
  8. Toshihiro Kamishima, 'Nantonac collaborative filtering: recommendation based on order responses,' Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2003
  9. MovieLens collaborative filtering data set, Http://www.cs.umn.edu/Research/GroupLens/index.html, GROUPLENS RESEARCH PROJECT, 2000
  10. V. Barnett and T. Lewis, Outliers in Statistical Data. John Wiley and Sons, 1994
  11. L. Grossi, G. Gozzi, and P. Ganugi, 'Distribution Analysis of Items and Ratios in Companies? Accounts using a new iterative procedure,' Proceedings of compstat2002, 2002
  12. Jonathan L. Herlocker, Joseph A. Konstan, Loren G. Terveen, and John T. Riedl, 'Evaluating collaborative filtering recommender systems,' ACM Transactions on Information Systems (TOIS) archive, Vol. 22, No. 1, 2004 https://doi.org/10.1145/963770.963772
  13. J. Delgado and N. Ishii, 'Formal Models for Learning of User Preferences, a Preliminary Report,' In Proceedings of International Joint Conference on Artificial Intelligence (IJCAI-99), Stockholm, Sweden, July, 1999
  14. Paul R. Cohen. Empirical methods for artificial intelligence. The MIT Press, 1995
  15. Giuseppe Carenini, Rita Sharma, 'Exploring More Realistic Evaluation Measures for Collaborative Filtering,' AAAI 2004, 2004
  16. Rita Sharma and David Poole, 'Symmetric Collaborative Filtering Using the Noisy Sensor Model,' Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence, 2001
  17. B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, 'Analysis of recommendation algorithms for e-commerce,' Proceedings of the 2nd ACM conference on Electronic commerce, 2000 https://doi.org/10.1145/352871.352887