대표 속성을 이용한 최적 연관 이웃 마이닝

Optimal Associative Neighborhood Mining using Representative Attribute

  • 정경용 (상지대학교 컴퓨터정보공학부)
  • Jung Kyung-Yong (School of Computer Information Engineering, Sangji University)
  • 발행 : 2006.07.01

초록

최근 정보 기술의 발전에 따라 다양하고 폭넓은 정보들이 디지털 형태로 빠르게 생산 및 배포되고 있다. 사용자가 이러한 정보과잉 속에서 자신이 원하는 정보를 단시간 내에 검색하는 것은 그리 쉬운 일이 아니다. 따라서 유비쿼터스 상거래에서 사용자가 정보를 효율적으로 이용할 수 있도록 제어하고 필터링하는 일을 도와주는 개인화된 추천 시스템이 등장하였으며, 더 나아가 사용자가 원하는 아이템을 예측하고 추천해주고 있으며 이를 위해 협력적 필터링을 적용하고 있다. 이는 사용자의 성향에 맞는 아이템을 예측하고 추천하기 위하여 비슷한 선호도를 가지는 사용자들간의 유사도 가중치를 계산한다. 본 연구는 정보의 속성에 대한 사용자의 선호도를 고려하지 않은 문제를 개선하기 위하여 연관 이웃 마이닝을 사용하여 대표속성에 대한 연관 사용자의 선호도를 협력적 필터링에 반영하였다. 연관 이웃 마이닝은 선호도에 가장 크게 영향을 미치는 속성을 추출하여 유사한 성향을 가진 연관 사용자를 군집한다. 제안된 방법은 사용자가 아이템에 대해서 평가한 MovieLens 데이터 집합을 대상으로 평가되었으며, 기존의 nearest neighbor model과 K-means 군집보다 그 성능이 우수함을 보인다.

In Electronic Commerce, the latest most of the personalized recommender systems have applied to the collaborative filtering technique. This method calculates the weight of similarity among users who have a similar preference degree in order to predict and recommend the item which hits to propensity of users. In this case, we commonly use Pearson Correlation Coefficient. However, this method is feasible to calculate a correlation if only there are the items that two users evaluated a preference degree in common. Accordingly, the accuracy of prediction falls. The weight of similarity can affect not only the case which predicts the item which hits to propensity of users, but also the performance of the personalized recommender system. In this study, we verify the improvement of the prediction accuracy through an experiment after observing the rule of the weight of similarity applying Vector similarity, Entropy, Inverse user frequency, and Default voting of Information Retrieval field. The result shows that the method combining the weight of similarity using the Entropy with Default voting got the most efficient performance.

키워드

참고문헌

  1. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' In Proc. of the 20th VLDB Conference, Santiago, Chile, 1994
  2. K. Alsabti, S. Ranka, and V. Singh, 'An Efficient K-means Clustering Algorithm,' Proceedings of the 1stWorkshop on HighPerformance Data Mining, 1998
  3. S. Brin, 'Near Neighbor Search in Large Metric Spaces,' In Proc. of the 21th International Conference on Very Large Data Bases, pp. 574-584, 1995
  4. G. Casella and E. I. Gerge, 'Explaining the Gibbs Sampler,' Journal of the American Statistician, Vol. 46, pp. 167-174, 1992 https://doi.org/10.2307/2685208
  5. M. O. Connor and J. Herlocker, 'Clustering Items for Collaborative Filtering,' In Proc. of the ACM SIGIR Workshop on Recommender Systems, Berkeley, CA, 1999.1
  6. C. Ding and X. He, 'K-Means Clustering via Principal Component Analysis,' In Proc. of the 21th Int. Conf. on Machine Learning, pp. 225-232, 2004
  7. E. H. Han, G. Karypis, and V. Kumar, 'Clustering based on Association Rule Hypergraphs,' In Proc. of the SIGMOD'97 Workshop on Research Issues in Data Mining and Knowledge Discovery, pp. 9-13, 1997
  8. J. L. Herlocker, J. A. Konstan, L. G. Terveen, and J. T. Riedl, 'Evaluating Collaborative Filtering Recommender Systems,' ACM Transactions on Information Systems (TOIS) archive, Vol. 22, No.1, pp. 5-53, 2004 https://doi.org/10.1145/963770.963772
  9. K. Y. jung and J. H. Lee, 'User Preference Mining through Hybrid Collaborative Filtering and Content-based Filtering in Recommendation System,' IEICE Transaction on Information and Systems, Vol. E87-D, No. 12, pp. 2781-2790, 2004
  10. S. J. Ko and J. H. Lee, 'Feature Selection using Association Word Mining for Classification,' LNCS 2113, In Proc. of the International Conference on Database and Expert Systems Applications, pp. 211-220, 2001
  11. MovieLens Collaborative Filtering Data Set, http://www.cs.umn.edu/research/GroupLens/, Grouplens Research Project, 2000
  12. R. Raymond, J. Mooney, and L. Roy, 'Content-Based Book Recommending Using Learning for Text Categorization,' In Proc. of the 5th ACM Conference on Digital Libraries, pp. 195-204, 2000 https://doi.org/10.1145/336597.336662