DOI QR코드

DOI QR Code

Purchase Transaction Similarity Measure Considering Product Taxonomy

상품 분류 체계를 고려한 구매이력 유사도 측정 기법

  • 양유정 (숙명여자대학교 컴퓨터과학과) ;
  • 이기용 (숙명여자대학교 소프트웨어학부)
  • Received : 2019.07.05
  • Accepted : 2019.07.25
  • Published : 2019.09.30

Abstract

A sequence refers to data in which the order exists on the two items, and purchase transaction data in which the products purchased by one customer are listed is one of the representative sequence data. In general, all goods have a product taxonomy, such as category/ sub-category/ sub-sub category, and if they are similar to each other, they are classified into the same category according to their characteristics. Therefore, in this paper, we not only consider the purchase order of products to compare two purchase transaction sequences, but also calculate their similarity by giving a higher score if they are in the same category in spite of their difference. Especially, in order to choose the best similarity measure that directly affects the calculation performance of the purchase transaction sequences, we have compared the performance of three representative similarity measures, the Levenshtein distance, dynamic time warping distance, and the Needleman-Wunsch similarity. We have extended the existing methods to take into account the product taxonomy. For conventional similarity measures, the comparison of goods in two sequences is calculated by simply assigning a value of 0 or 1 according to whether or not the product is matched. However, the proposed method is subdivided to have a value between 0 and 1 using the product taxonomy tree to give a different degree of relevance between the two products, even if they are different products. Through experiments, we have confirmed that the proposed method was measured the similarity more accurately than the previous method. Furthermore, we have confirmed that dynamic time warping distance was the most suitable measure because it considered the degree of association of the product in the sequence and showed good performance for two sequences with different lengths.

시퀀스란 두 항목 간의 순서가 존재하는 데이터를 말하며, 고객 한 명이 구매한 상품들이 나열된 구매이력 데이터는 대표적인 시퀀스 데이터 중 하나이다. 일반적으로 모든 상품은 대분류/ 중분류/ 소분류와 같은 상품 분류 체계를 가지며, 서로 다른 상품이더라도 비슷하다면 그 특성에 따라 동일한 범주로 분류된다. 따라서 본 논문에서는 두 구매이력 시퀀스 비교 시 상품의 구매 순서를 고려할 뿐만 아니라, 비교하고자 하는 두 상품이 다르더라도 서로 동일한 상품 군에 속한다면 더 높은 유사도를 부여하여 계산한다. 특히 구매이력 시퀀스 유사도 계산 성능에 직접적인 영향을 미치는 시퀀스 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 시퀀스 간 유사도 측정 방법인 레벤슈타인 거리, 동적 타임 워핑 거리, 니들만-브니쉬 유사도의 성능을 비교하였으며, 항목간의 계층구조도 반영하여 계산하도록 확장하였다. 기존의 유사도 측정 방법의 경우 시퀀스 내 상품 비교 시 상품의 일치 유무에 따라 단순히 0 또는 1의 값을 부여하여 계산한다. 하지만 제안 방법의 경우 서로 다른 상품이더라도 두 상품 간의 연관정도를 다르게 부여하기 위하여 상품 분류 트리를 사용하여 0에서 1 사이의 값을 가지도록 세분화하였다. 실험을 통해 세 알고리즘에 제안 방법을 적용한 경우 기존 방법에 비하여 구매이력 시퀀스 간의 유사도를 더 정확히 측정함을 확인하였다. 또한 정확성 측정 비교 실험을 통해 동적 타임 워핑 유사도가 다른 두 유사도 측정 방법에 비하여 시퀀스 내 상품의 연관 정도를 고려할 뿐만 아니라 두 시퀀스의 길이가 다른 경우에도 좋은 성능을 보였기 때문에 구매이력 데이터에서 시퀀스 간의 유사도 비교 시 가장 적합한 측정 방법임을 확인하였다.

Keywords

References

  1. M. Sforna, "Data mining in a power company customer database," Electric Power Systems Research, 2000.
  2. C. Rygielski, J. Wang, and D. C. Yen, "Data mining techniques for customerrelationship management," Technology in Society, Vol.24, No.4, pp.483-502, 2002. https://doi.org/10.1016/S0160-791X(02)00038-6
  3. M. Kaur and S. Kang, "Market Basket Analysis: Identify the Changing Trends of Market Data Using Association Rule Mining," Procedia Computer Science, Vol.85, pp.78-85, 2016. https://doi.org/10.1016/j.procs.2016.05.180
  4. E.W.T Ngai, L. Xiu, and D.C.K Chau, "Application of data mining techniques in customer relationship management: A literature review and classification," Expert Systems with Applications, Vol.36, No.2, pp.2592-2602, 2009. https://doi.org/10.1016/j.eswa.2008.02.021
  5. T. Brijs, G. Swinnen, K. Vanhoof, and G. Wets, "Using association rules for product assortment decisions: a casestudy," in Proc. of the Fifth International Conference on Knowledge Discovery and Data Mining, pp.254-260, 1999.
  6. S. Park, N. C. Suresh, and B. K. Jeong, "Sequence-based clustering for Web usage mining: A new experimental framework and ANN-enhanced K-means algorithm," Data & Knowledge Engineering, Vol.65, No.3, pp.512-543, 2008. https://doi.org/10.1016/j.datak.2008.01.002
  7. E. Zorita, P. Cusco, and G. J. Filion, "Starcode: sequence clustering based on all-pairs search," Bioinformatics, Vol.31, No.12, pp.1913-1919, 2015. https://doi.org/10.1093/bioinformatics/btv053
  8. T. F. Smith and M. S. Waterman, "Identification of Common Molecular Subsequences," Journal of Molecular Biology, Vol.147, pp.195-197, 1981. https://doi.org/10.1016/0022-2836(81)90087-5
  9. P. Jaccard, "Etude comparative de la distribution florale dans une portion des Alpes et des Jura," Bulletin de la Societe Vaudoise des Sciences Naturelles, Vol.37, pp.547-579, 1901.
  10. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals," Soviet Physics Doklady, Vol.10, pp.707-710, 1966.
  11. D. Berndt and J. Clifford, "Using Dynamic Time Warping to Find Patterns in Time Series," In Proc. of KDD Workshop, 1994.
  12. S. B. Needleman and C. D. Wunsch, "A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins," Journal of Molecular Biology, Vol.48, pp.443-453, 1970. https://doi.org/10.1016/0022-2836(70)90057-4