Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2019.05a
- /
- Pages.367-370
- /
- 2019
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
A Sequence Similarity Measure Considering the Product Taxonomy in Transaction Data
구매이력 데이터에서 상품 분류 체계를 고려한 시퀀스 유사도 측정 기법
- Yang, Yu-Jeong (Division of Computer Science, Sookmyung Women's University) ;
- Lee, Ki Yong (Division of Computer Science, Sookmyung Women's University)
- Published : 2019.05.10
Abstract
본 논문은 구매이력 데이터에서 상품간의 분류 체계를 고려하여 시퀀스 간의 유사도를 계산하는 새로운 방법을 제안한다. 시퀀스란 두 항목간의 순서가 존재하는 데이터를 의미한다. 항목 간의 선후관계가 중요한 시퀀스 데이터에서는 두 시퀀스 간의 유사도를 정확히 정의하는 것이 중요하다. 본 논문에서는 대표적인 시퀀스 유사도 측정 알고리즘인 편집 거리 알고리즘을 활용하여 구매이력 데이터에서 시퀀스 간의 유사도를 정의한다. 상품은 상품의 특성에 따라 항목 분류 체계에서 여러 범주로 분류된다. 이 경우 기존의 편집 거리 알고리즘에서 문자의 일치유무에 따라 단순히 0 또는 1을 부여하는 것은 부정확하다. 따라서 본 논문은 편집 거리 알고리즘의 수정 연산 중 대체 연산 비용 계산 시 항목 분류 트리를 사용하여 연산 비용이 0 에서 1 사이의 값을 가지도록 세분화하였다. 실험 결과 제안 방법은 대체 연산 비용 계산 시 두 문자가 다르면 단순히 1 을 부여하는 기존의 편집 거리 알고리즘에 비해 시퀀스 간의 유사도를 더 정확하게 계산함을 확인하였다.
Keywords