DOI QR코드

DOI QR Code

Min-Max Hash for Similarity Measurement based on Multiset

Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정

  • Yoon, Jin-Uk (Dept. of Computer Engineering, Dong-Guk University- Gyeongju) ;
  • Kim, Byoungwook (Dept. of Computer Engineering, Dong-Guk University- Gyeongju)
  • 윤진욱 (동국대학교 경주캠퍼스 컴퓨터공학과) ;
  • 김병욱 (동국대학교 경주캠퍼스 컴퓨터공학과)
  • Published : 2019.05.10

Abstract

데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Keywords