Property-aware Meta Blocking for Record Linkage

레코드 연결을 위한 속성인지 메타블로킹

  • Published : 2021.10.14

Abstract

레코드 연결의 대표적인 문제 중 하나는 레코드 간 비교 비용이 크다는 것이다. 이러한 문제를 해결하기 위해서는 레코드 연결에 필수적으로 블로킹 단계가 포함되어야 한다. 블로킹이란 같은 레코드일 가능성이 높은 대상들을 그룹화하여 비교연산을 수행할 대상을 선정하는 단계를 말한다. 블로킹의 목적은 최대한 결과의 recall을 희생시키지 않으면서 비교 연산 횟수 최소화하는 것이다. 메타 블로킹은 가중치 그래프를 블로킹에 적용함으로써 전통적인 블로킹 방식의 한계를 극복하고 더 좋은 성능을 나타내는 모델이다. 본 논문에서는 메타블로킹에서 주목하지 않았던 블록 생성방식을 데이터베이스 속성에 따라 블록을 생성하는 방식으로 개선하고 그에 맞는 가중치 계산식을 제안하였다. 또한 키 기반 블로킹, 메타블로킹, 속성인지 메타블로킹으로 생성된 블로킹 결과에 대한 성능을 측정 및 비교하였다.

Keywords