Improvement of DHP Association Rules Algorithm for Perfect Hashing

완전해싱을 위한 DHP 연관 규칙 탐사 알고리즘의 개선 방안

  • Published : 2004.04.01

Abstract

DHP mining association rules algorithm maintains previously independent direct hash table to reduce the sire of hash tree containing the frequency number of each candidate large itemset. It performs pruning by using the direct hash table when the hash tree is constructed. The mort large the size of direct hash table increases, the higher the effort of pruning becomes. Especially, the effect of pruning in phase 2 which generate 2-large itemsets is so high that it dominates the overall performance of DHP algorithm. So, following the speedy trends of producing VLM(Very Large Memory) systems, extreme increment of direct hash table size is being tried and one of those trials is perfect hash table in phase 2. In case of using perfect hash table in phase 2, we found that some rearrangement of DHP algorithm got about 20% performance improvement compared to simply |H$_2$| reconfigured DHP algorithm. In this paper, we examine the feasibility of perfect hash table in phase 2 and propose PHP algorithm, a rearranged DHP algorithm, which uses the characteristics of perfect hash table sufficiently, then make an analysis on the results in experimental environment.

DHP 연관 규칙 탐사 알고리즘은 후보 빈발 항목 집합들에 대한 계수를 유지하기 위한 해쉬트리의 크기를 가능한 한 줄이기 위하여, 독립된 직접 해쉬 테이블을 미리 준비해 놓았다가 후보 빈발 항목 집합을 생성할 때 적용함으로써 전지 효과를 얻는다. 이 때 직접 해쉬 테이블의 크기가 클수록 전지효과는 커지며, 특히 길이 2인 후보 빈발 항목 집합을 생성하는 단계에서의 전지 효과는 알고리즘 전체의 성능을 좌우할 만큼 큰 영향을 발휘한다. 따라서 급속도로 보편화되고 있는 대용량 주기억장치 시스템 추세에 따라 단계 2에서의 직접 해쉬 테이블 크기의 극단적인 증가에 대한 시도가 이루어지고 있으며, 이러한 것 중의 하나가 완전 해쉬 테이블이다. 그러나 단계 2에서의 완전 해쉬 테이블을 사용할 경우, 이를 단순히 기존 DHP 알고리즘에 적용하여 버켓 크기(|H$_2$|)만을 재 설정하는 것 보다, DHP 알고리즘 자체를 조금 변경했을 때 약 20% 이상의 추가 성능 이득을 얻을 수 있음이 밝혀졌다. 이 논문에서는 단계 2에서의 완전 해쉬 테이블의 타당성을 조명해 본 후, 그 특성을 충분히 활용하도록 DHP를 개선한 PHP 알고리즘을 제안하며 그 결과를 실험적 환경에서 검증한다.

Keywords

References

  1. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' Proceedings of the 20th International Conference on Very Large Databases, pp. 487-499, 1994
  2. J.S. Park, M.S. Chen and P.S. Yu, 'An Effective Hash-Based Algorithm for Mining Association Rules,' Proceedings of ACM SIGMOD, pp. 175-186, 1995 https://doi.org/10.1145/223784.223813
  3. R. Agrawal and et al., 'Synthetic Data Generation Code for Associations and Sequential Patterns,' http://www.almaden.ibm.com/cs/quest., 1999
  4. R. Agrawal, T. Imielinski and A. Swami, 'Mining Association Rules between Sets of Items in Large Databases,' Proceedings of ACM SIGMOD on Management of Data, pp. 207-216, 1993 https://doi.org/10.1145/170036.170072
  5. M. Houtsma, and A. Swami, 'Set-oriented mining of association rules,' Proceedings of the International Conference on Data Engineering, pp.26-33, 1995
  6. A. Savasere, E. Omiecinski and S. Navathe, 'An Efficient Algorithm for Mining Association Rules in Large Databases,' Proceedings of the 21th VLDB Conference, pp.432-444, 1995
  7. 이재문, 박종수, '복합 해쉬 트리를 이용한 효율적인 연관 규칙 탐사 알고리즘,' 정보과학회 논문지(B) 제 26권, 제 3호, pp. 343-352, 1999
  8. Digital SPD, 'Very Large Memory Applications,' http://wint.decsy.ru/du/dec_unix/64bit/vlm.htm.
  9. D. Irwin, 'Oracle Very Large Memory(VLM) for Digital Alpha NT,' Oracle white paper, 1997
  10. U.Vahalia, UNIX Internals, The New Frontier, Prentice Hall, p.400, 1996
  11. 이재문, '대용량 주기억장치 시스템에서 효율적인 연관 규칙 탐사 알고리즘,' 정보처리학회 논문지D 제9-D권, 제4호, pp.579-586, 2002 https://doi.org/10.3745/KIPSTD.2002.9D.4.579