Browse > Article
http://dx.doi.org/10.9708/jksci.2010.15.8.013

An Optimization of Hashing Mechanism for the DHP Association Rules Mining Algorithm  

Lee, Hyung-Bong (강릉원주대학교 컴퓨터공학과)
Kwon, Ki-Hyeon (강원대학교 전자정보통신공학부)
Abstract
One of the most distinguished features of the DHP association rules mining algorithm is that it counts the support of hash key combinations composed of k items at phase k-1, and uses the counted support for pruning candidate large itemsets to improve performance. At this time, it is desirable for each hash key combination to have a separate count variable, where it is impossible to allocate the variables owing to memory shortage. So, the algorithm uses a direct hashing mechanism in which several hash key combinations conflict and are counted in a same hash bucket. But the direct hashing mechanism is not efficient because the distribution of hash key combinations is unvalanced by the characteristics sourced from the mining process. This paper proposes a mapped perfect hashing function which maps the region of hash key combinations into a continuous integer space for phase 3 and maximizes the efficiency of direct hashing mechanism. The results of a performance test experimented on 42 test data sets shows that the average performance improvement of the proposed hashing mechanism is 7.3% compared to the existing method, and the highest performance improvement is 16.9%. Also, it shows that the proposed method is more efficient in case the length of transactions or large itemsets are long or the number of total items is large.
Keywords
DHP; direct hashing; mapped perfect hashing;
Citations & Related Records
Times Cited By KSCI : 5  (Citation Analysis)
연도 인용수 순위
1 임승환, 권용석, 김상욱, "클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관규칙 마이닝," 정보과학회지:컴퓨팅의 실제, 60-64쪽, 2010년. 1월.   과학기술학회마을
2 이혜리, 류근호, 김원재, 이건영, "마이크로 어레이 데이터에서 특정 클래스 식별을 위한 이진 연관규칙 추출," 한국지능시스템학회 2009년도 추계 학술발표 논문집, 293-294쪽, 2009년. 12월.
3 송성렬, 송원문, 김은주, 김명원, "IPTV 환경에서의 점진적 데이터를 위한 효과적인 연관규칙 추출 기법," 한국정보과학회 2009 가을 학술발표논문집 제 36권, 제 2호(C), 246-251쪽, 2009년. 11월.
4 이병엽, 박용훈, 유재수, "자동차 산업의 고객 분류 및 타겟 마케팅 모델," 한국컨텐츠학회 논문지, 제 9권 제 4호, 313-322쪽, 2009년. 4월.
5 권형준, 정동근, 홍광석, "사용자의 재생 시간을 이용한 멀티미디어 추천 시스템," 인터넷정보학회 논문지, 제 10 권, 제 1호, 111-121쪽, 2009년 2월.   과학기술학회마을
6 임영희, 이종욱, 박대희. 장진경, "연관 규칙 마이닝을 이용한 한국 신노년층의 생활 만족도에 관한 연구," 한국가정관리학회 2008년 추계학술대회, 164-173쪽, 2008년11월.
7 M. Schrader, D. Vlamis, M. Nader, C. Claterbos, D. Collins, M. Campbel, F. Conrad, "Oracle Essbase & Oracle OLAP," McGraw-Hill, Oct. 2009.
8 Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten, "The WEKA Data Mining Software: An Update," SIGKDD Explorat- ions, Volume 11, Issue 1, 2009. http://www.cs.waikato.ac.nz/-ml/weka/
9 J. S. Park, M.-S. Chen and P. S. Yu, "An Effective Hash-Based Algorithm for Mining Association Rules," Proceedings of ACM SIGMOD, pp. 175-186, 1995.
10 J. Han, J. Pei, and Y. Yin, "Mining frequent patterns without candidate generation," Proceedings ACM SIGMOD Int'l Conf. Management of Data(SIGMOD' 00), pp. 1-12, May 2000.
11 이형봉, 김진호, "FP-tree와 DHP 연관 규칙 탐사 알고리즘의 실험적 성능 비교," 정보과학회논문지:데이터베이스, 제 35권, 제 3호, 341-351쪽, 2008년. 6월,   과학기술학회마을
12 R. Agrawal, T. Imielinski and A. Swami, "Mining Association Rules between Sets of Items in Large Databases," Proceedings of ACM SIGMOD on Management of Data, pp. 207-216, 1993.
13 R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," Proceedings of the 20th Inte- rnational Conference on Very Large Databases, pp. 487-499, 1994.
14 이형봉, "완전 해싱을 위한 DHP 연관 규칙탐사 알고리즘의 개선 방안," 정보과학회논문지:데이터베이스, 제31권, 제 2호, 91-98쪽, 2004년. 4월.   과학기술학회마을
15 이형봉, "DHP 연관 규칙 탐사 알고리즘을 위한 효율적인 해싱 메커니즘," 정보처리학회 논문지(D), 제 13-D권, 제 5호, 651-660쪽, 2006년. 10월.   과학기술학회마을
16 R. Agrawal and et al, "Synthetic Data Generation Code for Associations and Sequential Patterns," http://www.almaden.ibm.com/cs/projects/iis/hdb/ Projects/data_mining/mining.shtml, 1999.