DOI QR코드

DOI QR Code

Improvement of algorithm for calculating word count using character hash and binary search tree

문자 해시와 이원 탐색 트리를 이용한 어절 빈도 계산 알고리즘의 성능 개선

  • Park, Il-Nam (School of Computer Science, College of EECS, Kookmin University) ;
  • Kang, Seung-Shik (School of Computer Science, College of EECS, Kookmin University)
  • 박일남 (국민대학교 전자정보통신대학 컴퓨터공학부) ;
  • 강승식 (국민대학교 전자정보통신대학 컴퓨터공학부)
  • Published : 2010.11.12

Abstract

인터넷 검색 사이트는 사용자들이 검색한 단어들의 순위를 매기는 실시간 검색 순위 서비스를 제공하는데 검색되는 단어들의 순위를 매기기 위해서는 각 단어들의 분포도를 알 수 있는 어절 빈도 계산을 수행해야 한다. 어절 빈도는 BST(Binary Search Tree)를 수행하여 계산할 수 있는데, 사용자에 의하여 검색되는 단어들은 길이와 그 형태가 다양하여 빈도 계산시에 BST 의 깊이가 깊어져서 계산 시간이 오래 걸리게 된다. 본 논문에서는 문자 해시를 이용하여 깊이가 깊은 BST 의 탐색 속도를 개선하는 알고리즘을 제안하였다. 이 방법으로 빈도 계산 속도를 비교하였을 때 문자 해시의 범위에 의해 1KB 의 추가적인 기억공간의 사용하여 9.3%의 성능 개선 효과가 있었고, 해시 공간을 10KB 추가로 사용할 때는 24.3%, 236KB 일 때는 40.6%로의 효율로 BST 의 빈도 계산 속도를 향상 시킬 수 있었다.

Keywords