초록
유전자 알고리즘을 문서 클러스터링에 적용하기 위해서는 적절한 개체 구조가 필요 하다. 기존의 유전자 알고리즘을 이용한 문서 클러스터링(DCGA)은 센트로이드 벡터 형식의 개체 구조를 사용하였다. 새로운 유전자 알고리즘을 이용한 문서 클러스터링(NDAGA)은 문서 할당 형식의 개체 구조를 사용한다. 본 논문에서는 문서 클라스터링에 더 적합한 개체 구조와 연산을 결정하기 위해 두 개체 구조의 차이에 따른 연산, 연산량, 클러스터링 수행 시간, 성능을 구체적으로 비교, 분석한다. 본 논문에서 수행한 다양한 실험에서 NDCGA가 DCGA와 비교하여 15%정도 더 빠른 수행 시간과, 약 5~10% 정도 더 높은 성능을 보여, 문서 할당 형식의 개체 구조가 센트로이드 벡터 형식의 개체 구조 보다 문서 클러스터링에 적합한 것을 증명한다. 또한 NDCGA는 전통적인 클러스터링 알고리즘들(K-means, Group Average)에 비해서 15~20% 더 좋은 성능을 보였다.
To apply Genetic algorithm toward document clustering, appropriate individual structure is required. Document clustering with the genetic algorithms (DCGA) uses the centroid vector type individual structure. New document clustering with the genetic algorithm (NDAGA) uses document allocated individual structure. In this paper, to find more suitable object structure and process for the document clustering, calculation, amount of calculation, run-time, and performance difference between the two methods were analyzed. In this paper, we have performed various experiments using both DCGA and NDCGA. Result of the experiment shows that compared to DCGA, NDCGA provided 15% faster execution time, about 5~10% better performance. This proves that the document allocated structure is more fitted than the centroid vector type structure when it comes to document clustering. In addition, NDCGA showed 15~25% better performance than the traditional clustering algorithms (K-means, Group Average).