Classification of Web Documents Using Associative Word Frequency for Collaborative Filtering

협력적 필터링을 위해 연관 단어 빈도를 이용한 웹 문서 분류

  • 하원식 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 정경용 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 정헌만 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 류중경 (인하대학교 컴퓨터ㆍ정보공학과) ;
  • 이정현 (인하대학교 컴퓨터공학부)
  • Published : 2004.10.01

Abstract

기존의 웹 문서 분류 시스템서는 많은 시간과 노력을 요구하며, 연관 단어가 아닌 단일 단어만으로 웹 문서들을 분류하여 단어의 중의성을 반영하지 못해 많은 오분류가 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 협력적 필터링을 위한 연관 단어 빈도를 사용한 웹 문서 분류 방법을 제안한다. 제안된 방법에서는 웹 문서 내에서 단어들을 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘에 의해 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 반영한다. 수정된 신뢰도를 ARHP 알고리즘에 적용하여 연관 단어들 사이의 유사정도를 계산하고 유사 클래스를 구성한다 생성된 유사 클래스들을 기반으로 웹 문서를 $\alpha$-cut을 이용하여 분류한다 성능평가를 위해 기존의 문서 분류 방법들과 비교 평가를 하였다.

Keywords