A Web Page Categorization Model Based on Document Structural Information

문서 구조 정보에 기반한 웹 페이지 범주화 모델

  • Jung, Sung-Hwa (Graduate School for Information Technology, PIRL, POSTECH) ;
  • Lee, Jong-Hyeok (Graduate School for Information Technology, PIRL, POSTECH)
  • 정성화 (포항공과대학교 정보통신대학원) ;
  • 이종혁 (포항공과대학교 정보통신대학원)
  • Published : 1998.10.09

Abstract

본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

Keywords