DOI QR코드

DOI QR Code

A WordNet-based Feature Merge Method for HyperText Classification

하이퍼텍스트 문서의 자동분류를 위한 워드넷 기반 특징 합병 기법

  • Roh, Jun-Ho (School of Electrical and Computer Engineering, University of Seoul) ;
  • Kim, Han-Joon (School of Electrical and Computer Engineering, University of Seoul) ;
  • Chang, Jae-Young (Department of Computer Engineering, Hansung University)
  • 노준호 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 김한준 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 장재영 (한성대학교 컴퓨터공학과)
  • Published : 2012.11.22

Abstract

본 논문은 하이퍼텍스트 문서의 자동분류 성능을 높이기 위한 새로운 접근법을 제시한다. 하이퍼텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다. 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 위해서는 보다 정밀한 접근법이 필요하다. 본 논문은 단어간 의미 유사도를 기반으로 하이퍼텍스트 링크 정보를 활용한 특징 가공기법을 제안한다. 제안 기법은 하이퍼링크 문서로부터 대상문서와 연관도가 높은 특징을 추출하기 위해 단어간 유사도 함수를 사용하며, 유사도 함수는 워드넷의 상/하위어 관계를 이용한다. 그리고 추출된 특징들 중 의미적으로 비슷한 개념의 특징들을 합병함으로써 의미적으로 보다 견고한 분류 모델을 구축한다. 제안 기법을 검증하기 위해 Web-KB 문서집합을 이용하여 실험을 수행하였고 실험 결과 기존 방법보다 우수한 성능을 보였다.

Keywords