DOI QR코드

DOI QR Code

시각 자질을 이용한 의미 있는 테이블 검출

Discriminating Meaningful Tables Using Visual Features

  • 이재안 (경북대학교 전자전기컴퓨터학부) ;
  • 박성배 (경북대학교 컴퓨터공학과) ;
  • 손정우 (경북대학교 전자전기컴퓨터학부) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Lee, Jae-An (School of Electrical Engineering and Computer Science, Kyung-pook National University) ;
  • Park, Seong-Bae (Department of Computer Engineering, Kyung-pook National University) ;
  • Son, Jeong-Woo (School of Electrical Engineering and Computer Science, Kyung-pook National University) ;
  • Lee, Sang-Jo (Department of Computer Engineering, Kyung-pook National University)
  • 발행 : 2009.04.23

초록

웹 상에서의 정보추출은 방대한 데이터를 기반으로 널리 사용되고 있다. 테이블은 웹 페이지에서 요약된 정보를 보여주는 유용한 수단이기 때문에 테이블로부터의 정보추출은 일반적인 웹 데이터의 정보추출에 비해 중요하다. 하지만 웹 페이지에 나타난 테이블은 유의미한 정보를 가지는 의미 있는 테이블과 웹 페이지의 형태의 보정을 위한 장식 테이블로 나누어진다. 따라서 웹 페이지에서 의미 있는 테이블을 구분하고 정보를 검출하는 것은 웹 상에 나타난 정보를 활용하기 위한 중요한 단계이다. 본 논문은 웹 페이지에 나타난 테이블들 중 유의미한 정보를 내포하고 있는 의미 있는 테이블을 검출할 수 있는 방법을 제안한다. 이를 위해 본 논문에서는 브라우저를 통해 보여지는 테이블의 위치적 중요도를 반영하는 새로운 자질을 정의하고, 이를 기존 자질과 결합하여 활용함으로써 시각 자질의 유용성을 평가한다. 실험을 통해 본 논문에서 제안한 방법이 기존 방법들에 비해 우수한 성능을 보임을 알 수 있었다.

키워드