웹 문서 중 의미 있는 표의 추출

Extraction of Meaningful Tables from The Web Documents

  • 정성원 (부산대학교 전자계산학과) ;
  • 이원희 (부산대학교 전자계산학과) ;
  • 김영기 (부산대학교 전자계산학과) ;
  • 권혁철 (부산대학교 전자계산학과)
  • Jung, Sung-Won (Dept. of Computer Science, Busan National University) ;
  • Lee, Won-Hee (Dept. of Computer Science, Busan National University) ;
  • Kim, Young-Gi (Dept. of Computer Science, Busan National University) ;
  • Kwon, Hyuck-Chul (Dept. of Computer Science, Busan National University)
  • 발행 : 2002.10.11

초록

현재까지 정보 검색 시스템은 색인어 위주로써 문서의 구조적 정보를 고려하지 알았다. 글자의 크기나 글자체, 들여 쓰기, 표 등은 저자의 의도를 구체화하며, 문서를 명확하게 하는 주요한 수단이다. 이 연구에서는 특히 표에 주목한다. 표는 많은 문서에 일반적으로 쓰이며, 글을 명확하게 해 준다. 일반 문서에 비해서 웹 문서는 태그를 이용하여 정보를 추가할 수 있어 표를 쉽게 구분할 수 있다. 하지만, 웹 상의 표는 지식을 구조화하는 근본적인 목적이외에, 단순히 화면을 정렬하려고 하는 목적으로도 많이 쓰인다. 이 연구에서는 정보 검색시스템에 표 정보를 사용하기 위한 전처리 단계로 의미 있는 표를 추출하는 방법을 제시하며, 이를 위하여 결정 트리를 사용한다.

키워드