Extraction of Meaningful Tables from The Web Documents

Jung, Sung-Won;Lee, Won-Hee;Kim, Young-Gi;Kwon, Hyuck-Chul;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2002.10e
/
Pages.332-339
/
2002
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Extraction of Meaningful Tables from The Web Documents

웹 문서 중 의미 있는 표의 추출

Jung, Sung-Won (Dept. of Computer Science, Busan National University) ;
Lee, Won-Hee (Dept. of Computer Science, Busan National University) ;
Kim, Young-Gi (Dept. of Computer Science, Busan National University) ;
Kwon, Hyuck-Chul (Dept. of Computer Science, Busan National University)

정성원 (부산대학교 전자계산학과) ;
이원희 (부산대학교 전자계산학과) ;
김영기 (부산대학교 전자계산학과) ;
권혁철 (부산대학교 전자계산학과)

Published : 2002.10.11

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

현재까지 정보 검색 시스템은 색인어 위주로써 문서의 구조적 정보를 고려하지 알았다. 글자의 크기나 글자체, 들여 쓰기, 표 등은 저자의 의도를 구체화하며, 문서를 명확하게 하는 주요한 수단이다. 이 연구에서는 특히 표에 주목한다. 표는 많은 문서에 일반적으로 쓰이며, 글을 명확하게 해 준다. 일반 문서에 비해서 웹 문서는 태그를 이용하여 정보를 추가할 수 있어 표를 쉽게 구분할 수 있다. 하지만, 웹 상의 표는 지식을 구조화하는 근본적인 목적이외에, 단순히 화면을 정렬하려고 하는 목적으로도 많이 쓰인다. 이 연구에서는 정보 검색시스템에 표 정보를 사용하기 위한 전처리 단계로 의미 있는 표를 추출하는 방법을 제시하며, 이를 위하여 결정 트리를 사용한다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Extraction of Meaningful Tables from The Web Documents

웹 문서 중 의미 있는 표의 추출

Abstract

Keywords