Extraction of Meaningful Tables from The Web Documents

Jung, Sung-Won;Lee, Won-Hee;Kim, Young-Gi;Kwon, Hyuck-Chul;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
/
Pages.332-339
/
2002
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

웹 문서 중 의미 있는 표의 추출

Extraction of Meaningful Tables from The Web Documents

정성원 (부산대학교 전자계산학과) ;
이원희 (부산대학교 전자계산학과) ;
김영기 (부산대학교 전자계산학과) ;
권혁철 (부산대학교 전자계산학과)

Jung, Sung-Won (Dept. of Computer Science, Busan National University) ;
Lee, Won-Hee (Dept. of Computer Science, Busan National University) ;
Kim, Young-Gi (Dept. of Computer Science, Busan National University) ;
Kwon, Hyuck-Chul (Dept. of Computer Science, Busan National University)

발행 : 2002.10.11

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

현재까지 정보 검색 시스템은 색인어 위주로써 문서의 구조적 정보를 고려하지 알았다. 글자의 크기나 글자체, 들여 쓰기, 표 등은 저자의 의도를 구체화하며, 문서를 명확하게 하는 주요한 수단이다. 이 연구에서는 특히 표에 주목한다. 표는 많은 문서에 일반적으로 쓰이며, 글을 명확하게 해 준다. 일반 문서에 비해서 웹 문서는 태그를 이용하여 정보를 추가할 수 있어 표를 쉽게 구분할 수 있다. 하지만, 웹 상의 표는 지식을 구조화하는 근본적인 목적이외에, 단순히 화면을 정렬하려고 하는 목적으로도 많이 쓰인다. 이 연구에서는 정보 검색시스템에 표 정보를 사용하기 위한 전처리 단계로 의미 있는 표를 추출하는 방법을 제시하며, 이를 위하여 결정 트리를 사용한다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

웹 문서 중 의미 있는 표의 추출

Extraction of Meaningful Tables from The Web Documents

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)