Abstract
Users are able to search and read interesting items and hence click hyperlink linked to the item which is detailed content unit such as menu, login, news, video, etc. Small screen like mobile device is very difficult to viewing all web contents at once. Browsing and searching for interesting items by scrolling to left and right or up and down is discomfort to users in small screen. Searching and displaying directly the item preferred by users can reduces difficulty of interface manipulation of mobile device. To archive it, web contents based on desktop will be segmented on a per-item basis which component unit of web contents. Most segment algorithms are based on segment method through analysis of HTML code or mobile size. However, it is difficult to extract item blocks. Because present web content is getting more complicated and diversified in structure and content like web portal services. A web content segment algorithm suggested in this paper is based on extracting item blocks is component units of web contents.
사용자들은 웹 콘텐츠의 세부 내용단위인 메뉴, 로그인, 뉴스, 동영상 등 다양한 아이템에서 자신이 홍미있는 아이템을 찾아 읽고 아이템에 연결된 하이퍼렁크를 클릭한다. 모바일 디바이스처럼 작은 스크린에서는 데스크탑 기반의 웹 콘텐츠를 동시에 보여주기 힘들어 사용자는 좌우 또는 상하 스크롤링을 통해 아이템을 찾아 헤매는 검색의 불편함이 발생한다. 사용자가 자주 사용하거나 또는 원하는 아이템을 찾아 먼저 표현하여 모바일 인터페이스 조작의 불편함을 감소시킬 수 있다. 그러기 위해 웹 콘텐츠는 세부 내용단위인 아이템 별로 세그먼트되어야 한다. 기존 대부분의 세그먼트 알고리즘들은 웹 콘텐츠의 HTML 코드와 모바일 사이즈에 기반하여 세그먼트하고 있어 다양한 아이템들이 구조적으로 더욱 복잡하게 형성되고 있는 현대의 웹 콘텐츠에서 내용 단위인 아이템 블록으로 세그먼트하는데 여러 어려움이 있다. 본 논문에서는 데스크탑 웹 콘텐츠에서 내용 단위에 기반한 아이템 블록 추출을 위한 세그먼트 알고리즘을 제안한다.