Page Group Search Model : A New Internet Search Model for Illegal and Harmful Content

페이지 그룹 검색 그룹 모델 : 음란성 유해 정보 색출 시스템을 위한 인터넷 정보 검색 모델

  • 육현규 (고려대학교 기초과학연구소) ;
  • 유병전 (고려대학교 통신시스템기술학과) ;
  • 박명순 (고려대학교 컴퓨터학과)
  • Published : 1999.12.01

Abstract

월드 와이드 웹(World Wide Web)에 존재하는 음란성 유해 정보는 많은 국가에서 사회적인 문제를 일으키고 있다. 그러나 현재 음란성 유해 정보로부터 미성년자를 보호하는 실효성 있는 방법은 유해 정보 접근 차단 프로그램을 사용하는 방법뿐이다. 유해 정보 접근 차단 프로그램은 기본적으로 음란성 유해 정보를 포함한 유해 정보 주소 목록을 기반으로 사용자의 유해 정보에 대한 접근을 차단하는 방식으로 동작한다.그런데 대규모 유해 정보 주소 목록의 확보를 위해서는 월드 와이드 웹으로부터 음란성 유해 정보를 자동 색출하는 인터넷 정보 검색 시스템의 일종인 음란성 유해 정보 색출 시스템이 필요하다. 그런데 음란성 유해 정보 색출 시스템은 그 대상이 사람이 아닌 유해 정보 접근 차단 프로그램이기 때문에 일반 인터넷 정보 검색 시스템과는 달리, 대단히 높은 검색 정확성을 유지해야 하고, 유해 정보 접근 차단 프로그램에서 관리가 용이한 검색 목록을 생성해야 하는 요구 사항을 가진다.본 논문에서는 기존 인터넷 정보 검색 모델이 "문헌"에 대한 잘못된 가정 때문에 위 요구사항을 만족시키지 못하고 있음을 지적하고, 월드 와이드 웹 상의 문헌에 대한 새로운 정의와 이를 기반으로 위의 요구사항을 만족하는 검색 모델인 페이지 그룹 검색 모델을 제안한다. 또한 다양한 실험과 분석을 통해 제안하는 모델이 기존 인터넷 정보 검색 모델보다 높은 정확성과 빠른 검색 속도, 그리고 유해 정보 접근 차단 프로그램에서의 관리가 용이한 검색 목록을 생성함을 보인다.Abstract Illegal and Harmful Content on the Internet, especially content for adults causes a social problem in many countries. To protect children from harmful content, A filtering software, which blocks user's access to harmful content based on a blocking list, and harmful content search system, which is a special purpose internet search system to generate the blocking list, are necessary. We found that current internet search models do not satisfy the requirements of the harmful content search system: high accuracy in document analysis, fast search time, and low overhead in the filtering software.In this paper we point out these problems are caused by a mistake in a document definition of the current internet models and propose a new internet search model, Page Group Search Model. This model considers a document as a set of pages that are made for one subject. We suggest a Group Construction algorithm and a Group Evaluation algorithm. And we perform experiments to prove that Page Group Search Model satisfies the requirements.uirements.

Keywords