Abstract
A huge amount of web documents, which are published on the Internet, provide to users not only helpful information but also harmful information such as pornography. In this paper we propose a method to detect the harmful web documents effectively. We first analyze harmful web documents, and extract factors to determine whether a given web document is harmful. Detail criteria are also described to assign a harmfulness score to each factor. Then the harmfulness score of a web document is computed by adding the harmfulness scores of all factors. If the harmfulness score of a web document is greater than a given threshold, the web document is detected as harmful. It is expected that this study could contribute to the protection of users from harmful web documents on the Internet.
인터넷에 공개된 수 많은 웹 문서들에는 유익한 정보를 제공하는 웹 문서들뿐만 아니라, 음란 정보와 관련된 불건전한 유해 웹 문서들이 다수 포함되어 있으며, 본 연구에서는 이러한 유해 웹 문서들을 효과적으로 검출할 수 있는 방법을 제안한다. 즉, 유해 웹 문서들의 분석을 통하여 유해 웹 문서 선정을 위한 평가 항목들을 도출하고, 각 평가 항목별 유해 점수 부여를 위한 평가 기준을 제시한다. 그리고, 유해 점수들의 총합이 임계값 이상인 웹 문서를 유해 웹 문서로 검출한다. 본 연구의 결과는 유해 웹 문서들로부터 이용자를 보호하고 인터넷 사용의 안전성을 향상시키는데 기여할 것으로 기대된다.