Browse > Article
http://dx.doi.org/10.3745/KIPSTD.2005.12D.5.683

Detecting Harmful Web Documents Based on Web Document Analyses  

Kim, Kwang-Hyun (숭실대학교 대학원 컴퓨터학과)
Choi, Joung-Mi (숭실대학교 대학원 컴퓨터학과)
Lee, Joon-Ho (숭실대학교 컴퓨터학부)
Abstract
A huge amount of web documents, which are published on the Internet, provide to users not only helpful information but also harmful information such as pornography. In this paper we propose a method to detect the harmful web documents effectively. We first analyze harmful web documents, and extract factors to determine whether a given web document is harmful. Detail criteria are also described to assign a harmfulness score to each factor. Then the harmfulness score of a web document is computed by adding the harmfulness scores of all factors. If the harmfulness score of a web document is greater than a given threshold, the web document is detected as harmful. It is expected that this study could contribute to the protection of users from harmful web documents on the Internet.
Keywords
Information Retrieval; Filtering; Harmful Web Document;
Citations & Related Records
Times Cited By KSCI : 1  (Citation Analysis)
연도 인용수 순위
1 조동욱, 최병갑, 김지영, '음란 유해 사이트에 대한 현황과 신호 처리에 기반한 차단 방법의 제안',한국정보처리학회 추계학술대회, 제10권, 제2호, 2003
2 정보통신윤리위원회, http://www.icec.or.kr
3 인터넷내용등급서비스, http://www.safenet.ne.kr
4 한국정보보호진흥원, '2003년 개인 인터넷 이용자의 정보화 역기능 실태 조사 보고서', 2003
5 김광현, 이준호, '웹 로봇의 성능 평가를 위한 방법론', 정보처리학회논문지D, 제11-D권, 제3호, 2004   과학기술학회마을
6 L. Page, S, Brin, R. Motwani, and T. Winograd, 'The Pagerank Citation Ranking: Bringing Order to the Web,' Technical report, Stanford University Database Group, 1998
7 Mitchell, T. M., Machine Learning, Chapter 6: Bayesian Learing, McGraw Hill, 1997
8 Ricardo Baeza Yates, and Berthier Ribero Neto, Modern Information Retrieval, Addison Wesley Longman, 1999
9 Bill Hunt, 'What, Exactly, is Search Engine Spam,' http://searchenginewatch.com/searchday/article.php/3483601
10 정희, 이은애, 이우선, 정성환, 하석운, '청소년 유해 사이트 검색 및 차단을 위한 검색 시스템의 설계와 구현,' 한국멀티미디어학회 추계학술발표논문집, 제2권, 제2호, 1999
11 심재권, 김귀복, 박기홍, '유해 정보의 경향과 유해 정보 차단 소프트웨어의 문제점에 관한 연구', 한국정보과학회 가을학술발표논문집, 제27권, 제2호, 2000
12 Search Engine Secrets.Net, 'What is Search Engine Spam,' http://www.searchenginesecrets.netisearclLengine_spam.htm
13 이은애, 정명숙, 김재건, 하석운, '웹 문서의 내용등급화 알고리즘에 관한 연구,' 한국정보처리학회 춘계학술발표논문집, 제6권 제1호, 1999
14 이승만, 장영헌, 임정환, '형태소 분석과 Skin Color 분포의 Human Detection 알고리즘을 이용한 유해 사이트 자동 분류 시스템의 구현,' 한국정보과학회 춘계학술대회, 제31권, 제1호, 2004
15 김성운, 김인홍, 강현석, '유해 정보 차단을 위한 데이터 관리 에이전트들의 설계 및 구현,' 한국정보처리학회 추계학술발표 논문집, 제6권, 제2호, 1999
16 Google, SafeSearch Filtering, http://www.google.com/help/customize.html#safe
17 Yahoo, SafeSearch Filter, http://search.yahoo.com/search/preferences
18 육현규, 유병전, 박명순, '페이지 그룹 검색 모델: 음란성 유해 정보 색출 시스템을 위한 인터넷 정보 검색 모델', 정보과학회 논문지, 제26권, 제12호, 1999
19 Joachims, T, 'Text Categorization with Support Vector Machines: Learning with Many Relevant Features,' European Conference on Machine Learing, 1998
20 A. Berger, S. D. Pietra, and V. D. Pietra, 'A Maximum Entropy Approach to Natural Language Processing,' Computational Linguistics, 1996
21 S. Brin and L. Page, 'The Anatomy of a Large Scale Hypertextual Web Search Engine,' In Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia, 1998