Detecting Harmful Web Documents Based on Web Document Analyses

웹 문서 분석에 근거한 유해 웹 문서 검출

  • 김광현 (숭실대학교 대학원 컴퓨터학과) ;
  • 최정미 (숭실대학교 대학원 컴퓨터학과) ;
  • 이준호 (숭실대학교 컴퓨터학부)
  • Published : 2005.10.01


A huge amount of web documents, which are published on the Internet, provide to users not only helpful information but also harmful information such as pornography. In this paper we propose a method to detect the harmful web documents effectively. We first analyze harmful web documents, and extract factors to determine whether a given web document is harmful. Detail criteria are also described to assign a harmfulness score to each factor. Then the harmfulness score of a web document is computed by adding the harmfulness scores of all factors. If the harmfulness score of a web document is greater than a given threshold, the web document is detected as harmful. It is expected that this study could contribute to the protection of users from harmful web documents on the Internet.

인터넷에 공개된 수 많은 웹 문서들에는 유익한 정보를 제공하는 웹 문서들뿐만 아니라, 음란 정보와 관련된 불건전한 유해 웹 문서들이 다수 포함되어 있으며, 본 연구에서는 이러한 유해 웹 문서들을 효과적으로 검출할 수 있는 방법을 제안한다. 즉, 유해 웹 문서들의 분석을 통하여 유해 웹 문서 선정을 위한 평가 항목들을 도출하고, 각 평가 항목별 유해 점수 부여를 위한 평가 기준을 제시한다. 그리고, 유해 점수들의 총합이 임계값 이상인 웹 문서를 유해 웹 문서로 검출한다. 본 연구의 결과는 유해 웹 문서들로부터 이용자를 보호하고 인터넷 사용의 안전성을 향상시키는데 기여할 것으로 기대된다.



  1. 조동욱, 최병갑, 김지영, '음란 유해 사이트에 대한 현황과 신호 처리에 기반한 차단 방법의 제안',한국정보처리학회 추계학술대회, 제10권, 제2호, 2003
  2. 정보통신윤리위원회,
  3. 인터넷내용등급서비스,
  4. 한국정보보호진흥원, '2003년 개인 인터넷 이용자의 정보화 역기능 실태 조사 보고서', 2003
  5. 김광현, 이준호, '웹 로봇의 성능 평가를 위한 방법론', 정보처리학회논문지D, 제11-D권, 제3호, 2004
  6. Google, SafeSearch Filtering,
  7. Yahoo, SafeSearch Filter,
  8. 육현규, 유병전, 박명순, '페이지 그룹 검색 모델: 음란성 유해 정보 색출 시스템을 위한 인터넷 정보 검색 모델', 정보과학회 논문지, 제26권, 제12호, 1999
  9. 심재권, 김귀복, 박기홍, '유해 정보의 경향과 유해 정보 차단 소프트웨어의 문제점에 관한 연구', 한국정보과학회 가을학술발표논문집, 제27권, 제2호, 2000
  10. 김성운, 김인홍, 강현석, '유해 정보 차단을 위한 데이터 관리 에이전트들의 설계 및 구현,' 한국정보처리학회 추계학술발표 논문집, 제6권, 제2호, 1999
  11. 정희, 이은애, 이우선, 정성환, 하석운, '청소년 유해 사이트 검색 및 차단을 위한 검색 시스템의 설계와 구현,' 한국멀티미디어학회 추계학술발표논문집, 제2권, 제2호, 1999
  12. 이은애, 정명숙, 김재건, 하석운, '웹 문서의 내용등급화 알고리즘에 관한 연구,' 한국정보처리학회 춘계학술발표논문집, 제6권 제1호, 1999
  13. 이승만, 장영헌, 임정환, '형태소 분석과 Skin Color 분포의 Human Detection 알고리즘을 이용한 유해 사이트 자동 분류 시스템의 구현,' 한국정보과학회 춘계학술대회, 제31권, 제1호, 2004
  14. Ricardo Baeza Yates, and Berthier Ribero Neto, Modern Information Retrieval, Addison Wesley Longman, 1999
  15. Bill Hunt, 'What, Exactly, is Search Engine Spam,'
  16. Search Engine Secrets.Net, 'What is Search Engine Spam,' http://www.searchenginesecrets.netisearclLengine_spam.htm
  17. S. Brin and L. Page, 'The Anatomy of a Large Scale Hypertextual Web Search Engine,' In Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia, 1998
  18. L. Page, S, Brin, R. Motwani, and T. Winograd, 'The Pagerank Citation Ranking: Bringing Order to the Web,' Technical report, Stanford University Database Group, 1998
  19. Mitchell, T. M., Machine Learning, Chapter 6: Bayesian Learing, McGraw Hill, 1997
  20. A. Berger, S. D. Pietra, and V. D. Pietra, 'A Maximum Entropy Approach to Natural Language Processing,' Computational Linguistics, 1996
  21. Joachims, T, 'Text Categorization with Support Vector Machines: Learning with Many Relevant Features,' European Conference on Machine Learing, 1998