• Title/Summary/Keyword: Harmful Web Document

Search Result 6, Processing Time 0.022 seconds

Detecting Harmful Web Documents Based on Web Document Analyses (웹 문서 분석에 근거한 유해 웹 문서 검출)

  • Kim, Kwang-Hyun;Choi, Joung-Mi;Lee, Joon-Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.5 s.101
    • /
    • pp.683-688
    • /
    • 2005
  • A huge amount of web documents, which are published on the Internet, provide to users not only helpful information but also harmful information such as pornography. In this paper we propose a method to detect the harmful web documents effectively. We first analyze harmful web documents, and extract factors to determine whether a given web document is harmful. Detail criteria are also described to assign a harmfulness score to each factor. Then the harmfulness score of a web document is computed by adding the harmfulness scores of all factors. If the harmfulness score of a web document is greater than a given threshold, the web document is detected as harmful. It is expected that this study could contribute to the protection of users from harmful web documents on the Internet.

Harmful Document Classification Using the Harmful Word Filtering and SVM (유해어 필터링과 SVM을 이용한 유해 문서 분류 시스템)

  • Lee, Won-Hee;Chung, Sung-Jong;An, Dong-Un
    • The KIPS Transactions:PartB
    • /
    • v.16B no.1
    • /
    • pp.85-92
    • /
    • 2009
  • As World Wide Web is more popularized nowadays, the environment is flooded with the information through the web pages. However, despite such convenience of web, it is also creating many problems due to uncontrolled flood of information. The pornographic, violent and other harmful information freely available to the youth, who must be protected by the society, or other users who lack the power of judgment or self-control is creating serious social problems. To resolve those harmful words, various methods proposed and studied. This paper proposes and implements the protecting system that it protects internet youth user from harmful contents. To classify effective harmful/harmless contents, this system uses two step classification systems that is harmful word filtering and SVM learning based filtering. We achieved result that the average precision of 92.1%.

An Inappropriate Web_ Images Blocking System Based_on Strong Paternalism (강한 간섭주의를 기반한 유해 영상 정보 노출 차단 시스템)

  • 이재현
    • Journal of the Korea Society of Computer and Information
    • /
    • v.6 no.4
    • /
    • pp.51-59
    • /
    • 2001
  • As internet activates, web sites that supply images harmful to the emotion of youth are overflowing rapidly. Chances that the youth approach to the harmful sites are increasing, and then the emotion of youth is damaged seriously. In this paper, we present the system that distinguish harmful ones from images in the web documents of user-accessed URLs and output the document after blocking images harmful to the youth. As the results of the experiments about performance of the web-images blocking system, we found the utility factor of blocking harmful images of the proposed system is 89.6% in the full nudity 70.1% in the half nudity, and the error rate is 2.4% in the face images.

  • PDF

Page Group Search Model : A New Internet Search Model for Illegal and Harmful Content (페이지 그룹 검색 그룹 모델 : 음란성 유해 정보 색출 시스템을 위한 인터넷 정보 검색 모델)

  • Yuk, Hyeon-Gyu;Yu, Byeong-Jeon;Park, Myeong-Sun
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.12
    • /
    • pp.1516-1528
    • /
    • 1999
  • 월드 와이드 웹(World Wide Web)에 존재하는 음란성 유해 정보는 많은 국가에서 사회적인 문제를 일으키고 있다. 그러나 현재 음란성 유해 정보로부터 미성년자를 보호하는 실효성 있는 방법은 유해 정보 접근 차단 프로그램을 사용하는 방법뿐이다. 유해 정보 접근 차단 프로그램은 기본적으로 음란성 유해 정보를 포함한 유해 정보 주소 목록을 기반으로 사용자의 유해 정보에 대한 접근을 차단하는 방식으로 동작한다.그런데 대규모 유해 정보 주소 목록의 확보를 위해서는 월드 와이드 웹으로부터 음란성 유해 정보를 자동 색출하는 인터넷 정보 검색 시스템의 일종인 음란성 유해 정보 색출 시스템이 필요하다. 그런데 음란성 유해 정보 색출 시스템은 그 대상이 사람이 아닌 유해 정보 접근 차단 프로그램이기 때문에 일반 인터넷 정보 검색 시스템과는 달리, 대단히 높은 검색 정확성을 유지해야 하고, 유해 정보 접근 차단 프로그램에서 관리가 용이한 검색 목록을 생성해야 하는 요구 사항을 가진다.본 논문에서는 기존 인터넷 정보 검색 모델이 "문헌"에 대한 잘못된 가정 때문에 위 요구사항을 만족시키지 못하고 있음을 지적하고, 월드 와이드 웹 상의 문헌에 대한 새로운 정의와 이를 기반으로 위의 요구사항을 만족하는 검색 모델인 페이지 그룹 검색 모델을 제안한다. 또한 다양한 실험과 분석을 통해 제안하는 모델이 기존 인터넷 정보 검색 모델보다 높은 정확성과 빠른 검색 속도, 그리고 유해 정보 접근 차단 프로그램에서의 관리가 용이한 검색 목록을 생성함을 보인다.Abstract Illegal and Harmful Content on the Internet, especially content for adults causes a social problem in many countries. To protect children from harmful content, A filtering software, which blocks user's access to harmful content based on a blocking list, and harmful content search system, which is a special purpose internet search system to generate the blocking list, are necessary. We found that current internet search models do not satisfy the requirements of the harmful content search system: high accuracy in document analysis, fast search time, and low overhead in the filtering software.In this paper we point out these problems are caused by a mistake in a document definition of the current internet models and propose a new internet search model, Page Group Search Model. This model considers a document as a set of pages that are made for one subject. We suggest a Group Construction algorithm and a Group Evaluation algorithm. And we perform experiments to prove that Page Group Search Model satisfies the requirements.uirements.

Harmful Web-document Filtering using Harmful word Co-occurrence (유해어의 공기정보를 활용한 유해 웹문서 필터링)

  • An, Hyung-Keun;Lee, Won-Hee;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.7-10
    • /
    • 2006
  • 웹 환경이 일반화되고 웹을 통해 획득할 수 있는 정보가 다양하고 풍부하다. 이 다양하고 풍부한 정보는 유익한 정보 뿐만 아니라 청소년들을 비롯한 사회적으로 보호를 받아야 할 웹 이용자들의 정신건강을 해치는 정보들도 다수 포함되고 있어 사회적 문제가 되고 있다. 본 연구에서는 웹 문서를 필터링하는 수단으로 공기정보를 포함하고 있는 유해어 사전을 활용한다. 유해어 사전 구축은 단순히 유해어 리스트만으로 사전을 구축하지 않고, 유해어 주위의 공기 단어의 정보를 포함시킴으로써 유해어의 중의성에 의한 오분류를 해소하고자 하였다. 즉, 유해어 후보가 1개 이상의 의미를 가지며 각 의미가 유해 정도가 다를 때, 유해어 후보의 등급을 결정하기 위하여 해당 유해어와 같은 문장 혹은 같은 문서에 출현하는 다른 단어 정보를 활용한다. 이렇게 함으로써 문서의 유해 등급을 결정하게 된다.

  • PDF

A Study on Spam Document Classification Method using Characteristics of Keyword Repetition (단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구)

  • Lee, Seong-Jin;Baik, Jong-Bum;Han, Chung-Seok;Lee, Soo-Won
    • The KIPS Transactions:PartB
    • /
    • v.18B no.5
    • /
    • pp.315-324
    • /
    • 2011
  • In Web environment, a flood of spam causes serious social problems such as personal information leak, monetary loss from fishing and distribution of harmful contents. Moreover, types and techniques of spam distribution which must be controlled are varying as days go by. The learning based spam classification method using Bag-of-Words model is the most widely used method until now. However, this method is vulnerable to anti-spam avoidance techniques, which recent spams commonly have, because it classifies spam documents utilizing only keyword occurrence information from classification model training process. In this paper, we propose a spam document detection method using a characteristic of repeating words occurring in spam documents as a solution of anti-spam avoidance techniques. Recently, most spam documents have a trend of repeating key phrases that are designed to spread, and this trend can be used as a measure in classifying spam documents. In this paper, we define six variables, which represent a characteristic of word repetition, and use those variables as a feature set for constructing a classification model. The effectiveness of proposed method is evaluated by an experiment with blog posts and E-mail data. The result of experiment shows that the proposed method outperforms other approaches.