A Harmful Site Judgement Technique based on Text

문자 기반 유해사이트 판별 기법

  • 정규철 (군산대학교 컴퓨터정보과학과) ;
  • 이진관 (군산대학교 컴퓨터정보과학과) ;
  • 이태헌 (군산대학교 컴퓨터정보과학과) ;
  • 박기홍 (군산대학교 컴퓨터정보과학과)
  • Received : 2004.05.11
  • Accepted : 2004.08.25
  • Published : 2004.09.30

Abstract

Through this research, it was possible to set up classification system between 'Harmful information site' and 'General site' that badly effect to teenagers emotional health. To intercept those entire harmful information sites, it using contents basis isolating. Instead of using existing methods, it picks most frequent using composed key words and adds all those harmful words' harmfulness degree point by using 'ICEC(Information Communication Ethics Committee)' suggested harmful word classification. To testify harmful information blocking system, to classify the harmful information site, set standard harmfulness degree point as 3.5 by the result of a fore study, after that pick up a hundred of each 'Harmful information site' and 'General site' randomly to classify them through new classification system. By this classification could found this new classification system classified 78% of 'Harmful Site' to "Harmful information site' and 96% of 'General Site' to 'General site'. As a result, successfully confirm validity of this new classification system.

본 논문에서 청소년들의 정신 건강을 해치는 유해 정보 사이트를 차단하기 위해 기존 방식이 아닌 내용 기반을 중심으로 하여 중요도가 가장 높은 한 개의 복합 키워드와 정보통신윤리 위원회에서 제시한 유해단어의 가중치를 이용하여 가중치 평균을 더해 유해도를 판단하여 유해 사이트와 일반 사이트를 구별하는 시스템을 구현하였다. 예비 실험을 통해 구해진 유해도의 값 3.5를 유해정보 사이트를 판단하는 기준으로 정한 다음 유해 정보 차단 시스템의 성능 실험을 위해 유해 정보 사이트와 일반 사이트를 각각 무작위로 100개씩 추출해 접속해 본 결과 유해 사이트를 유해 정보 사이트로 판명한 비율이 78%를 보였고 일반 사이트를 일반 사이트로 판명한 비율이 96%가 되어 본 시스템의 유효성을 확인 할 수가 있었다.

Keywords