DOI QR코드

DOI QR Code

등급에 따른 웹 유해 문서 분류 기술

A Distinction Technology for Harmful Web Documents by Rates

  • 김영수 (한국전자통신연구원 정보보호연구단) ;
  • 남택용 (한국전자통신연구원 정보보호연구단 보안게이트웨이연구팀) ;
  • 원동호 (성균관대학교 정보통신공학부)
  • 발행 : 2006.12.31

초록

웹의 개방성은 사람들로 하여금 언제, 어디서든 손쉽게 유용한 정보를 획득할 수 있게끔 하였다. 하지만 인터넷은 유용한 정보의 손쉬운 활용이라는 순기능과 더불어 사회적으로 통제를 필요로 하는 유해한 정보 역시 인터넷을 이용하는 이용자들에게 무차별적으로 제공함으로써 역기능을 발생시키고 있다. 성인 컨텐츠 같은 정보들은 모든 사용자들, 특히 청소년들에게 악영향을 미칠 수 있다. 또한, 변태적인 성인 사이트들이 담고 있는 컨텐츠들은 성인들의 정신 건강에도 해를 미치게 된다. 한편, 인터넷은 전 세계적으로 연결된 개방망이므로 유해정보 제공자를 각국의 법적, 제도적 장치를 이용하여 규제하는데 한계가 있다. 또한, 유해 사이트, 유해성 스팸 메일, P2P 등 다양한 경로를 통해 유해 정보를 접할 수 있기 때문에, 어떤 시스템에 특화된 유해정보 분류기술을 개발하는 것은 바람직하지 않다. 따라서, 유해정보의 내용 자체에 기반하여 유해 여부를 자동으로 판별할 수 있는 유해정보 판별 핵심 기술의 연구 및 개발의 중요성이 점차 부각되고 있다. 이에 본 논문에서는 내용 기반 기술을 이용한 효율적인 유해 웹 문서 텍스트 판별 시스템을 제시한다.

The openness of the Web allows any user to access almost any type of information easily at any time and anywhere. However, with function of easy access for useful information, internet has dysfunctions of providing users with harmful contents indiscriminately. Some information, such as adult content, is not appropriate for all users, notably children. Additionally for adults, some contents included in abnormal porn sites can do ordinary people's mental health harm. In the meantime, since Internet is a worldwide open network it has a limit to regulate users providing harmful contents through each countrie's national laws or systems. Additionally it is not a desirable way of developing a certain system-specific classification technology for harmful contents, because internet users can contact with them in diverse way, for example, porn sites, harmful spams, or peer-to-peer networks, etc. Therefore, it is being emphasized to research and develop context-based core technologies for classifying harmful contents. In this paper, we propose an efficient text filter for blocking harmful texts of web documents using context-based technologies.

키워드

참고문헌

  1. Y.Yang and J.O.Pederson, A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML'97), pp.412-420, 1997
  2. W.Frakes and R.Baeza-Yates, Information Retrieval: Data Structures and Algorithms, Chapter7, Prentice-Hall, 1992
  3. M.Shin and C.Park, A Radial Basis Function Approach to Pattern Recognition and its Applications, ETRI Journal, Vol.22, No.2, pp.1-10, 2000 https://doi.org/10.4218/etrij.00.0100.0201
  4. T.Joachims, Estimating the Generalization Performance of a SVM Efficiently, Proceedings of the International Conference on Machine Learning, 2000
  5. G.Siolas, Support Vector Machines based on a semantic kernel for text categorization, IJCNN 2000, Vol.5, pp.205-209, 2000 https://doi.org/10.1109/IJCNN.2000.861458
  6. 시소러스, http://www.minjung.net/bbs/zboard.php?id=hk221a&page=1&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=asc&no=294&PHPSESSID=91520360f59f5ba41270dc082eaf5b21
  7. 강승식, 한국어 형태소 분석과 정보 검색, 홍릉과학출판사, 2002