퍼지추론을 적용한 웹 음란문서 검출

Detection of Porno Sites on the Web using Fuzzy Inference

  • 김병만 (금오공과대학교 컴퓨터공학부) ;
  • 최상필 (케이티프리텔 통신망관리팀) ;
  • 노순억 (금오공과대학교 컴퓨터공학부) ;
  • 김종완 (대구대학교 컴퓨터정보공학부)
  • 발행 : 2001.10.01

초록

본 논문은 인터넷 상에서 무수히 많은 음란 문서를 검출하는 방법을 제시한다. 제시된 방법은 정보검색 기술에 퍼지추론을 적용시킨 것이다. 먼저 음란 사이트 주소를 몇 개 선정하고 이 문서들로부터 어휘분석과 스테밍과정을 통하여 음란 사이트를 대표하는 후보단어들을 추출한다. 추출된 후보단어가 음란문서를 대표할 중요도를 계산하기 위해, 각 후보 단어별로 용어 빈도수(DF), 휴리스틱 정보(HI)를 계산하고 이 값들을 이용하여 퍼지추론을 수행한다. 이렇게 계산 된 후보용어의 중요도들이 주어진 사이트가 음란사이트인지 아닌지를 판별하는데 최종적으로 사용된다. 소규모 테스트 데이터를 갖고 실험한 결과, 본 논문에서 제시한 방법이 음란 사이트 자동 검출시 유용함을 알 수 있었다.

A method to detect lots of porno documents on the internet is presented in this parer. The proposed method applies fuzzy inference mechanism to the conventional information retrieval techniques. First, several example sites on porno arc provided by users and then candidate words representing for porno documents are extracted from theme documents. In this process, lexical analysis and stemming are performed. Then, several values such as tole term frequency(TF), the document frequency(DF), and the Heuristic Information(HI) Is computed for each candidate word. Finally, fuzzy inference is performed with the above three values to weight candidate words. The weights of candidate words arc used to determine whether a liven site is sexual or not. From experiments on small test collection, the proposed method was shown useful to detect the sexual sites automatically.

키워드

참고문헌

  1. Technical Report CS-96-111 An Information Gathering Agent for Querying Web Search Engines Daniel D;Adele E. H
  2. 정보과학회지 v.16 no.8 인터넷 정보검색 서비스 동향 신봉기
  3. Proc. of SIGMOD 97 STARTS: Stanford Proposal for Internet Meta-Searching Gravano, L.(et al.)
  4. Visual C++ Programming Bible(Ver 6) 이상엽
  5. Information Retrieval : Data Structures & Algorithms William B. Frakes;Ricardo Baeza-Yates
  6. INLS161 Final Project Nice Stemmer Kiduk Yang;Denqi Song;Wooseob Jeoung;Rong Tang
  7. J. Documentation v.28 no.1 A Statistical Interpretation of Term Specificity and Its Application in Retrieval Sparck Jones, K.
  8. 제6회 한글 및 한국어정보처리학술대회 한국어 정보 검색 연구를 위한 시험용 데이터 모음 (KTSET) 김재군(외 2인)
  9. 퍼지 이론 및 응용 Ⅱ권: 응용, (개정 4쇄) 이광형;오길록
  10. Visual C++ 6 완벽 가이드 김용성
  11. Proc. of IEEE Int. Conf. on Multimeia Computing and Systems Supporting content-based queries over images in MARS S. Mehrotra;Young Rui;M. Ortega-B.;T. S. Huang