• 제목/요약/키워드: URL 자질

검색결과 4건 처리시간 0.017초

스팸성 자질과 URL 자질의 공동 학습을 이용한 최대 엔트로피 기반 스팸메일 필터 시스템 (A Spam Filter System Based on Maximum Entropy Model Using Co-training with Spamminess Features and URL Features)

  • 공미경;이경순
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.61-68
    • /
    • 2008
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질의 공동 학습을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 URL도 자질로 사용하였다. 메일에 나타난 정상적인 URL과 필터 시스템을 피하기 위해 변형된 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL자질을 이용한 공동 학습을 하였다. 공동 학습은 학습 과정에서 두 자질을 독립적으로 이용한 비지도 학습 방법으로 정답을 모르는 문서를 이용할 수 있다는 장점을 갖는다. 실험을 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인하였으며 두 자질 집합을 이용한 공동 학습이 필요한 학습 문서의 수를 감소시키면서, 정확도는 일괄 학습 정확도에 근접한다는 것을 확인하였다.

스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸메일 필터 시스템 (A Spam Filter System based on Maximum Entropy Model Using Spamness Features and URL Features)

  • 공미경;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-219
    • /
    • 2006
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 Ink도 자질로 사용하였다. 메일 수신자에게 추가적인 정보 제공을 목적으로 하이퍼링크로 연결시키거나 메일에 직접 타이핑한 URL 중 필터 시스템을 피하기 위해 유효하지 알은 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL을 각각 적용한 두 분류기를 통합하였다. 분류기의 통합은 각 분류기에 이용된 자질을 독립적으로 사용할 수 있다는 장점을 가지고 있다. 실험 결과를 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인할 수 있었다.

  • PDF

스타일에 따른 웹 문서의 자동 분류 (Automatic Classification of Web documents According to their Styles)

  • 이공주;임철수;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.555-562
    • /
    • 2004
  • 스타일 또는 장르는 문서의 주제와는 다른 문서를 보는 또 하나의 관점이 될 수 있다. 그렇기 때문에 문서의 스타일은 문서 분류의 기준으로 사용될 수 있다. 문서의 스타일에 따른 자동 분류 시스템에 대한 여러 연구들이 수행되어 왔다. 그러나 이런 연구들의 대부분이 일반 문서를 대상으로 수행하였으며, 몇몇 일부의 연구만이 웹 문서를 대상으로 스타일 분류에 대한 연구를 수행하였다. 웹 문서는 일반 문서와는 달리 URL HTML을 갖고 있다. 본 연구에서는 이와 같은 URL과 HTML로부터 추출한 자질들을 웹 문서의 스타일 분류에 사용해 보고자 한다. 실험을 통해서 이와 같은 자질들이 웹 문서의 스타일 분류에 어떤 영향을 미치는지를 밝혀보고자 한다.

사용자 태그와 중심성 지수를 이용한 블로그 검색 성능 향상에 관한 연구 (Enhancing the Performance of Blog Retrieval by User Tagging and Social Network Analysis)

  • 김은희;정영미
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.61-77
    • /
    • 2010
  • 최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.