• 제목/요약/키워드: 스팸 필터

검색결과 94건 처리시간 0.04초

Multimedia Message Service(MMS)상에서 전송되는 스팸이미지 필터링 시스템 (Multimedia Message Service(MMS) Spam Image Filtering System)

  • 박영만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.933-935
    • /
    • 2014
  • 휴대전화 사용의 대중화로 인하여 개개인의 휴대전화로 수신되는 스팸메시지의 양도 덩달아 증가하게 되었다. 이것은 휴대전화 사용자가 불법광고 노출의 원인이 되고 있다. 이에 많은 스팸메시지 차단기법이 제시되었지만 이는 텍스트기반의 문자메시지에 특화되어있어 문자가 포함되어있는 이미지스팸에는 차단이 어렵다는 문제점이 존재 한다. 이에 본 논문에서는 휴대전화로 오는 이미지메시지 중 스팸이미지를 검출해 내는 모바일 스팸이미지 필터링 시스템을 제시하고자 한다. 제시하고자 하는 시스템은 스팸이미지를 분석하여 이미지의 패턴을 검사하여 특정 패턴이 포함된 이미지에 대해서 스팸이미지로 분류하여 필터링하게 됨으로써, 실제 휴대전화로 수신되는 스팸이미지를 이용한 실험을 진행하였다. 그 결과 기존 텍스트기반 스팸필터링시스템에서 할 수 없었던 스팸이미지 필터링을 할 수 있음을 확인 하였다.

본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 (A Comment Spam Filter System based on Inverse Chi-Square Using of Co-occurrence Feature Between Comment and Blog Post)

  • 전희원;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-127
    • /
    • 2007
  • 최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다. 일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다. 본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.

  • PDF

한국어와 영어 스팸메일의 필터링 성능 분석 (Analysis of filtering performance of Korean and English spam-mails)

  • 황운호;강신재;김태희;김희재;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2006년도 춘계 국제학술대회 논문집
    • /
    • pp.389-396
    • /
    • 2006
  • 본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

  • PDF

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

문장유사도 측정 기법을 통한 스팸 필터링 시스템 구현 (Implementation of a Spam Message Filtering System using Sentence Similarity Measurements)

  • 우수빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.57-64
    • /
    • 2017
  • 문자 메시지는 휴대폰을 사용하는 사람들에게 중요한 의사소통의 방법 중 하나이다. 또한 친구맺기 방식이 필요 없이 사용이 가능하기 때문에 이를 악용한 불법 광고 스팸메시지가 기승을 부리고 있다. 최근 스팸 필터링을 위해 기계 학습을 이용한 시스템들이 등장 하였지만 많은 계산을 필요로 하는 단점이 있다. 본 논문에서는 검색할 쿼리를 입력할 때 부정확한 쿼리를 입력하더라도 저장된 데이터베이스와 비교하여 가장 비슷한 단어를 차수 개념을 적용하여 유추하는 집합 기반 POI(Point of Interest) 검색 알고리즘을 이용하여 스팸 필터링 시스템을 구현하였다. 이 알고리즘을 적용하면 서버 컴퓨팅 없이 문자의 조합만을 이용해 쿼리를 유추할 수 있기 때문에 스팸 필터링에 적용하여 입력된 문자메시지가 교묘하게 변형되더라도 스팸이라고 필터링이 가능하다. 또한 문장 유사도 측정 기법을 활용하여 스팸 필터링 성능을 향상시켰으며, 스팸 필터링에 취약한 특정 유형도 걸러내기 위해 특정 전처리 과정을 지원함으로써 대부분의 스팸메세지를 필터링 가능하도록 하였다. 기존 집합기반 POI 검색 알고리즘과 이를 확장 시킨 문장 유사도 측정 기법, 특정 전처리 과정을 추가한 시스템으로 필터링 시스템의 성능평가를 진행하였다. 그 결과 본 논문에서 구현한 시스템이 기존 집합기반 POI 알고리즘과 비교하여 향상된 스팸 필터링 성능을 보여주는 것을 확인하였다. 또한 이동통신사 3사에서 필터링에 취약한 유형이 본 논문에서 구현한 시스템으로 높은 성능으로 필터링이 가능하다는 것을 확인하였다.

듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법 (Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

신경망과 운전자 알고리즘을 이용한 스팸 메일 필터링 기법에 구현과 성능평가 (Implementation and Experimental Results of Neural Network and Genetic Algorithm based Spam Filtering Technique)

  • 김범배;최형기
    • 정보처리학회논문지C
    • /
    • 제13C권2호
    • /
    • pp.259-266
    • /
    • 2006
  • 스팸 메일의 양의 급증함에 따라, 다양한 스팸 메일 필터링 기법이 제시되고 있다. 이런 필터링 기법 가운데, 학습 기반 필터링 기법은 현재 가장 보편화된 필터링 기법 가운데 하나이다. 본고에서는 신경망과, 유전자알고리즘, 카이제곱통계를 이용한 학습 기반 필터링 기법을 제시한다. 제안된 필터링 기법은 기존 필터링 기법의 문제를 해결하고, 스팸 메일 필터링에 높은 정확도를 제공할 수 있다 제안된 필터링 기법은 스팸메일 필터링 정확도와 정상 메일 필터링 정확도에서 각각 95.25%와 95.31%의 높은 정확도를 보인다. 이런 실험 결과는 기존의 규칙 기반 필터링 기법과 베이지안 필터링 기법에 비해 각각 7%, 12% 이상 높은 수치이다.