• 제목/요약/키워드: 스팸 문자 메시지

검색결과 16건 처리시간 0.022초

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

문장 벡터와 전방향 신경망을 이용한 스팸 문자 필터링 (Spam Text Filtering by Using Sen2Vec and Feedforward Neural Network)

  • 이현영;강승식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.255-259
    • /
    • 2017
  • 스팸 문자 메시지를 표현하는 한국어의 단어 구성이나 패턴은 점점 더 지능화되고 다양해지고 있다. 본 논문에서는 이러한 한국어 문자 메시지에 대해 단어 임베딩 기법으로 문장 벡터를 구성하여 인공신경망의 일종인 전방향 신경망(Feedforward Neural Network)을 이용한 스팸 문자 메시지 필터링 방법을 제안한다. 전방향 신경망을 이용한 방법의 성능을 평가하기 위하여 기존의 스팸 문자 메시지 필터링에 보편적으로 사용되고 있는 SVM light를 이용한 스팸 문자 메시지 필터링의 정확도를 비교하였다. 학습 및 성능 평가를 위하여 약 10만 개의 SMS 문자 데이터로 학습을 진행하였고, 약 1만 개의 실험 데이터에 대하여 스팸 문자 필터링의 정확도를 평가하였다.

  • PDF

휴대폰의 스팸문자메시지 판별 시스템 (A Spam Message Filter System for Mobile Environment)

  • 이성욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.194-196
    • /
    • 2010
  • 휴대폰의 광범위한 보급으로 문자메시지의 사용이 급증하고 있다. 이와 동시에 사용자가 원하지 않는 광고성 스팸문자도 넘쳐나고 있다. 본 연구는 이러한 스팸문자메시지를 자동으로 판별하는 시스템을 개발하는 것이다. 우리는 기계학습방법인 지지벡터기계(Support Vector Machine)을 사용하여 시스템을 학습하였으며 자질의 선택은 카이제곱 통계량을 이용하였다. 실험결과 F1 척도로 약 95.5%의 정확률을 얻었다

  • PDF

집합 기반 POI 검색 알고리즘을 활용한 스팸 메시지 판별 모바일 앱 구현 (Implementation of A Mobile Application for Spam SMS Filtering Using Set-Based POI Search Algorithm)

  • 안혜영;조완지;이종우
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권5호
    • /
    • pp.815-822
    • /
    • 2015
  • 최근 스미싱 피해가 늘어남에 따라 스팸 메시지 처리를 위한 애플리케이션이 잇달아 출시되고 있다. 그러나 자음과 모음을 분리하는 등 교묘하게 내용이 조작된 스팸 메시지는 필터링하지 못 하는 경우가 대부분이다. 이를 해결하기 위해 본 논문에서는 문자 메시지 내 스팸 문자열을 검사하는 애플리케이션인 안티스팸을 구현하였다. 안티스팸은 집합 기반 POI 검색 알고리즘을 활용하여, 전송된 문자 메시지내에 스팸 문자열이 있는지 검색한 후, 검색 결과에 따라 스팸 여부를 추정한다. 또한 스팸 필터링을 피하기 위해 교묘히 위장된 스팸 메시지도 걸러준다. 사용자는 메시지를 받으면 스팸 판단 결과와 메시지 내용을 확인하고 메시지 처리방식을 선택할 수 있다.

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 (SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.24-29
    • /
    • 2018
  • 딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

Multimedia Message Service(MMS)상에서 전송되는 스팸이미지 필터링 시스템 (Multimedia Message Service(MMS) Spam Image Filtering System)

  • 박영만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.933-935
    • /
    • 2014
  • 휴대전화 사용의 대중화로 인하여 개개인의 휴대전화로 수신되는 스팸메시지의 양도 덩달아 증가하게 되었다. 이것은 휴대전화 사용자가 불법광고 노출의 원인이 되고 있다. 이에 많은 스팸메시지 차단기법이 제시되었지만 이는 텍스트기반의 문자메시지에 특화되어있어 문자가 포함되어있는 이미지스팸에는 차단이 어렵다는 문제점이 존재 한다. 이에 본 논문에서는 휴대전화로 오는 이미지메시지 중 스팸이미지를 검출해 내는 모바일 스팸이미지 필터링 시스템을 제시하고자 한다. 제시하고자 하는 시스템은 스팸이미지를 분석하여 이미지의 패턴을 검사하여 특정 패턴이 포함된 이미지에 대해서 스팸이미지로 분류하여 필터링하게 됨으로써, 실제 휴대전화로 수신되는 스팸이미지를 이용한 실험을 진행하였다. 그 결과 기존 텍스트기반 스팸필터링시스템에서 할 수 없었던 스팸이미지 필터링을 할 수 있음을 확인 하였다.

휴대폰 SMS를 위한 SVM 기반의 스팸 필터링 시스템 (A SVM-based Spam Filtering System for Short Message Service (SMS))

  • 조인휘;심혜택
    • 한국통신학회논문지
    • /
    • 제34권9B호
    • /
    • pp.908-913
    • /
    • 2009
  • 휴대 전화는 이제 우리의 일상생활에서 없어서는 안 될 중요한 가전 기기로 자리 잡았다. 이러는 와중에 휴대폰에서 사용하는 문자 메시지 사용량 역시 꾸준하게 증가하여 현재는 음성 통화 이용량의 1.5배에서 2배에 이르고 있다. 문자 메시지의 사용량이 증가함에 따라 스팸 문자 메시지도 따라서 증가하였는데 기존의 모바일 기기에서의 스팸 필터링 방식은 단순 문자열 비교나 특정 번호 차단과 같은 아주 기초적인 수준으로 스팸 메시지를 필터링하고 있는 실정이다. 본 논문에서는 SVM(Support Vector Machine)과 시소러스(thesaurus) 사전을 이용하여 좀 더 강력하고 적응적인 스팸 필터링 시스템을 제안하였다. 제안한 시스템은 샘플 문자 메시지로부터 전처리 기를 이용하여 문자 메시지 속에 담겨 있는 단어를 추출 한 후, 추출된 단어를 시소러스 사전을 이용하여 해당 의미가 가지는 대표 단어로 변경하였다. 변경된 단어들에서 카이 제곱 통계량을 계산하여 그 값이 높은 단어들을 특징 단어로 선정하였고 선정된 특징 단어들을 가지고 SVM 분류기로 학습을 진행하였다. 그 후 학습된 분류기를 이용하여 테스트 문자 메시지의 스팸 여부를 분류하였으며 평균 92%의 인식률을 보였다. 제안된 시스템은 PC에서 구현되어 있으며 실험을 통하여 그 성능을 확인하였다.

동시출현 단어분석 기반 스팸 문자 탐지 기법 (Coward Analysis based Spam SMS Detection Scheme)

  • 오하영
    • 정보보호학회논문지
    • /
    • 제26권3호
    • /
    • pp.693-700
    • /
    • 2016
  • 스팸 데이터 셋은 통상적으로 공개적으로 구하기 어렵고 기존 연구들은 대부분 스팸 이메일에 초점이 맞춰져 왔기 때문에 스팸 문자 메시지 자체 특성을 분석하는데 한계가 있었다. 스팸 이메일 특성 분석 활용 및 데이터 마이닝 기법 등의 활용을 통한 기존 연구들이 있었지만, 영향력이 높은 단일 단어를 활용한 스팸 문자 탐지 기법에 한정되어 있다는 한계점이 있다. 본 논문에서는 싱가폴 대학교에서 공개적으로 공개한 스팸 문자메시지를 다 각도에서 실험 및 분석하여 스팸 문자의 특성을 밝히고 동시출현 단어분석 기반의 스팸 문자 탐지 기법을 제안한다. 성능평가 결과, 제안하는 기법의 거짓 양성과 거짓 음성이 2%미만임을 보였다.

문자메시지의 특성을 고려한 한국어 모바일 스팸필터링 시스템 (Korean Mobile Spam Filtering System Considering Characteristics of Text Messages)

  • 손대능;이정태;이승욱;신중휘;임해창
    • 한국산학기술학회논문지
    • /
    • 제11권7호
    • /
    • pp.2595-2602
    • /
    • 2010
  • 본 논문에서는 휴대전화로 오는 짧은 문자메시지의 스타일을 반영하여 스팸 문자메시지를 검출해내는 한국어 모바일 스팸필터링 시스템을 소개한다. 제안하는 시스템은 내용어 어휘들의 출현에만 기반을 두는 기존 방법과 달리 제안하는 스타일 정보를 추가적으로 활용하여 스팸성 단어가 포함된 일반 문자메시지가 스팸으로 잘못 분류되는 치명적인 오류를 효과적으로 줄인다. 또한 띄어쓰기 및 철자 오류교정을 거쳐 문자메시지를 정규화 함으로써 스팸 분류성능을 향상시킨다. 실제 한국어 문자메시지를 이용한 실험 결과를 통해 제안하는 시스템이 한국어 스팸 문자메시지 검출에 효과적임을 보인다.

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.