• 제목/요약/키워드: Spam Filtering

검색결과 95건 처리시간 0.02초

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 (SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.24-29
    • /
    • 2018
  • 딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

스팸메일 차단을 위해 IP 주소간 거리 측정 알고리즘을 이용하는 전자우편 발송서버의 권한확인 방법 (E-mail Sending-Server Authorization Method using a Distance Estimation Algorithm between IP Addresses for Filtering Spam)

  • 임호성;심재홍;최경희;정기현
    • 정보처리학회논문지C
    • /
    • 제12C권5호
    • /
    • pp.765-772
    • /
    • 2005
  • 본 논문에서는 스팸메일을 차단하기 위해 전자우편 발송서버가 발신자가 소속된 도메인에 등록된 서버인지 또는 그 도메인에 속한 서버인지 판단하는 IP 주소간 거리 측정 알고리즘을 이용하는 전자우편 발송서버 권한확인 방법을 제안한다. 제안 방법은 전자우편을 발송한 서버의 IP 주소와 전자우편의 발신자 도메인의 DNS에 등록된 IP 주소들과의 거리를 이용해 전자우편을 발송한 서버가 전자우편의 발신자 도메인의 네트워크에 존재하는지 확인하여 스팸메일을 차단한다. 일정기간 동안 수집한 전자우편에 대해 제안 알고리즘을 적용하여 IP 주소간 거리를 측정한 결과 정상메일의 경우 $88\%$, 스팸메일의 경우 $10\%$ 정도가 발신자가 소속된 도메인에 속한 전자우편 서버에서 발송되었고, 나머지는 발신자 주소를 도용하였거나 또는 제3의 장소에 존재하는 서버에서 발송하였음을 확인하였다. 제안 알고리즘은 발신자 도메인이 전자우편 발송 권한을 부여하지 않은 서버로부터 수신된 전자우편을 모두 스팸메일로 간주하여 스팸메일을 차단하는데 독립적으로 사용될 수 있으며, 또한 현재 표준화가 진행 중인 전자우편 발송서버 권한확인 프로토콜들이 보편화되어 사용되기 전까지 이들 프로토콜의 보완책으로도 사용될 수 있다.

A Novel Statistical Feature Selection Approach for Text Categorization

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1397-1409
    • /
    • 2017
  • For text categorization task, distinctive text features selection is important due to feature space high dimensionality. It is important to decrease the feature space dimension to decrease processing time and increase accuracy. In the current study, for text categorization task, we introduce a novel statistical feature selection approach. This approach measures the term distribution in all collection documents, the term distribution in a certain category and the term distribution in a certain class relative to other classes. The proposed method results show its superiority over the traditional feature selection methods.

비정상 문자 조합으로 구성된 스팸 메일의 탐지 방법 (An Approach to Detect Spam E-mail with Abnormal Character Composition)

  • 이호섭;조재익;정만현;문종섭
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.129-137
    • /
    • 2008
  • 인터넷의 활용도가 높아짐에 따라, 스팸메일이 전체 메일에서 차지하는 비중이 점점 커지게 되었다. 전체 인터넷 자원에서 필요에 의해 사용되는 메일의 기능보다, 주로 광고나 악성코드 등의 전파를 위한 목적으로 사용되는 메일의 비중이 점점 커지고 있으며, 이를 방지하기 위한 컴퓨터 및 네트워크, 인적자원의 소모가 매우 심각해지고 있다. 이를 해결하기 위해 스팸 메일 필터링에 대한 연구가 활발히 진행되어 왔으며, 현재는 문맥상의 의미는 없지만 가독상에서 의미를 해석할 수 있는 문장에 대한 연구가 활발히 이루어지고 있다. 이러한 방식의 메일은 기존의 어휘를 분석하거나 문서 분류 기법 등을 이용한 스팸 메일을 필터링 방법을 통해 분류하기 어렵다. 본 연구는 이와 같은 어려움을 해결하기 위해 메일의 제목에 대한 N-GRAM 색인화를 통해 베이지안 및 SVM 을 이용하여 스팸 메일을 필터링 하는 방법을 제안한다.

개인화된 분류를 위한 웹 메일 필터링 에이전트 (Design and Implementation of Web Mail Filtering Agent for Personalized Classification)

  • 정옥란;조동섭
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.853-862
    • /
    • 2003
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 이메일의 사용자도 기하급수적으로 늘어나고 있다. 또한 일반 사용자나 전자상거래에서 오가는 메일의 양도 갈수록 늘어나고 있다. 편리하다는 점을 이용해서 엄청난 양의 스팸 메일도 매일 같이 쏟아져 나오고 있다. 본 논문에서는 사용자 개인에 맞게 메일을 자동 관리해 주는 즉 개인화된 분류가 가능하고, 또 언제 어디서나 로그인이 가능한 웹 메일 기반인 웹 메일 필터링 에이전트(Web Mail Filtering Agent for Personalized Classification)를 제안한다. 새로운 메일이 오면, 먼저 사용자의 메일 처리과정을 일정 기간 관찰하여 각각 개인에 맞는 룰(Personal rule)을 형성하고, 만들어진 룰을 바탕으로 메시지를 자동 관리 즉 카테고리별 분류ㆍ저장 및 개인에게 불필요한 메일이나 스팸 메일을 삭제 해 주는 것이다. 또한 시스템의 정확도를 높이기 위해 동적 임계치를 이용한 베이지안 알고리즘을 적용하였다.

사용자 맞춤형 스팸 문자 필터링 시스템 (Personalized Mobile Junk Message Filtering System)

  • 이승재;최덕재
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.122-135
    • /
    • 2011
  • 스팸 문자 메시지는 모바일 이용자에게 불쾌감을 줄 뿐만 아니라 불필요한 사회비용을 유발하는 유해 요소이다. 특히 스마트워크 시스템에서 핵심 단말인 스마트폰으로 유입되는 스팸 문자는 업무능률 향상이라는 스마트워크의 취지를 무색하게 만들 수 있어 이에 대한 연구가 필요하다. 본 논문에서는 스팸 자동분류기로 스팸 메시지를 차단함에 있어서, 오분류 결과를 학습군에 재반영하여 연산량을 줄이고 인식 성능을 개선할 수 있는 방법을 제안하였다. 스팸 분류기는 스마트폰에서 독립적으로 동작하고, 사용자의 수신 메시지만으로 학습하므로 사용자의 분류 판단 성향을 반영할 수 있다. 많은 컴퓨팅 자원을 소비해야 하는 전처리, 특징 선정, 훈련 과정은 사용자의 인증 컴퓨터가 담당하고 필터링 과정만을 스마트폰에서 처리한다. 실험 결과 95%이상의 양호한 결과를 보였고 스팸 분류기는 스마트폰의 일정 자원만을 점유하면서 동작하였다.

소셜 웹에서의 시맨틱스: 개인화 이메일 마케팅 개발 사례 (Semantics in Social Web: A Case of Personalized Email Marketing)

  • 주재훈;명성재
    • 한국콘텐츠학회논문지
    • /
    • 제10권6호
    • /
    • pp.43-48
    • /
    • 2010
  • 유용한 이메일은 소비자 구매행동에 긍정적 영향을 미치며, 온라인 상점에서 소비자를 구매로 유인하는 수단이 된다. 또한 이메일을 통해 소비자와 정기적인 접촉을 갖게 되면 고객의 충성도가 개선된다. 그러나 이메일에도 한계점이 있다. 통계에 의하면, 이메일의 절반 이상이 스팸이다. 이메일 사용자가 증가함에 따라 과거 몇 년 동안에 스팸이 급속도로 증가하고 있다. 본 연구에서는 그러한 이메일 마케팅의 한계점을 극복하기 위해 온톨로지 접근법을 제안하였다. 본 연구에서 제안한 방법은 스팸 메일을 제거하는데 온톨로지를 활용하는 것이 아니라 개인의 특성과 흥미를 고려하여 개인화 콘텐트를 서비스하는데 온톨로지를 적용하였다. 본 연구에서는 도메인 온톨로지를 개발하였고 기존의 FOAF도 활용하였다. 본 연구의 제안 시스템을 시나리오를 통해 검증하였다.

고가용성을 고려한 전자메일통제시스템의 우회 모델 및 응용 (Indirection Model and Application of Electronic Mail Control System Considering High Availability)

  • 김영수;서정석
    • 한국정보통신학회논문지
    • /
    • 제9권2호
    • /
    • pp.348-354
    • /
    • 2005
  • 전자상거래를 위한 마케팅 수단으로서 전자메일이 보편적으로 사용되면서 스팸메일이 급격히 증가하고 있다. 이의 억제를 위한 전자메일통제시스템은 기술적이고 경제적 대안으로 필터시스템과 과금시스템을 사용하고 있으나 차단오류와 과금저항으로 인한 전자메일의 수신과 가용성을 제한한다. 이의 해결을 위해서 불법적인 전자메일은 억제하지만 송$\cdot$수신자에게 유익하고 합법적인 전자메일이 폐기되고 상실되는 것을 방지할 수 있는 전자메일통제시스템의 우회 모델을 제안하고 이를 사용하여 전자메일의 유용성과 가용성을 높여줄 수 있는 웹기반의 전자메일통제시스템을 구현하여 모델의 실용성을 검증하였다.

사용자 패턴을 이용한 지능형 e-메일 시스템의 연구 (A Research on the Intelligent E-mail System Using User Patterns)

  • 임양원;임한규
    • 한국콘텐츠학회논문지
    • /
    • 제6권1호
    • /
    • pp.64-71
    • /
    • 2006
  • 전자우편은 인터넷을 이용하는 사용자들에게 중요한 커뮤니케이션의 역할을 담당하고 있다. 하지만, 원하지 않는 광고가 많은 스팸 메일, 악의를 가진 폭탄메일 등 대부분이 불필요한 자료들로 인해 전자우편이 가지는 본연의 의미와는 무색하게 사용되어지고 있다 본 논문에서는 이러한 불필요한 정보와 자료들을 최대한 방지하고 보다 깨끗한 환경에서 이용할 수 있는 전자우편을 만들기 위해 사용자 패턴을 이용한 지능형 전자우편 조정 관리 시스템에 대한 연구이다. 사용자가 전자우편을 이용하는 형태, 즉 수신된 전자우편에 대해 사용자의 행동 패턴에 대한 집중적인 분석으로 불필요한 정보와 필요한 정보를 자동으로 분류하여 스팸 메일을 빠르게 처리할 수 있도록 하였다.

  • PDF

특정 속성과 Co-training을 이용한 전자메일 분류 (E-Mail Filtering with Co-training Based on Specific Features)

  • 류제;윤성희;한광록
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.549-551
    • /
    • 2003
  • 본 논문은 점점 증가되고 있는 SPAM 메일 문제를 해결하기 위한 방법으로써, 특정 속성에 기반을 둔 학습 알고리즘의 co-training을 통한 전자메일 분류 기법을 제안한다. 전자메일 분류는 결국 문서 분류 기술과 다르지 않다. 이미 많은 연구에서 학습 알고리즘을 이용한 문서 분류 기법은 많이 제안되고 검증되었다. 본 논문에서는 이러한 학습 알고리즘들을 co-training을 통하여 해당 메일이 SPAM인지 아닌지 구분하며, 학습의 효율성을 높이기 위하여 전자메일의 특정한 속성들, 예를 들면, 핵심문구나 기타 특정한 문구 및 전자메일의 헤더 정보 등을 학습 기반으로 이용하였다.

  • PDF