• 제목/요약/키워드: Spam Filtering

검색결과 95건 처리시간 0.034초

오피니언 마이닝을 이용한 스팸 필터링 (Spam Filtering using Opinion Mining)

  • 오진수;유준석;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.745-746
    • /
    • 2009
  • 오늘날 사람들의 의견을 제시하는 공간은 폐쇄적인 인쇄물이나 수동적인 답변 수준을 벗어나 무한의 공간을 가지는 웹에서 이루어지고 있다. 불특정 다수를 대상으로 하며 정형화된 틀을 없는, 더욱 유용한 의견을 많이 얻을 수 있는 특징을 가졌기 때문에, 이를 위해 오피니언 마이닝에 대한 연구가 활발히 진행되고 있다. 기본적으로 오피니언 마이닝은 해당 분야에 대한 정확한 정보를 찾는 것을 목적으로 하지만, 그러한 정보를 제외한 나머지 부분에 대해서도 충분히 유용하게 사용할 수 있다. 본 논문에서는 그 나머지 부분을 이용하여 무분별하게 등록되고 있는 스팸성 댓글을 효과적으로 필터링 할 수 있는 방법을 제안한다.

한글 문자 단위 서열 정렬을 통한 스팸 문자 필터링 (SPAM Filtering for short Message Using Korean Character Alignment)

  • 임진수;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1585-1587
    • /
    • 2011
  • 휴대전화 사용이 늘어나면서 이를 노리는 광고 문자 또한 많아지고 있다. 이를 막기 위해 대부분의 휴대전화가 스팸 차단 기능을 제공하고 있다. 허나 현재 제공되고 있는 스팸 차단 기능은 발신 번호가 같거나 설정 문구가 같은 경우에만 막아주는 기초적인 기능뿐이다. 그리고 광고 문자를 보내는 쪽은 이러한 차단 기능을 염두에 두고 변칙적인 문구를 사용해서 보내는 경우도 많다. 본 논문에서는 한글을 문자 단위로 서열 정렬하여 광고 문자를 차단하는 방법을 제안한다. 제안한 방법은 사용자가 등록한 문구를 수신한 문구에 대해 서열 정렬하고 이 결과를 바탕으로 유사도를 비교하여 차단하고자 하는 문구를 지닌 스팸 문자를 최대한 차단할 수 있다.

베이지안 네트워크와 멀티 레이어 퍼셉트론을 이용한 모바일 스팸 문자 메시지 필터링 방법 (A Method for Spam SMS Filtering Using Bayesian Network and Multi Layer Perceptron)

  • 홍승범;김문현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.283-286
    • /
    • 2011
  • 스팸 메시지는 불특정 다수에게 보내지는 광고성 메시지로서 최근 들어 그 양이 증가하고 있는 추세이다. 본 논문에서는 모바일 환경에서의 스팸 메시지 필터링을 위한 시스템을 제안하며 기존 환경에서 자주 사용되었던 키워드 기반 필터링 시스템의 단점을 해결하고자 고안되었다. 베이지안 네트워크를 통해 스팸 메시지들의 패턴을 추출하고 추출된 패턴을 멀티 레이어 퍼셉트론을 이용해 학습하여 메시지들을 분류한다. 이 시스템을 통해 약 93.5%의 필터링 정확도률을 얻었으며 키워드 선택 대신 스팸 메시지를 선택해 학습시킴으로서 사용하기 쉽고 사용자에 맞는 시스템을 구성할 수 있었다.

발신번호 특징 및 음절단위 기계학습을 통한 모바일 스팸 SMS 필터링 시스템 (A Mobile Spam SMS Filtering System using Machine learning about syllable and the features of caller ID)

  • 유환일;채동규;임을규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.219-222
    • /
    • 2011
  • 본 논문에서는 스팸 SMS 발신번호와 메시지 텍스트의 특징을 기계학습한 스팸 필터링 시스템을 논한다. 최근 변화하는 스팸SMS에 대한 적응력을 위해서, 각 트레이닝 셋의 수신 텍스트를 음절단위로 분석 할 것을 제안한다. 그리고 기존의 분류기는 성능이 미흡하거나 구현의 복잡성으로 인해 실제로 스펨 필터엔진으로 활용되지 않는 점을 극복하기 위해서 보다 단순한 분류기를 사용한다. 제안하는 시스템은 트레이닝 셋의 발신번호 및 수신 텍스트의 음절단위를 빈도수와 묶어 학습데이터를 구성하고, 테스트 셋을 스팸적 논스팸적으로 분석하여 스팸일 확률을 계산한다. 또한 Naive baysian를 바탕으로 한 경계값 기반 분류기를 통해, 타 분류기에 비해 구현 및 활용면에서 실용성이 높으면서도 성능이 뒤처지지 않는 시스템을 제안한다.

인터넷 게시물의 댓글 분석 및 시각화 (Analysis and Visualization for Comment Messages of Internet Posts)

  • 이윤정;지정훈;우균;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.45-56
    • /
    • 2009
  • 오늘날 인터넷 사용자들은 블로그나 뉴스, 인터넷 게시판 등의 매체에서 댓글을 통해 다른 사람의 의견을 살피고 자신의 의견을 나타내고 있다. 그러나 현재 대부분의 블로그나 인터넷 포털 사이트의 경우 기사나 댓글들을 순차적인 목록 형태로 제공하므로 사용자가 원하는 내용의 댓글을 검색하거나 살펴보는 것은 힘든 일이다. 또한 댓글 사용자가 증가함에 따라 스팸 댓글이나 악플 등이 사회 문제가 되기도 한다. 본 논문에서는 다음 아고라(Daum AGORA) 웹 블로그의 게시글과 댓글을 통계적으로 분석하고 유사도를 기반으로 클러스터링하는 시스템을 제안한다. 본 시스템은 클러스터링 결과를 시각화하여 간단한 스크린 뷰(screen view)로 보여준다. 또한, 본 시스템은 생물정보학에서 잘 알려진 정렬 기법인 Needleman-Wunsch 알고리즘을 이용해 스팸 댓글을 필터링한다.

기계학습 및 필터링 방법을 결합한 경쟁관계 인식 (Competition Relation Extraction based on Combining Machine Learning and Filtering)

  • 이충희;서영훈;김현기
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.367-378
    • /
    • 2015
  • 본 논문은 기계학습 방법과 필터링 방법을 결합해서 경쟁관계를 인식하는 방법에 대한 연구이다. 기존 연구들은 기계학습 방법에만 의존해서 관계유형을 인식하는 연구들이 대부분이며. 사용되는 자질도 일반적인 관계유형에 적합한 자질을 사용하고 특히 구문분석 정보가 매우 중요한 자질로 사용된다. 본 논문에서는 구문분석 등의 언어분석 결과를 이용하지 않고, 단순한 자질들(어휘, 거리, 위치, 단서단어)만을 사용해도 경쟁관계 인식에 효과적임을 확인하였다. 또한, 경쟁관계인식 긍정 정확도를 향상시킬 수 있는 문장별 경쟁유무 분류방법, 스팸분류 방법, 거리제약 기반 자질필터링 방법을 기계학습 방법과 결합한 방법론을 제안한다. 방법론 검증을 위해서 뉴스분야 2,565개 문장을 평가셋으로 구축하였고, 비교 평가를 위해서 규칙기반 경쟁관계 인식기와 기존연구의 관계추출 방법론에 기반한 일반 관계추출기를 적용해서 비교하였다. 성능평가 결과로 규칙기반 엔진이 긍정정확도와 전체정확도(accuracy)가 81.2%와 56.8% 성능을 보였고, 일반 관계추출기는 61.2%와 56.3%를 보였다. 그에 비해서 본 논문에서 제안하는 방법은 긍정 정확도 92.2%와 전체정확도 71.3% 성능을 보여서 경쟁관계 인식에 효과적임을 확인하였다.

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 (Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model)

  • 김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권3호
    • /
    • pp.34-43
    • /
    • 2012
  • 두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소 변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2~80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4~14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1~11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다.

단어 가중치를 이용한 스팸메일 필터링 (A Filtering Method of Spam E-mails by Term Weighting)

  • 김호성;정경호;황도삼
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-174
    • /
    • 2001
  • 현재, 전자메일을 정보전달의 수단이나 광고등의 목적으로 많이 이용하게 되면서, 메일 수신자는 원치 않는 상업적 광고, 불필요한 정보등의 스팸메일을 여과 없이 수신하게 되는 경우가 많아졌다. 이로 인하여 업무효율성 감퇴, 시간 낭비, 자원 낭비 등의 많은 문제점을 야기시키고 있다. 이러한 문제점을 해결하기 위한 기존의 메일 필터링 시스템들은 송신자의 주소나 도메인, 제목 등의 메일 헤더정보만을 이용하거나, 사용자가 정의한 문장이 본문 내용에 나타날 때 필터링하는 방식들이 주류를 이루고 있다. 그러나 이러한 방식들은 메일의 내용에 대한 근본적인 필터링이 불가능하다. 본 논문에서는 메일의 내용을 파악하기 위해 메일의 내용을 대표할 수 있는 체언정보를 추출하여, 카이제곱 통계량 공식을 통해 단어 가중치를 부여하고, 이를 문서분류를 위한 로그단어 빈도 가중치 공식에 적용하여 스팸메일을 필터링하는 방식을 제시한다. 본 논문에서 제안한 방법으로 실험한 결과, 스팸메일을 필터링하는데 84.61%의 재현율과 83.01%의 정확율을 얻을 수 있었다.

  • PDF

특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법 (A Spam Filtering Method using Frequency Distribution of Special Letter and Frequency Ratio of Keyword)

  • 이성진;백종법;한정석;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.280-283
    • /
    • 2011
  • 인터넷 환경에서 무차별적으로 유통되는 스팸 문서로 인한 사회적 문제가 커져 가고 있는 가운데 스팸문서를 차단하기 위한 활발한 연구들이 이루어지고 있다. 이 가운데 대표적인 연구는 자질어를 이용한 기계학습 기반의 스팸 차단 기술이다. 그러나 이 방법은 미리 선택된 자질어로만 구성된 분류 모델을 사용하기 때문에 Term Spamming(단어 조작에 의한 스팸 차단 행위)에 취약하며, 스팸 차단의 성능과 학습 소요 시간이 선택된 자질어의 품질과 수에 민감하게 영향을 받는다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 스팸 문서에서 등장하는 특수 문자의 빈도와 반복되는 단어의 특징을 이용한 스팸 탐지 방법을 제안한다. 제안 방법은 각 문서에서 등장하는 특수 문자의 비율과 최다 출현 단어의 반복 패턴을 정의하고 기계학습 알고리즘을 적용하여 스팸 분류 모델을 생성한다. 제안 방법의 성능 평가를 위해 E-mail 데이터와 블로그의 Post 데이터를 사용하여 자질어 기반의 스팸 차단 방법과 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방법이 분류 정확도와 학습 소요 시간에 있어 우수한 성능을 보이는 것을 확인하였다.

형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링 (Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features)

  • 손대능;신중휘;이정태;이승욱;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2008
  • 본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

  • PDF