Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2008.10a
- /
- Pages.195-200
- /
- 2008
- /
- 2005-3053(pISSN)
Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features
형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링
- Sohn, Dae-Neung (Dept. of Computer and Radio Communications Engineering, Korea University) ;
- Shin, Joong-Hwi (Dept. of Computer and Radio Communications Engineering, Korea University) ;
- Lee, Jung-Tae (Dept. of Computer and Radio Communications Engineering, Korea University) ;
- Lee, Seung-Wook (Dept. of Computer and Radio Communications Engineering, Korea University) ;
- Rim, Hae-Chang (Dept. of Computer and Radio Communications Engineering, Korea University)
- 손대능 (고려대학교 컴퓨터.전파통신공학과) ;
- 신중휘 (고려대학교 컴퓨터.전파통신공학과) ;
- 이정태 (고려대학교 컴퓨터.전파통신공학과) ;
- 이승욱 (고려대학교 컴퓨터.전파통신공학과) ;
- 임해창 (고려대학교 컴퓨터.전파통신공학과)
- Published : 2008.10.10
Abstract
본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.
Keywords