• 제목/요약/키워드: naive Bayesian

검색결과 118건 처리시간 0.021초

데이터 마이닝 기법을 이용한 소규모 악성코드 탐지에 관한 연구 (A Study on Detection of Small Size Malicious Code using Data Mining Method)

  • 이택현;국광호
    • 융합보안논문지
    • /
    • 제19권1호
    • /
    • pp.11-17
    • /
    • 2019
  • 최근 인터넷 기술을 악용하는 행위로 인하여 경제적, 정신적 피해가 증가하고 있다. 특히, 신규로 제작되거나 변형된 악성코드는 기존의 정보보호 체계를 우회하여 사이버 보안 위협의 기본 수단으로 활용되고 있다. 이를 억제하기 위한 다양한 연구가 진행되었지만, 실제 악성코드의 많은 비중을 차지하는 소규모 실행 파일에 대한 연구는 미진한 편이다. 본 연구에서는 기존에 알려진 소규모 실행 파일의 특징을 데이터마이닝 기법으로 분석하여 알려지지 않은 악성코드 탐지에 활용할 수 있는 모델을 제안한다. 데이터 마이닝 분석 기법에는 나이브베이지안, SVM, 의사결정나무, 랜덤포레스트, 인공신경망 등 다양하게 수행하였으며, 바이러스토탈의 악성코드 검출 수준에 따라서 개별적으로 정확도를 비교하였다. 결과적으로 분석 파일 34,646개에 대하여 80% 이상의 분류 정확도를 검증하였다.

n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구 (A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine)

  • 서정우;손태식;서정택;문종섭
    • 정보보호학회논문지
    • /
    • 제14권2호
    • /
    • pp.23-33
    • /
    • 2004
  • 인터넷 환경의 급속한 발전으로 인하여 이메일을 통한 메시지 교환은 급속히 증가하고 있다. 그러나 이메일의 편리성에도 불구하고 개인이나 기업에서는 스팸메일로 인한 시간과 비용의 낭비가 크게 증가하고 있다. 이러한 스팸메일에 대한 문제들을 해결하기 위하여 많은 방법들이 연구되고 있으며, 대표적인 방법으로 키워드를 이용한 패턴매칭이나 나이의 베이지안 방식과 같은 확률을 이용한 방법들이 있다. 본 논문에서는 기존의 연구에 대한 문제점을 보완하기 위하여 패턴 분류문제에 있어서 우수한 성능을 보이는 Support Vector Machine을 사용하여 정상적인 메일과 스팸메일을 분류하는 방안을 제시하였으며, 특히 n-Gram을 사용하여 생성된 색인어와 단어사전을 학습데이터 생성에 사용함으로서 효율적인 학습을 수행하도록 하였다. 결론에서는 제안된 방법에 대한 성능을 검증하기 위하여 기존의 연구 결과와 비교함으로서 제안된 방법의 성능을 검증하였다.

BERT 기반 감성분석을 이용한 추천시스템 (Recommender system using BERT sentiment analysis)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.1-15
    • /
    • 2021
  • 추천시스템은 사용자의 기호를 파악하여 물품 구매 결정을 도와주는 역할을 할 뿐만 아니라, 비즈니스 전략의 관점에서도 중요한 역할을 하기에 많은 기업과 기관에서 관심을 갖고 있다. 최근에는 다양한 추천시스템 연구 중에서도 NLP와 딥러닝 등을 결합한 하이브리드 추천시스템 연구가 증가하고 있다. NLP를 이용한 감성분석은 사용자 리뷰 데이터가 증가함에 따라 2000년대 중반부터 활용되기 시작하였지만, 기계학습 기반 텍스트 분류를 통해서는 텍스트의 특성을 완전히 고려하기 어렵기 때문에 리뷰의 정보를 식별하기 어려운 단점을 갖고 있다. 본 연구에서는 기계학습의 단점을 보완하기 위하여 BERT 기반 감성분석을 활용한 추천시스템을 제안하고자 한다. 비교 모형은 Naive-CF(collaborative filtering), SVD(singular value decomposition)-CF, MF(matrix factorization)-CF, BPR-MF(Bayesian personalized ranking matrix factorization)-CF, LSTM, CNN-LSTM, GRU(Gated Recurrent Units)를 기반으로 하는 추천 모형이며, 실제 데이터에 대한 분석 결과, BERT를 기반으로 하는 추천시스템의 성과가 가장 우수한 것으로 나타났다.

하지근력증강로봇 제어를 위한 착용자의 보행단계구분 (Human Gait-Phase Classification to Control a Lower Extremity Exoskeleton Robot)

  • 김희영
    • 한국통신학회논문지
    • /
    • 제39B권7호
    • /
    • pp.479-490
    • /
    • 2014
  • 하지근력증강로봇은 인간의 하체에 착용하여 보행능력을 강화하거나 보조하기 위한 장비다. 보행능력을 향상하기 위해 로봇은 착용자의 걷는 움직임을 감지하고 이에 적합한 로봇의 동작을 구동한다. 본 논문에서는 로봇이 착용자의 움직임을 감지하는 방법을 소개하고, 감지된 데이터를 착용자의 현재 보행단계를 의미하는 보행단계상태 정보로 변환하는 보행단계구분 알고리즘을 제시한다. 로봇은 보행단계상태 정보에 따라 현재 필요한 제어모드를 결정하고 로봇구동기를 작동하기 때문에 잘못된 정보가 전달된다면 로봇은 착용자의 보행능력을 향상할 수 없거나 착용자에게 오히려 불편을 줄 수 있다. 따라서 보행단계구분 알고리즘은 항상 정확한 정보를 제공할 수 있어야 한다. 하지만 본 연구에서 사용하는 센서장치의 경우 작은 움직임에도 민감하게 반응하는 특성이 있어 센서데이터를 임계기준으로 구분하는 방법으로는 항상 정확한 보행단계상태 정보를 구할 수 없다. 이러한 특성을 극복하면서 정확한 정보를 제공하기 위해 확률적 구분 방법을 응용한 나이브-플렉시블 베이지안 보행단계구분 알고리즘을 제안하였고, 실험을 통해 제안 방법의 정확성을 비교 분석하였다.

효과적인 이메일 분류를 위한 빈발 항목집합 기반 최적 이메일 폴더 추천 기법 (A proper folder recommendation technique using frequent itemsets for efficient e-mail classification)

  • 문종필;이원석;장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.33-46
    • /
    • 2011
  • 이메일이 중요한 정보 전달과 의사소통의 수단으로 널리 활용된 이래 사람들은 이메일을 내용에 따라 적절하게 분류하는 작업에 많은 노력을 기울려 왔다. 이메일은 문서의 길이나 문체가 다양하며 사용되는 단어들이 비정규적이다. 또한 이메일 분류 기준은 일반적으로 해당 이메일 사용자의 주관에 따라 정의된다. 따라서 기존의 일반적인 문서분류 기법으로는 이메일을 효율적으로 분류하는데 어려움이 있다. 상업용 이메일 프로그램에서 제공되는 분류 기능은 메일 클라이언트에서 지원하는 텍스트 필터링을 이용한다. 한편 이메일의 자동 분류에 관한 연구는 확률 기반의 나이브 베이지안 기법을 응용하여 정확도를 높일 수 있는 연구가 주로 진행되어 왔으며, 대부분 영문 이메일에 대한 연구이다. 본 논문에서는 빈발 패턴 마이닝 기법을 적용하여 한글 이메일에 대한 개인 맞춤형 폴더 추천기법을 제시한다. 이메일의 맞춤형 폴더 추천 기법은 이메일에 대한 전처리 과정과 빈발 항목집합을 이용한 메일 폴더의 프로파일 생성과정으로 구성된다. 생성된 프로파일은 분류 대상이 되는 각 메일이 개인별 맞춤형 기준에 따라 가장 적합한 이메일 폴더로 효과적으로 분류되는데 활용된다. 또한 제안된 기법을 적용한 이메일 분류 시스템을 구현한다.

트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 (Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter)

  • 우승민;황병연
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권10호
    • /
    • pp.447-454
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 최근 스마트폰 이용자의 증가로 소셜 네트워크 서비스(SNS) 이용자가 증가하고 있는 추세이다. 그중 트위터는 140자 이내의 단문서비스와 팔로우 기능으로 정보의 빠른 전달력과 확산성을 가지고 있다. 이러한 특성과 모바일에 최적화된 트위터의 특성상 정보 전달 속도가 매우 빠르기 때문에 재난 상황이나 이벤트 전달의 매개체 역할을 하고 있다. 이와 관련된 연구로는 트위터 사용자 개개인을 이벤트 탐지의 센서로 사용하여 현실에서 발생하는 이벤트를 탐지하였는데 이벤트가 특정 장소에서 발생한다는 특성을 이용해서 지명 키워드를 사용하였다. 그러나 지명과 동형이의어 관계에 관한 노이즈제거에 대한 부분이 누락되어있어서 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 제거와 예측 두 가지 방식으로 노이즈제거 기법을 적용하였다. 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 나이브 베이지안 분류를 이용해서 지명 유무를 결정하였다. 실험 데이터를 이용해서 기계학습을 위한 확률값을 구했으며, 지명마다 본 논문에서 제시하는 예측기법을 검증했을 때 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.

행동 패턴 모델을 이용한 게임 봇 검출 방법 (Behavior Pattern Modeling based Game Bot detection)

  • 박상현;정혜욱;윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.422-427
    • /
    • 2010
  • 2004년 이후 정보기술의 성장과 더불어 게임 서비스에 대한 피해 사례가 해 마다 빠르게 증가하고 있는 실정이다. 특히 게임 봇(자동사냥 프로그램)에 대한 피해규모가 가장 크게 조사되고 있으며 이를 방지하기 위한 연구도 활발히 진행되고 있다. 게임 봇은 사용자가 입력하는 키보드나 마우스의 움직임을 대신해 자동으로 게임을 수행하는 프로그램으로 어떠한 사용자의 조작 없이도 게임 속에서의 이득 활동을 무한정 행할 수 있다. 이와 같은 행동은 일반적인 사용자에게 상대적인 불쾌감을 줄 뿐만 아니라 게임의 수명을 단축시키는 등 게임 회사 및 사용자에게 큰 피해를 발생시키고 있어 이를 방지하기 위한 방법이 주목 되고 있다. 기존의 게임 봇 검출 연구들은 단순이 사용자 개인 PC에 설치되어 동작중인 프로그램을 감시하기 때문에 게임 봇 사용자의 조작에 의해 쉽게 피해갈수 있는 단점을 가지고 있다. 따라서 본 논문에서는 게임 서버측면에서 사람과 게임 봇의 행동을 비교하여 게임 봇 사용자들이 조작이나 회피가 힘든 게임 봇 검출 방법을 제안한다. 제안 방법으로는 게임 봇과 사람의 행동 패턴 차이 모델을 정의하고 나이브 베이지안 분류기를 사용하여 게임 봇을 검출한다.

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.