• 제목/요약/키워드: 랜덤포레스트 분류기

검색결과 32건 처리시간 0.029초

머신러닝 기반 안드로이드 모바일 악성 앱의 최적 특징점 선정 및 모델링 방안 제안 (Modeling and Selecting Optimal Features for Machine Learning Based Detections of Android Malwares)

  • 이계웅;오승택;윤영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.427-432
    • /
    • 2019
  • 모바일 운영체제 중 안드로이드의 점유율이 높아지면서 모바일 악성코드 위협은 대부분 안드로이드에서 발생하고 있다. 그러나 정상앱이나 악성앱이 진화하면서 권한 등의 단일 특징점으로 악성여부를 연구하는 방법은 유효성 문제가 발생하여 다양한 특징점 추출 및 기계학습을 통해 이를 극복하고자 한다. 본 논문에서는 APK 파일에서 구동에 필요한 다섯 종류의 특징점들을 안드로가드라는 정적분석 툴을 사용하여 학습데이터의 특성을 추출한다. 또한 추출된 중요 특징점을 기반으로 모델링을 하는 세 가지 방법을 제시한다. 첫 번째 방법은 보안 전문가에 의해 엄선된 132가지의 특징점 조합을 바탕으로 모델링하는 것이다. 두 번째는 학습 데이터 7,000개의 앱에서 발생 빈도수가 높은 상위 99%인 8,004가지의 특징점들 중 랜덤포레스트 분류기를 이용하여 특성중요도가 가장 높은 300가지를 선정 후 모델링 하는 방법이다. 마지막 방법은 300가지의 특징점을 학습한 다수의 모델을 통합하여 하나의 가중치 투표 모델을 구성하는 방법이다. 추가적으로 오탐률 및 미탐률을 개선하기 위해 권한 정보를 모두 제외하여 특징점을 재구성하고 위와 같은 환경으로 모델링하였다. 최종적으로 가중치 투표 모델인 앙상블 알고리즘 모델을 사용하여 97.8%로 정확도가 개선되었고 오탐률은 1.9%로 성능이 개선된 것이 확인되었다.

키넥트 센서 데이터를 이용한 손 제스처 인식 (Hand Gesture Recognition from Kinect Sensor Data)

  • 조선영;변혜란;이희경;차지훈
    • 방송공학회논문지
    • /
    • 제17권3호
    • /
    • pp.447-458
    • /
    • 2012
  • 본 논문에서는 키넥트 센서로부터 획득한 관절 정보를 이용하여 손 제스처를 인식하는 방법을 나타낸다. 관절 정보에 대한 관찰열을 표현하기 위한 특징으로 방향 변형에 강인한 다각도 결합 히스토그램 특징을 제안한다. 제안한 특징은 다양한 각도의 양자화 레벨을 갖는 여러 개의 각도 히스토그램들을 결합함으로써, 사람 및 환경에 따라 발생할 수 있는 제스처의 방향 변형에 강인하게 제스처를 표현한다. 또한, 다각도 결합 히스토그램으로 표현된 제스처 관찰열은 랜덤 결정 포레스트 분류기와 잘 겹합되어 높은 성능으로 제스처의 클래스를 인식한다. 키넥트 센서로부터 획득한 정적 및 동적 타입의 손 제스처 데이터셋에서 실험을 진행하였고, 다른 제스처 특징 및 분류기를 갖는 방법과의 인식 성능 비교를 통해 제안하는 방법의 우수함을 입증하였다.

온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법 (A Method for Identifying Nicknames of a User based on User Behavior Patterns in an Online Community)

  • 박상현;박석
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.165-174
    • /
    • 2018
  • 온라인 커뮤니티란 SNS와 달리 사용자들이 닉네임을 통해 익명으로 관심사와 취미를 공유하는 가상 그룹 서비스이다. 그런데 이런 익명성을 악의적으로 활용하는 사용자들이 존재하고, 닉네임의 변경으로 인해 동일 사용자의 데이터가 서로 다른 닉네임에 존재하는 데이터 파편화 문제가 발생할 수 있다. 또한 온라인 커뮤니티에서는 닉네임을 변경하는 일이 빈번하므로 동일 사용자를 식별하는데 어려움을 겪는다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 온라인 커뮤니티 특성을 고려한 사용자의 행동 패턴 특징 벡터를 제시하며, 관계 패턴이라는 새로운 암시적 행동 패턴을 제안함과 동시에 랜덤 포레스트 분류기를 이용한 동일 사용자의 닉네임을 식별하는 기법을 제안한다. 또한 실제 온라인 커뮤니티 데이터를 수집해 제안한 행동패턴과 분류기를 이용해 동일 사용자를 유의미한 수준으로 식별할 수 있음을 실험적으로 보인다.

랜덤 포레스트를 이용한 감정인식 결과를 바탕으로 스마트폰 중독군 검출 (Smartphone Addiction Detection Based Emotion Detection Result Using Random Forest)

  • 이진규;강현우;강행봉
    • 전기전자학회논문지
    • /
    • 제19권2호
    • /
    • pp.237-243
    • /
    • 2015
  • 최근 기술의 발달로 국내에 10명 중 8명은 스마트폰을 사용하고 있다. 또한, 스마트폰을 이용한 다양한 어플리케이션들이 개발되었다. 이로 인해, 스마트폰 중독현상이 사회적인 문제로 대두되고 있다. 특히, 스마트폰 중독은 스스로가 조절하기 어렵고, 자각하기 힘들다. 주로 설문지를 중심으로한 연구들에서, 스마트폰 중독을 진단하기 위해 예를 들면 S-척도와 같은 연구를 수행해왔다. 본 연구에서는 ECG(심전도)와 Eye Gaze 신호를 이용한 검출 방법을 제안하고자 한다. 피험자가 감정 영상을 시청했을 때, 피험자의 ECG 신호와 Eye Gaze 신호를 각각 Shimmer와 스마트아이를 이용하여 측정한다. 더불어, ECG 신호의 S-transform 결과를 특징으로 추출한다. 또한 동공의 직경, 시선과의 거리, 눈 깜빡임으로 구성된 Eye Gaze 신호로부터 12개의 특징을 추출한다. 분류기는 랜덤 포레스트를 이용하여 학습시키고 피험자의 데이터를 이용하여 스마트폰 중독군을 검출한다. 검출한 결과와 실험 전 진행한 S-척도 결과와 비교한 결과 ECG는 87.89%의 정확도, Eye Gaze는 60.25%의 정확도를 보여주는 것을 알 수 있었다.

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

농림위성 활용 수종분류 가능성 평가를 위한 래피드아이 영상 기반 시험 분석 (A Study on Pre-evaluation of Tree Species Classification Possibility of CAS500-4 Using RapidEye Satellite Imageries)

  • 권수경;김경민;임중빈
    • 대한원격탐사학회지
    • /
    • 제37권2호
    • /
    • pp.291-304
    • /
    • 2021
  • 기후변화나 여러 환경문제들로부터 지속 가능한 산림자원 관리 및 모니터링을 위해 임상도의 지속적인 갱신은 필수적이다. 따라서 효율적이고 광역적인 산림 원격탐사의 필요성에 따라 차세대 중형위성 4호의 사업이 확정되어 2023년 발사 예정에 있다. 농림위성(차세대 중형위성 4호)는 5 m급 공간해상도와 Blue, Green, Red, Red Edge, Near Infra Red 총 5개 밴드를 가진다. 본 연구는 농림위성의 발사 및 활용에 앞서 농림위성과 유사한 사양을 가지는 RapidEye를 이용하여 위성 기반 수종분류의 가능성을 모의 평가하기 수행되었다. 본 연구는 춘천 선도산림경영단지를 연구 대상지로 하였으며, RapidEye 위성 영상기반 모의 수종분류는 생육기 영상으로부터 추출한 분광정보와 생육기와 비생육기의 NIR 밴드로부터 추출한 GLCM 질감특성 정보가 활용되었고, 이를 입력데이터로 하여 랜덤 포레스트(Random Forest) 기법을 적용하였다. 본 연구에서는 침엽수종 3종(소나무, 잣나무, 낙엽송), 활엽수종 5종(신갈나무, 굴참나무, 자작나무, 밤나무, 기타활엽수), 침활혼효림 총 9종으로 임상을 분류하였다. 분류 정확도는 임상도와 분류 결과를 대조하여 산출하였으며, 분류 정확도는 분광정보만 사용한 경우 39.41%, 분광정보과 질감정보를 모두 사용한 경우 69.29%의 정확도를 보였으며, 다중시기 분광정보 및 질감정보의 활용을 통해 5 m 해상도의 위성영상으로부터 수종분류의 가능성이 있음을 확인하였다. 향후 식생의 생태적 특성을 더욱 효과적으로 반영한 추가 변수를 대입하여 농림위성 활용 가능성을 제고하고자 한다.

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

생성적 적대 신경망과 딥러닝을 활용한 이상거래탐지 시스템 모형 (Fraud Detection System Model Using Generative Adversarial Networks and Deep Learning)

  • 김예원;유예림;최홍용
    • 경영정보학연구
    • /
    • 제22권1호
    • /
    • pp.59-72
    • /
    • 2020
  • 인공지능이 다루기 어려운 개념에서 아주 익숙한 도구로 자리매김 하고 있다. 이와 더불어 금융권에서도 인공지능 기술을 도입하여 기존 시스템의 문제점을 개선하고자 하는 추세이며, 그 대표적인 예가 이상거래탐지 시스템(Fraud Detection System, FDS)이다. 결제 수단의 다양화 및 전자금융거래의 증가에 따라 치밀해져 가는 사이버 금융사기(Fraud)를 기존의 규칙기반 FDS로는 탐지하기 어려워지고 있다. 이를 극복하기 위해 딥러닝 기술을 적용하여 이상거래 탐지율을 향상시키고, 이상행위에 즉각 대응하며, 탐지 결과의 반영을 자동화하고자 하는 시도가 이루어지고 있다. 딥러닝 FDS 구축에서 핵심 문제는 데이터 불균형과 이상거래 패턴의 변동이다. 본 논문에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)을 활용한 오버샘플링 기법을 통해 데이터 불균형 문제를 개선하고, 이상거래 분류기로써 심층 신경망(Deep Neural Network, DNN)과 합성곱 신경망(Convolutional Neural Network, CNN)을 적용하여 이러한 문제를 개선하고자 하였다. 실험 결과, GAN 오버샘플링이 이상거래 데이터의 불균형 문제를 개선하는데 효과를 보였으며, WGAN이 가장 높은 개선 효과가 있음을 확인하였다. 또한 제안 FDS 모형의 AUC가 0.9857로 랜덤포레스트 FDS 모형에 비해 약 6.5% 향상되어, 딥러닝이 이상거래 탐지에 뛰어난 성능을 가짐을 입증하였다. 더불어 딥러닝 모형 중 DNN은 CNN에 비해 오버샘플링의 효과를 더 잘 반영함을 확인하였다.

계층적 군집분석을 이용한 반도체 웨이퍼의 불량 및 불량 패턴 탐지 (Wafer bin map failure pattern recognition using hierarchical clustering)

  • 정주원;정윤서
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.407-419
    • /
    • 2022
  • 반도체는 제조 공정이 복잡하고 길어 결함이 발생될 때 빠른 탐지와 조치가 이뤄져야 결함으로 인한 손실을 최소화할 수 있다. 테스트 공정을 거쳐 구성된 웨이퍼 빈 맵(WBM)의 체계적인 패턴을 탐지하고 분류함으로써 문제의 원인을 유추할 수 있다. 이 작업은 수작업으로 이뤄지기 때문에 대량의 웨이퍼를 단 시간에 처리하는 데 한계가 있다. 본 논문은 웨이퍼 빈 맵의 정상 여부를 구분하기 위해 계층적 군집 분석을 활용한 새로운 결함 패턴 탐지 방법을 제시한다. 제시하는 방법은 여러 장점이 있다. 군집의 수를 알 필요가 없으며 군집분석의 조율 모수가 적고 직관적이다. 동일한 크기의 웨이퍼와 다이(die)에서는 동일한 조율 모수를 가지므로 대량의 웨이퍼도 빠르게 결함을 탐지할 수 있다. 소량의 결함 데이터만 있어도 그리고 데이터의 결함비율을 가정하지 않더라도 기계학습 모형을 훈련할 수 있다. 제조 특성상 결함 데이터는 구하기 어렵고 결함의 비율이 수시로 바뀔 수 있기 때문에 필요하다. 또한 신규 패턴 발생시에도 안정적으로 탐지한다. 대만 반도체 기업에서 공개한 실제 웨이퍼 빈 맵 데이터(WM-811K)로 실험하였다. 계층적 군집 분석을 이용한 결함 패턴탐지는 불량의 재현율이 96.31%로 기존의 공간 필터(spatial filter)보다 우수함을 보여준다. 결함 분류는 혼합 유형에 장점이 있는 계층적 군집 분석을 그대로 사용한다. 직선형과 곡선형의 긁힘(scratch) 결함의 특징에 각각 주성분 분석의 고유값과 2차 다항식의 결정계수를 이용하고 랜덤 포레스트 분류기를 이용한다.