• 제목/요약/키워드: Multi-class Classification

검색결과 224건 처리시간 0.026초

혼합샘플링 기법을 사용한 랜섬웨어탐지 성능향상에 관한 연구 (A study on the improvement ransomware detection performance using combine sampling methods)

  • 김수철;이형동;변경근;신용태
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.69-77
    • /
    • 2023
  • 최근 아일랜드 보건당국, 미(美) 송유관 등 전(全) 세계적으로 랜섬웨어 피해가 급증하고 있으며, 사회 모든 분야에 피해를 입히고 있다. 특히, 랜섬웨어 탐지 및 대응에 기존의 탐지방법뿐 아니라 머신러닝 등을 이용한 연구가 늘어 나고 있다. 하지만, 전통적인 머신러닝은 모델이 데이터가 많은 쪽으로 예측하는 경향이 강해 정확한 예측값을 추출하기 어려운 문제점이 있다. 이에 다수(Majority)의 Non-Ransomware(정상코드 또는 멀웨어)와 소수의(Minority) Ransomware로 구성된 불균형(Imbalance) 클래스에서 샘플링 기법을 통해 불균형을 해소하고 랜섬웨어탐지 성능을 향상시키는 기법을 제안하였다. 본 실험에서는 두가지 시나리오(Binary, Multi Classification)을 사용하여 샘플링 기법이 다수 클래스의 탐지 성능을 유지하면서 소수 클래스의 탐지 성능을 개선함을 확인하였다. 특히, 제안된 혼합샘플링 기법(SMOTE+ENN)이 10% 이상의 성능(G-mean, F1-score) 향상을 도출했다.

네이버 영화 리뷰 데이터를 이용한 의미 분석(semantic analysis) (Semantic analysis via application of deep learning using Naver movie review data)

  • 김소진;송종우
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.19-33
    • /
    • 2022
  • SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.

효율적 자원 탐색을 위한 소셜 웹 태그들을 이용한 동적 가상 온톨로지 생성 연구 (Dynamic Virtual Ontology using Tags with Semantic Relationship on Social-web to Support Effective Search)

  • 이현정;손미애
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.19-33
    • /
    • 2013
  • 본 논문에서는 네트워크 기반 대용량의 자원들을 효율적으로 검색하기 위해 사용자의 요구사항에 기반해 검색에 요구되는 태그들 간의 의미론에 기반한 동적 가상 온톨로지(Dynamic Virtual Ontology using Tags: DyVOT)를 추출하고 이를 이용한 동적 검색 방법론을 제안한다. 태그는 소셜 네트워크 서비스를 지원하거나 이로부터 생성되는 정형 및 비정형의 다양한 자원들에 대한 자원을 대표하는 특성을 포함하는 메타적 정보들로 구성된다. 따라서 본 연구에서는 이러한 태그들을 이용해 자원의 관계를 정의하고 이를 검색 등에 활용하고자 한다. 관계 등의 정의를 위해 태그들의 속성을 정의하는 것이 요구되며, 이를 위해 태그에 연결된 자원들을 이용하였다. 즉, 태그가 어떠한 자원들을 대표하고 있는 지를 추출하여 태그의 성격을 정의하고자 하였고, 태그를 포함하는 자원들이 무엇인지에 의해 태그간의 의미론적인 관계의 설정도 가능하다고 보았다. 즉, 본 연구에서 제안하는 검색 등의 활용을 목적으로 하는 DyVOT는 태그에 연결된 자원에 근거해 태그들 간의 의미론적 관계를 추출하고 이에 기반 하여 가상 동적 온톨로지를 추출한다. 생성된 DyVOT는 대용량의 데이터 처리를 위해 대표적인 예로 검색에 활용될 수 있으며, 태그들 간의 의미적 관계에 기반해 검색 자원의 뷰를 효과적으로 좁혀나가 효율적으로 자원을 탐색하는 것을 가능하도록 한다. 이를 위해 태그들 간의 상하 계층관계가 이미 정의된 시맨틱 태그 클라우드인 정적 온톨로지를 이용한다. 이에 더해, 태그들 간의 연관관계를 정의하고 이에 동적으로 온톨로지를 정의하여 자원 검색을 위한 동적 가상 온톨로지 DyVOT를 생성한다. DyVOT 생성은 먼저 정적온톨로지로부터 사용자 요구사항을 포함하는 태그를 포함한 부분-온톨로지들을 추출하고, 이들이 공유하는 자원의 정도에 따라 부분-온톨로지들 간의 새로운 연관관계 여부를 결정하여 검색에 요구되는 최소한의 동적 가상 온톨로지를 구축한다. 즉, 태그들이 공유하는 자원이 무엇인가에 의해 연관관계가 높은 태그들 간에는 이들의 관계를 설명하는 새로운 클래스를 가진 생성된 동적 가상 온톨로지를 이용하여 검색에 활용한다. 온톨로지의 인스턴스는 자원으로 정의되고, 즉 이는 사용자가 검색하고자 하는 해로서 정의된다. 태그들 간의 관계에 의해 생성된 DyVOT를 이용해 기존 정적 온톨로지나 키워드 기반 탐색에 비해 검색해야 할 자원의 량을 줄여 검색의 정확성과 신속성을 향상 시킨다.

Privacy Disclosure and Preservation in Learning with Multi-Relational Databases

  • Guo, Hongyu;Viktor, Herna L.;Paquet, Eric
    • Journal of Computing Science and Engineering
    • /
    • 제5권3호
    • /
    • pp.183-196
    • /
    • 2011
  • There has recently been a surge of interest in relational database mining that aims to discover useful patterns across multiple interlinked database relations. It is crucial for a learning algorithm to explore the multiple inter-connected relations so that important attributes are not excluded when mining such relational repositories. However, from a data privacy perspective, it becomes difficult to identify all possible relationships between attributes from the different relations, considering a complex database schema. That is, seemingly harmless attributes may be linked to confidential information, leading to data leaks when building a model. Thus, we are at risk of disclosing unwanted knowledge when publishing the results of a data mining exercise. For instance, consider a financial database classification task to determine whether a loan is considered high risk. Suppose that we are aware that the database contains another confidential attribute, such as income level, that should not be divulged. One may thus choose to eliminate, or distort, the income level from the database to prevent potential privacy leakage. However, even after distortion, a learning model against the modified database may accurately determine the income level values. It follows that the database is still unsafe and may be compromised. This paper demonstrates this potential for privacy leakage in multi-relational classification and illustrates how such potential leaks may be detected. We propose a method to generate a ranked list of subschemas that maintains the predictive performance on the class attribute, while limiting the disclosure risk, and predictive accuracy, of confidential attributes. We illustrate and demonstrate the effectiveness of our method against a financial database and an insurance database.

비선형 탄성 다점지지 베어링 요소를 이용한 선미관 베어링의 유효지지점 검증 (Verification of Effective Support Points of Stern Tube Bearing Using Nonlinear Elastic Multi-Support Bearing Elements)

  • 정준모;최익흥;김규창
    • 대한조선학회논문집
    • /
    • 제42권5호
    • /
    • pp.479-486
    • /
    • 2005
  • The final goal of shift alignment design is that the bearing reaction forces or mean pressures are within design boundaries for various service conditions of a ship. However, it is found that calculated bearing load can be substantially variable according to the locations of the effective support points of after sterntube bearing which are determined by simple calculation or assumption suggested by classification societies. A new analysis method for shaft alignment calculation is introduced in order to resolve these problems. Key concept of the new method is featured by adopting both nonlinear elastic and multi-support elements to simulate a bearing support Hertz contact theory is basically applied for nonlinear elastic stiffness calculation instead of the projected area method suggested by most of classification societies. Three loading conditions according to the bearing offset and the hydrodynamic moment and twelve models according to the locations of the effective support points of sterntube bearings are prepared to carry out quantitative verifications for an actual shafting system of 8000 TEU class container vessel. It is found that there is relatively large difference between assumed and calculated effective support points.

Parzen 윈도우 추정에 기반한 다중 초점 이미지 융합 기법 (Multi-focus Image Fusion Technique Based on Parzen-windows Estimates)

  • ;박대철
    • 한국인터넷방송통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.75-88
    • /
    • 2008
  • 본 논문은 입력 이미지 블록의 클래스 조건부 확률 밀도 함수의 커널 추정에 기반한 공간 영역에서의 다중초점 이미지 융합 기법을 제안한다. 이미지 융합 문제를 시험 패턴으로부터 추정된 유사 밀도 함수에 의해 사후 클래스 확률, P($w_{i}{\mid}B_{ikl}$),을 계산하는 분류 임무로 접근하였다. C개의 입력 이미지 $I_{i}$에 대하여 제안한 방법은 i 클래스 $w_{i}$를 정의하고 베이즈 결정 원리에 기초하여 판별 함수를 최대화하는 PxQ 블록 $B_{ikl}$의 집합에 의해 표현되는 결정 지도로 부터 융합 이미지 Z(k,l)를 형성한다. 출력 화질의 척도로서 RMSE 와 상호 정보량인 MI를 사용하여 제안한 기법의 성능이 평가되었다. 커널 함수의 폭 ${\sigma}$ 도 변화시키고, 다른 종류의 커널과 블록 크기를 변화시켜 가며 성능평가를 수행하였다. 제안한 가법은 C=2 와 C=3에 대하여 시험하였고 시험 결과는 좋은 성능을 보였다.

  • PDF

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.

자기연상 다층퍼셉트론의 이상 탐지 성질 분석 (Analysis of Novelty Detection Properties of Autoassociative MLP)

  • 이형주;황병호;조성준
    • 대한산업공학회지
    • /
    • 제28권2호
    • /
    • pp.147-161
    • /
    • 2002
  • In novelty detection, one attempts to discriminate abnormal patterns from normal ones. Novelty detection is quite difficult since, unlike usual two class classification problems, only normal patterns are available for training. Auto-Associative Multi-Layer Perceptron (AAMLP) has been shown to provide a good performance based upon the property that novel patterns usually have larger auto-associative errors. In this paper, we give a mathematical analysis of 2-layer AAMLP's output characteristics and empirical results of 2-layer and 4-layer AAMLPs. Various activation functions such as linear, saturated linear and sigmoid are compared. The 2-layer AAMLPs cannot identify non-linear boundaries while the 4-layer ones can. When the data distribution is multi-modal, then an ensemble of AAMLPs, each of which is trained with pre-clustered data is required. This paper contributes to understanding of AAMLP networks and leads to practical recommendations regarding its use.

Establishment of a deep learning-based defect classification system for optimizing textile manufacturing equipment

  • YuLim Kim;Jaeil Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.27-35
    • /
    • 2023
  • 본 논문에서는 복합소재 생산 분야에서 수요가 높은 프리프레그 섬유 제조 공정에 딥러닝 기반의 결함 검출 및 분류 시스템을 적용하여 생산성을 높이는 과정을 제안한다. 다양한 조건별 다량의 불량 발생으로 해결방안이 필요한 토우 프리프레그 제조 장비에 적용하기 위해 우선 결함 감지와 분류 모델 제작에 필요한 카메라 및 조명을 선정하여 최적의 환경을 구축하였다. 그리고 다중 분류 모델 제작에 필요한 데이터를 수집하고 정상 및 불량 조건에 따라 라벨링을 진행하였다. 다중 분류 모델은 CNN 기반으로 제작하였으며 VGGNet과 MobileNet, ResNet 등의 사전 학습모델을 적용하여 성능을 비교하고 정확도 및 손실 그래프로 개선 방향을 파악한다. 주요 문제로 과적합 문제를 확인하여 개선하기 위해 데이터 증강 및 Dropout 기법을 적용하여 보완하였다. 모델에 대한 성능 평가를 위해 혼돈행렬을 성능지표로 한 성능 평가를 진행하였으며 99% 이상의 성능을 확인하였다. 또한, 실제 공정에 적용하여 실시간 획득된 이미지에 대한 분류 결과를 확인해보며 판별 값이 정확히 도출되는지 확인한다.

이수식 TBM 데이터와 랜덤포레스트를 이용한 일축압축강도 분류 예측에 관한 연구 (A Study on the Prediction of Uniaxial Compressive Strength Classification Using Slurry TBM Data and Random Forest)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.547-560
    • /
    • 2023
  • 최근 국내외에서 기계학습 기법으로 TBM 굴진 데이터와 지반데이터를 분석하는 지반 분류예측 연구가 증가하고 있다. 본 연구에서는 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 의사결정트리 기반 랜덤포레스트 모델을 3곳의 이수식 TBM 현장에서 획득한 기계 데이터와 지반 데이터에 적용하여 일축압축강도에 대한 다중 분류예측 연구를 하였다. 일축압축강도의 다중 분류 예측을 위해서 학습과 테스트 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 의사 결정 트리를 기반으로 한 랜덤 포레스트를 사용하여 일축압축강도 분류 학습을 수행한 결과, 다중 분류 예측 모델의 정확도는 학습 세트와 테스트 세트에서 각각 0.983 및 0.982로 모두 높게 나타났다. 다만, 클래스 간 데이터 분포의 불균형으로 인하여 클래스 4에서는 재현율이 낮게 평가되었다. 다양한 현장에서 획득한 일축압축강도의 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.