• 제목/요약/키워드: Imbalanced data

검색결과 153건 처리시간 0.024초

Transfer Learning-Based Feature Fusion Model for Classification of Maneuver Weapon Systems

  • Jinyong Hwang;You-Rak Choi;Tae-Jin Park;Ji-Hoon Bae
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.673-687
    • /
    • 2023
  • Convolutional neural network-based deep learning technology is the most commonly used in image identification, but it requires large-scale data for training. Therefore, application in specific fields in which data acquisition is limited, such as in the military, may be challenging. In particular, the identification of ground weapon systems is a very important mission, and high identification accuracy is required. Accordingly, various studies have been conducted to achieve high performance using small-scale data. Among them, the ensemble method, which achieves excellent performance through the prediction average of the pre-trained models, is the most representative method; however, it requires considerable time and effort to find the optimal combination of ensemble models. In addition, there is a performance limitation in the prediction results obtained by using an ensemble method. Furthermore, it is difficult to obtain the ensemble effect using models with imbalanced classification accuracies. In this paper, we propose a transfer learning-based feature fusion technique for heterogeneous models that extracts and fuses features of pre-trained heterogeneous models and finally, fine-tunes hyperparameters of the fully connected layer to improve the classification accuracy. The experimental results of this study indicate that it is possible to overcome the limitations of the existing ensemble methods by improving the classification accuracy through feature fusion between heterogeneous models based on transfer learning.

딥 러닝 기법을 이용한 무인기 표적 분류 방법 연구 (Research for Drone Target Classification Method Using Deep Learning Techniques)

  • 최순현;조인철;현준석;최원준;손성환;최정우
    • 한국군사과학기술학회지
    • /
    • 제27권2호
    • /
    • pp.189-196
    • /
    • 2024
  • Classification of drones and birds is challenging due to diverse flight patterns and limited data availability. Previous research has focused on identifying the flight patterns of unmanned aerial vehicles by emphasizing dynamic features such as speed and heading. However, this approach tends to neglect crucial spatial information, making accurate discrimination of unmanned aerial vehicle characteristics challenging. Furthermore, training methods for situations with imbalanced data among classes have not been proposed by traditional machine learning techniques. In this paper, we propose a data processing method that preserves angle information while maintaining positional details, enabling the deep learning model to better comprehend positional information of drones. Additionally, we introduce a training technique to address the issue of data imbalance.

EER-ASSL: Combining Rollback Learning and Deep Learning for Rapid Adaptive Object Detection

  • Ahmed, Minhaz Uddin;Kim, Yeong Hyeon;Rhee, Phill Kyu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4776-4794
    • /
    • 2020
  • We propose a rapid adaptive learning framework for streaming object detection, called EER-ASSL. The method combines the expected error reduction (EER) dependent rollback learning and the active semi-supervised learning (ASSL) for a rapid adaptive CNN detector. Most CNN object detectors are built on the assumption of static data distribution. However, images are often noisy and biased, and the data distribution is imbalanced in a real world environment. The proposed method consists of collaborative sampling and EER-ASSL. The EER-ASSL utilizes the active learning (AL) and rollback based semi-supervised learning (SSL). The AL allows us to select more informative and representative samples measuring uncertainty and diversity. The SSL divides the selected streaming image samples into the bins and each bin repeatedly transfers the discriminative knowledge of the EER and CNN models to the next bin until convergence and incorporation with the EER rollback learning algorithm is achieved. The EER models provide a rapid short-term myopic adaptation and the CNN models an incremental long-term performance improvement. EER-ASSL can overcome noisy and biased labels in varying data distribution. Extensive experiments shows that EER-ASSL obtained 70.9 mAP compared to state-of-the-art technology such as Faster RCNN, SSD300, and YOLOv2.

Using Machine Learning Technique for Analytical Customer Loyalty

  • Mohamed M. Abbassy
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.190-198
    • /
    • 2023
  • To enhance customer satisfaction for higher profits, an e-commerce sector can establish a continuous relationship and acquire new customers. Utilize machine-learning models to analyse their customer's behavioural evidence to produce their competitive advantage to the e-commerce platform by helping to improve overall satisfaction. These models will forecast customers who will churn and churn causes. Forecasts are used to build unique business strategies and services offers. This work is intended to develop a machine-learning model that can accurately forecast retainable customers of the entire e-commerce customer data. Developing predictive models classifying different imbalanced data effectively is a major challenge in collected data and machine learning algorithms. Build a machine learning model for solving class imbalance and forecast customers. The satisfaction accuracy is used for this research as evaluation metrics. This paper aims to enable to evaluate the use of different machine learning models utilized to forecast satisfaction. For this research paper are selected three analytical methods come from various classifications of learning. Classifier Selection, the efficiency of various classifiers like Random Forest, Logistic Regression, SVM, and Gradient Boosting Algorithm. Models have been used for a dataset of 8000 records of e-commerce websites and apps. Results indicate the best accuracy in determining satisfaction class with both gradient-boosting algorithm classifications. The results showed maximum accuracy compared to other algorithms, including Gradient Boosting Algorithm, Support Vector Machine Algorithm, Random Forest Algorithm, and logistic regression Algorithm. The best model developed for this paper to forecast satisfaction customers and accuracy achieve 88 %.

Protein Disorder Prediction Using Multilayer Perceptrons

  • Oh, Sang-Hoon
    • International Journal of Contents
    • /
    • 제9권4호
    • /
    • pp.11-15
    • /
    • 2013
  • "Protein Folding Problem" is considered to be one of the "Great Challenges of Computer Science" and prediction of disordered protein is an important part of the protein folding problem. Machine learning models can predict the disordered structure of protein based on its characteristic of "learning from examples". Among many machine learning models, we investigate the possibility of multilayer perceptron (MLP) as the predictor of protein disorder. The investigation includes a single hidden layer MLP, multi hidden layer MLP and the hierarchical structure of MLP. Also, the target node cost function which deals with imbalanced data is used as training criteria of MLPs. Based on the investigation results, we insist that MLP should have deep architectures for performance improvement of protein disorder prediction.

Logistic Regression을 이용한 이탈고객예측모형 (Churn Prediction Model using Logistic Regression)

  • 정한나;박혜진;김남형;전치혁;이재욱
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2008년도 추계학술대회 및 정기총회
    • /
    • pp.324-328
    • /
    • 2008
  • 금융산업에서 고객의 이탈비율은 기대수익에 영향을 미친다는 점에서 예측이 필요한 부분이며 최근 들어 정확한 예측을 통한 비용관리가 이루어지면서 고객 이탈을 예측하는 것이 중요한 문제로 떠오르고 있다. 그러나 보험 고객 데이터가 대용량이고 불균형한 출력 값을 갖는 특성으로 인해 기존의 방법으로 예측 모델을 만드는 것이 적합하지 않다. 본 연구에서는 대용량 데이터를 처리하는 데 효과적으로 알려져 있는 Trust-region Newton method를 적용한 로지스틱 회귀분석을 통해 이탈고객을 예측하는 것을 주된 연구로 하며, 불균형한 데이터에서의 예측정확도를 높이기 위해 Oversampling, Clustering, Boosting 등을 이용하여 고객 데이터에 적합한 이탈 고객 예측 모형을 제시하고자 한다.

  • PDF

지중송전시스템 해석을 통한 시스순환전류 특성 분석 (Characteristics of Sheath Circulating Current by Underground Transmission Systems Analysis)

  • 정채균;이종범;강지원
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 A
    • /
    • pp.449-451
    • /
    • 2002
  • Sheath circulating current rises from the change of sheath mutual impedance which is caused by imbalanced cable system, and different section length between joint boxes. However, mixed burying typo and imbalance section length take many parts of main reasons of sheath circulating current increment in domestic underground transmission power cables. Therefore, the increment reason and variation characteristics of sheath circulating current is analysed with simulation using EMTP/ATPDraw and measuring data of practical cable system which has a problem of exceeding sheath circulating current in this paper.

  • PDF

의사결정나무 분석에서 불균형 자료의 분석 연구 : 종합병원의 건강보험료 청구 심사 사례 (An Study on Decision Tree Analysis with Imbalanced Data Set : A Case of Health Insurance Bill Audit in General Hospital)

  • 허준;김종우
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.1667-1676
    • /
    • 2006
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내의 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중의 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모형을 만들어 내기 위하여 데이터 불균형 문제의 기본 해법인 과, Sampling 오분류 비용의 다양하고 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모형을 도출하였다.

  • PDF

패턴인식 문제에 대한 다층퍼셉트론의 설계 방법 (Design of Multilayer Perceptrons for Pattern Classifications)

  • 오상훈
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.99-106
    • /
    • 2010
  • 다층퍼셉트론 혹은 전방향 신경회로망이 임의의 함수를 근사시킬 수 있다는 이론적 연구결과에 기초하여 많은 분야에 응용되고 있다. 이 다층퍼셉트론을 실제 문제에 응용하는 경우에 여러 가지 파라미터 혹은 학습 방법 등을 결정하여야 한다. 이 논문에서는 패턴인식 문제에 다층퍼셉트론을 적용하는 경우에 실제 결정하여야 할 파라미터의 결정방법과 학습 방법에 대하여 논의한다. 이 논의는 각층의 노드 수 결정 방법, 다층 퍼셉트론의 가중치 초기화, 그리고, 성능향상을 위하여 학습에 사용되는 여러 가지 오차 함수, 데이터 불균형 문제의 학습, 깊은 구조 등을 다루었다.

불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법 (Kernel Perceptron Boosting for Effective Learning of Imbalanced Data)

  • 오장민;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF