• Title/Summary/Keyword: 과적합

Search Result 131, Processing Time 0.042 seconds

Pattern Classification for Biomedical Signal using BP Algorithm and SVM (BP알고리즘과 SVM을 이용한 심전도 신호의 패턴 분류)

  • Kim, Man-Sun;Lee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.1
    • /
    • pp.82-87
    • /
    • 2004
  • ECG consists of various waveforms of electric signals of heat. Datamining can be used for analyzing and classifying the waveforms. Conventional studies classifying electrocardiogram have problems like extraction of distorted characteristics, overfitting, etc. This study classifies electrocardiograms by using BP algorithm and SVM to solve the problems. As results, this study finds that SVM provides an effective prohibition of overfitting in neural networks and guarantees a sole global solution, showing excellence in generalization performance.

Adversarial Training for Grammatical Error Correction (문법 오류 교정을 위한 적대적 학습 방법)

  • Kwon, Soonchoul;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.446-449
    • /
    • 2020
  • 최근 성공적인 문법 오류 교정 연구들에는 복잡한 인공신경망 모델이 사용되고 있다. 그러나 이러한 모델을 훈련할 수 있는 공개 데이터는 필요에 비해 부족하여 과적합 문제를 일으킨다. 이 논문에서는 적대적 훈련 방법을 적용해 문법 오류 교정 분야의 과적합 문제를 해결하는 방법을 탐색한다. 모델의 비용을 증가시키는 경사를 이용한 fast gradient sign method(FGSM)와, 인공신경망을 이용해 모델의 비용을 증가시키기 위한 변동을 학습하는 learned perturbation method(LPM)가 실험되었다. 실험 결과, LPM은 모델 훈련에 효과가 없었으나, FGSM은 적대적 훈련을 사용하지 않은 모델보다 높은 F0.5 성능을 보이는 것이 확인되었다.

  • PDF

Dataset Augmentation on Fallen Person Objects in a Autonomous Driving Tractor Environment (자율주행 트랙터 환경에서 쓰러진 사람에 대한 데이터 증강)

  • Hwapyeong Baek;Hanse Ahn;Heesung Chae;Yongwha Chung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.553-556
    • /
    • 2023
  • 데이터 증강은 데이터 불균형 문제를 해결하기 위해 일반화 성능을 향상시킨다. 이는 과적합 문제를 해결하고 정확도를 높이는 데 도움을 준다. 과적합을 해결하기 위해서 본 논문에서는 분할 마스크 라벨링을 자동화하여 효율성을 높이고, RoI를 활용한 분할 Copy-Paste 데이터 증강 기법을 제안한다. 본 논문의 제안 방법을 적용한 결과 YOLOv8 모델에서 기존의 분할, 박스 Copy-Paste 데이터 증강 기법과 비교해서 쓰러진 사람 객체에 대한 정확도가 10.2% 증가함으로써 제안한 방법이 일반화 성능을 높이는 데 효과가 있음을 확인하였다.

An Improved AdaBoost Algorithm by Clustering Samples (샘플 군집화를 이용한 개선된 아다부스트 알고리즘)

  • Baek, Yeul-Min;Kim, Joong-Geun;Kim, Whoi-Yul
    • Journal of Broadcast Engineering
    • /
    • v.18 no.4
    • /
    • pp.643-646
    • /
    • 2013
  • We present an improved AdaBoost algorithm to avoid overfitting phenomenon. AdaBoost is widely known as one of the best solutions for object detection. However, AdaBoost tends to be overfitting when a training dataset has noisy samples. To avoid the overfitting phenomenon of AdaBoost, the proposed method divides positive samples into K clusters using k-means algorithm, and then uses only one cluster to minimize the training error at each iteration of weak learning. Through this, excessive partitions of samples are prevented. Also, noisy samples are excluded for the training of weak learners so that the overfitting phenomenon is effectively reduced. In our experiment, the proposed method shows better classification and generalization ability than conventional boosting algorithms with various real world datasets.

Hybrid dropout (하이브리드 드롭아웃)

  • Park, Chongsun;Lee, MyeongGyu
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.6
    • /
    • pp.899-908
    • /
    • 2019
  • Massive in-depth neural networks with numerous parameters are powerful machine learning methods, but they have overfitting problems due to the excessive flexibility of the models. Dropout is one methods to overcome the problem of oversized neural networks. It is also an effective method that randomly drops input and hidden nodes from the neural network during training. Every sample is fed to a thinned network from an exponential number of different networks. In this study, instead of feeding one sample for each thinned network, two or more samples are used in fitting for one thinned network known as a Hybrid Dropout. Simulation results using real data show that the new method improves the stability of estimates and reduces the minimum error for the verification data.

Feature Extraction Method of 2D-DCT for Facial Expression Recognition (얼굴 표정인식을 위한 2D-DCT 특징추출 방법)

  • Kim, Dong-Ju;Lee, Sang-Heon;Sohn, Myoung-Kyu
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.3
    • /
    • pp.135-138
    • /
    • 2014
  • This paper devices a facial expression recognition method robust to overfitting using 2D-DCT and EHMM algorithm. In particular, this paper achieves enhanced recognition performance by setting up a large window size for 2D-DCT feature extraction and extracting the observation vectors of EHMM. The experimental results on the CK facial expression database and the JAFFE facial expression database showed that the facial expression recognition accuracy was improved according as window size is large. Also, the proposed method revealed the recognition accuracy of 87.79% and showed enhanced recognition performance ranging from 46.01% to 50.05% in comparison to previous approaches based on histogram feature, when CK database is employed for training and JAFFE database is used to test the recognition accuracy.

Times Series Prediction by Using Bayesian Evolutionary Algorithms (베이지안 진화 학습 알고리즘을 사용한 시계열 예측)

  • 조동연;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.247-249
    • /
    • 2000
  • 본 논문에서는 대개 잡음이 포함되어 있고 불규칙적인 특성을 갖고 있는 시계열 자료에 대해 신경 트리 모델을 사용하여 시계열 예측 문제를 해결하고자 한다. 주어진 시계열 자료에 적합한 구조와 가중치를 갖는 신경트리를 찾기 위해 베이지안 진화 알고리즘을 적용한 결과, 자료의 개수가 적어 과적합될 우려가 있는 경우 제안된 방법은 모델의 복잡도가 커지는 것을 억제하고 일반화 성능이 급격하게 나빠지지 않는다는 것을 확인하였다.

  • PDF

CDBSMOTE : Class and Density Based Synthetic Minority Oversampling Technique (CDBSMOTE : 클래스와 밀도기반의 합성 소수 오버샘플링 기술)

  • Bae, Kyung-Hwan;Rhee, Kyung-Hyune
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.629-632
    • /
    • 2021
  • 머신러닝의 성능 저하에 크게 영향을 미치는 데이터 불균형은 데이터를 증강하거나 제거하여 해결할 수 있다. 본 논문에서는 지도학습에서 쓰이는 정답 데이터를 기반으로 새로운 데이터 증강기법인 CDBSMOTE을 제안한다. CDBSMOTE을 사용하면 임의의 값을 사용하지 않고, 기존의 데이터 증강기법의 문제점이었던 과적합을 최소화하며 지도학습 데이터를 효과적으로 증강시킬 수 있다.

Improving PET Bottle Image Classification Model Performance via Preprocessing (전처리를 통한 페트병 이미지 분류모델 성능 개선)

  • Dong-hyeon Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.473-474
    • /
    • 2023
  • 잘못된 분리수거는 다른 재활용 폐기물의 재활용을 제한한다. 본 논문에서는 올바른 분리수거를 위해 페트병 라벨 유무 분류 모델을 구현했다. 초기 모델의 낮은 성능을 개선하기 위해 이미지 데이터의 노이즈를 줄이는 편집을 거치고 데이터 증강을 적용하였으며, 모델 개선 작업을 진행하여 과적합을 피하면서 더 나은 성능을 도출했다. 최종 모델은 초기 모델보다 비교적 우수한 성능을 보였으나, 실제 활용 면에서는 낮은 성능을 나타냈다. 이는 학습 데이터의 질과 데이터양의 부족에서 나타난 결과로 볼 수 있다.

A Study on Characteristics of Neural Network Model for Reservoir Inflow Forecasting (저수지 유입량 예측을 위한 신경망 모형의 특성 연구)

  • Kim, Jae-Hvung;Yoon, Yong-Nam
    • Journal of the Korean Society of Hazard Mitigation
    • /
    • v.2 no.4 s.7
    • /
    • pp.123-129
    • /
    • 2002
  • In this study the results of Chungju reservoir inflow forecasting using 3 layered neural network model were analyzed in order to investigate the characteristics of neural network model for reservoir inflow forecasting. The proper neuron numbers of input and hidden layer were proposed after examining the variations of forecasted values according to neuron number and training epoch changes, and the probability of underestimation was judged by deliberating the variation characteristics of forecasting according to the differences between training and forecasting peak inflow magnitudes. In addition, necessary minimum training data size for precise forecasting was proposed. As a result, We confirmed the probability that excessive neuron number and training epoch cause over-fitting and judged that applying $8{\sim}10$ neurons, $1500{\sim}3000$ training epochs might be suitable in the case of Chungju reservoir inflow forecasting. When the peak inflow of training data set was larger than the forecasted one, it was confirmed that the forecasted values could be underestimated. And when the comparative short period training data was applied to neural networks, relatively inaccurate forecasting outputs were resulted and applying more than 600 training data was recommended for more precise forecasting in Chungju reservoir.