• 제목/요약/키워드: Overfitting 문제

검색결과 66건 처리시간 0.025초

RGB 데이터 기반 행동 인식에 관한 연구 (A Study on Action Recognition based on RGB data)

  • 김상조;김미경;차의영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.936-937
    • /
    • 2017
  • 최근 딥러닝을 통하여 영상의 카테고리 분류를 응용한 행동 인식이 활발히 연구되고 있다. 그러나 행동 인식을 위한 기존 연구 방법은 높은 수준의 하드웨어 사양을 요구하며 행동 인식에 대한 학습에 많은 시간이 소모되는 문제점을 지니고 있다. 또한, 행동 인식 테스트 결과를 얻기 위해 많은 시간이 소모되며 딥러닝 특성상 적은 수의 학습 데이터는 overfitting 문제를 일으킨다. 본 연구에서는 이러한 문제점을 해결하고자 행동인식을 위한 학습시간과 테스트 시간 감소를 위해 미리 학습된 VGG 모델을 사용해 얻어낸 RGB 데이터의 특징만을 학습에 사용하고 적은 수의 데이터로 행동 인식 테스트 결과를 높이기 위하여 RGB 데이터 증대를 통해 기존의 행동인식 연구보다 학습시간과 행동인식 테스트에 소모되는 시간을 줄인 방법을 행동 인식에 적용하였다. 이 방법을 UCF50 Dataset 에 적용하여 98.13%의 행동인식에 관한 정확성을 확인하였다.

유전적 프로그래밍을 이용한 응답면의 모델링 I : 방향도함수 기반의 Smoothering 기법 (Response Surface Modeling by Genetic Programming I: A Directional Derivative-Based Smoothering Method)

  • 연윤석;이욱
    • 정보기술응용연구
    • /
    • 제3권3호
    • /
    • pp.1-24
    • /
    • 2001
  • 본 논문은 최소한의 학습데이터를 사용하여 비선형의 응답면을 모델링할 수 있는 방안으로 유전적 프로그래밍을(Genetic Programming, GP)의 사용을 모색하였다. 이때 대두되는 가장 큰 문제는 GP 트리가 부족한 학습 데이터 때문에 심한 Overfilling 현상을 보인다는 점이다.이를 극복하기 위한 방법으로 DDBS (Directional Derivative-Based Smoothering) 기법을 제안하였고, 유용성을 검증하기 위해서 4 가지 응용 예를 보였다.

  • PDF

광역시·도민의 우울경험에 대한 Random Forest 비교분석 (Comparative analysis of random forest on depression experiences of metropolitan and provincial residents)

  • 이동수;김유정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.321-324
    • /
    • 2023
  • 본 연구는 광역시와 광역도 간의 개인적 요인과 건강수준 정도가 우울경험 여부에 영향을 미치는 변수의 중요도를 파악하고자 시도되었다. 본 연구의 자료는 질병관리청의 2021년 지역사회건강조사 데이터를 활용하였다. 광역시의 데이터는 4,602건을 이용하였고, 광역도는 19,545건의 데이터를 이용하였다. 자료 분석에 활용된 빅데이터는 R 4.3.0 for Windows를 활용하여 단어 빈도 분석과 machine learning기법인 Random Forest분석을 실시하였다. 연구결과, train 데이터와 test 데이터의 과적합(overfitting)의 문제는 발생하지 않았으며, machine learning 기법의 분류모델은 약 94% 수준으로 나타났다. 분석 결과 광역시와 광역도 간의 우울경험여부에 미치는 중요도가 각각 다르게 나타났다. 두 지역의 시민에게 미치는 우울경험의 원인을 다르게 접근함으로써 보다 더 효율적인 정책수립이 가능 할 것으로 판단된다.

  • PDF

AIC(AKaike's Information Criterion)을 이용한 교통량 예측 모형 (Traffic Forecasting Model Selection of Artificial Neural Network Using Akaike's Information Criterion)

  • 강원의;백남철;윤혜경
    • 대한교통학회지
    • /
    • 제22권7호
    • /
    • pp.155-159
    • /
    • 2004
  • 최근 교통량 예측을 위한 인공 신경망(Artificial neural networks : ANNs) 구조와 학습방법에 대한 연구가 다양하게 시도되고 있다. 이것은 신경망이 유연한 비선형 모형(non-linear model)으로 강력한 패턴 인식 능력을 가지고 있기 때문이다. 그러나, 신경망은 비선형 모형이기 때문에 많은 매개변수(parameter)를 사용하게 되면서 과적합(overfitting) 문제에 부딪히게 된다. 본 논문에서는 이러한 교통량 예측을 위한 신경망 모형에서 과적합을 해소하기 위한 방안으로 매개변수에 대한 다양한 모형선택기준(model selection criterion)에 대한 적용성에 대해서 알아보았다. 특히, AIC계열을 중심으로 모형선택기준으로 선택된 모형이 과적합 경향을 해소하고 시간적 전이성을 보장할 수 있는지를 분석하는데 본 연구의 목적을 두고 있다. 교통량 자료를 신경망 모형에 적용하여 분석한 결과, 첫째 학습자료(in-sample) 모형선택기준에 의해 선택된 모형이 검증자료(out-of-sample)의 최적의 성능을 보장하지는 못한다는 결과를 얻었다. 즉, 본 연구에서 기존의 연구에서처럼, 학습자료(in-sample)의 최적 모형이 검증자료(out-of-sample)의 성능과 직접적인 관계가 없다는 것을 알 수 있었다. 둘째 모형선택기준의 안정성을 분석한 결과 AIC3, AICC, BIC는 안정적인 모형을 선택하는 기준으로서 의미가 있는 것으로 분석되었다. 하지만, AIC4의 경우는 최상의 모형과 편차가 큰 것으로 분석되었다. 시계열 자료 분석과 예측에 있어서 모형의 불확실성은 학습 자료와 검증 자료의 상관관계에 영향을 줄 수 있음에 비춰볼 때, 앞으로 보다 많은 자료에 대한 분석이 필요하다고 판단되며, 다른 시계열 자료에 대한 분석이 요구된다. 수 없었지만, 확정적 통행배정모형으로 설정한 경우, Stackelberg게임 접근법이 Cournot-Nash게임 접근법 보다 더 우수함을 확인할 수 있었다.다.수안보 등 지역에서 나타난다 이러한 이상대 주변에는 대개 온천이 발달되어 있었거나 새로 개발되어 있는 곳이다. 온천에 이용하고 있는 시추공의 자료는 배제하였으나 온천이응으로 직접적으로 영향을 받지 않은 시추공의 자료는 사용하였다 이러한 온천 주변 지역이라 하더라도 실제는 온천의 pumping 으로 인한 대류현상으로 주변 일대의 온도를 올려놓았기 때문에 비교적 높은 지열류량 값을 보인다. 한편 한반도 남동부 일대는 이번 추가된 자료에 의해 새로운 지열류량 분포 변화가 나타났다 강원 북부 오색온천지역 부근에서 높은 지열류량 분포를 보이며 또한 우리나라 대단층 중의 하나인 양산단층과 같은 방향으로 발달한 밀양단층, 모량단층, 동래단층 등 주변부로 NNE-SSW 방향의 지열류량 이상대가 발달한다. 이것으로 볼 때 지열류량은 지질구조와 무관하지 않음을 파악할 수 있다. 특히 이러한 단층대 주변은 지열수의 순환이 깊은 심도까지 가능하므로 이러한 대류현상으로 지표부근까지 높은 지온 전달이 되어 나타나는 것으로 판단된다.의 안정된 방사성표지효율을 보였다. $^{99m}Tc$-transferrin을 이용한 감염영상을 성공적으로 얻을 수 있었으며, $^{67}Ga$-citrate 영상과 비교하여 더 빠른 시간 안에 우수한 영상을 얻을 수 있었다. 그러므로 $^{99m}Tc$-transierrin이 감염 병소의 영상진단에 사용될 수 있을 것으로 기대된다.리를 정량화 하였다. 특히 선조체에서의 도파민 유리에 의한 수용체 결합능의 감소는 흡연에 의한 혈중 니코틴의 축적 농도와 양의 상관관계를 보였다

보조 분류기를 이용한 GAN 모델에서의 데이터 증강 누출 방지 기법 (A Scheme for Preventing Data Augmentation Leaks in GAN-based Models Using Auxiliary Classifier)

  • 심종화;이지은;황인준
    • 전기전자학회논문지
    • /
    • 제26권2호
    • /
    • pp.176-185
    • /
    • 2022
  • 데이터 증강이란 다양한 데이터 변환 및 왜곡을 통해 데이터셋의 크기와 품질을 개선하는 기법으로, 기계학습 모델의 과적합 문제를 해결하기 위한 대표적인 접근법이다. 그러나 심층학습 이미지 생성 모델인 GAN 기반 모델에서 데이터 증강을 적용하면 생성된 이미지에 데이터 변환과 왜곡이 반영되는 증강 누출 문제가 발생하여 생성 이미지의 품질이 하락한다. 이러한 문제를 해결하기 위해 본 논문에서는 데이터 증강의 종류와 수에 관계없이 증강 누출을 방지하는 기법을 제안한다. 증강 누출의 발생 조건을 분석하였으며, 보조적인 데이터 증강 작업 분류기를 GAN 모델에 적용하여 증강 누출을 방지하였다. 정성적 정량적 평가를 통해 제안된 기법을 적용하면 증강 누출이 발생하지 않음을 보이고 추가적으로 생성 이미지의 품질을 향상시키며 기존 기법과 비교하여 발전된 성능을 보임을 입증하였다.

일반화가법모형에서 축소방법의 적용연구 (A Study on Applying Shrinkage Method in Generalized Additive Model)

  • 기승도;강기훈
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.207-218
    • /
    • 2010
  • 일반화가법모형은 기존 선형회귀모형의 문제점을 대부분 해결한 통계모형이지만 의미있는 독립변수의 수를 줄이는 방법이 적용되지 않을 경우 과대적합 문제가 발생할 수 있다. 그러므로 일반화가법모형에서 변수 축소방법을 적용하는 연구가 필요하다. 회귀분석에서 변수 축소방법으로 최근에는 Lasso 계열의 접근법이 연구되고 있다. 본 연구에서는 활용성이 높은 통계모형인 일반화가법모형에 Lasso 계열의 모형 중에서 Group Lasso와 Elastic net 모형을 적용하는 방법을 제시하고 이들의 해를 구하는 절차를 제안하였다. 그리고 제안된 방법을 모의실험과 실제자료인 회계년도 2005년 자동차보혐 자료에 적용을 통해 비교하여 보았다. 그 결과 본 논문에서 제안한 Group Lasso와 Elastic net을 이용하여 변수 축소를 통한 일반화가법모형이 기존의 방법보다 더 나은 결과를 제공하는 것으로 분석 되었다.

항공기 날개의 통계적 중량 예측식 도출 연구 (A Study on Deriving the Statistical Weight Estimation Formula for an Aircraft Wing)

  • 김석범;정한규;황호연
    • 한국항공우주학회지
    • /
    • 제46권1호
    • /
    • pp.32-40
    • /
    • 2018
  • 본 논문에서는 개념설계 단계에서 주로 사용되는 통계적 중량 예측식 도출 방법에 관한 연구를 수행하였으며 Microsoft Excel을 이용해 이를 프로그램화하고 제트 여객기에 적용하여 검증하였다. 기존 중량 예측식들의 변수들을 참고하여 데이터베이스를 구축하였고 이를 사용하여 제트 여객기 날개 중량 예측식을 모델링하였다. 모델의 과적합 문제를 해결하기 위해 K-fold cross validation 방법을 사용하여 모델을 평가하였다.

깊은 신경망 기반의 전이학습을 이용한 사운드 이벤트 분류 (Sound event classification using deep neural network based transfer learning)

  • 임형준;김명종;김회린
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.143-148
    • /
    • 2016
  • 깊은 신경망은 데이터의 특성을 효과적으로 나타낼 수 있는 방법으로 최근 많은 응용 분야에서 활용되고 있다. 하지만, 제한적인 양의 데이터베이스는 깊은 신경망을 훈련하는 과정에서 과적합 문제를 야기할 수 있다. 본 논문에서는 풍부한 양의 음성 혹은 음악 데이터를 이용한 전이학습을 통해 제한적인 양의 사운드 이벤트에 대한 깊은 신경망을 효과적으로 훈련하는 방법을 제안한다. 일련의 실험을 통해 제안하는 방법이 적은 양의 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 현저한 성능 향상이 있음을 확인하였다.

하이퍼스펙트럴 데이터 분류에서의 평탄도 LDA 규칙화 기법의 실험적 분석 (An Experimental Study on Smoothness Regularized LDA in Hyperspectral Data Classification)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제20권4호
    • /
    • pp.534-540
    • /
    • 2010
  • 고차원 특성과 높은 상관성은 하이퍼스펙트럴 데이터의 주요 특징이다. LDA와 그 변형 선형 투사 방법들이 고차원 스펙트럴 정보로부터 저차원의 특징을 추출하는데 사용되었다. LDA는 학습 데이터가 적은 경우 흔히 발생하는 과대적합으로 인해 일반화 성능이 낮아지는 문제가 발생하는데, 이를 완화하기 위하여 LDA 규칙화(regularization) 방법들이 제시되었다. 그 중, 평탄도(smoothness) 제약에 기반한 LDA 규칙화 기법은 높은 상관성을 갖는 하이퍼스펙트럴 데이터의 특성에 적합한 특징 추출 기법이다. 본 논문에서는 하이퍼스펙트럴 데이터 분류에서 평탄도 제약을 갖는 LDA 규칙화 방법을 소개하고 학습 데이터 조건에 따른 성능을 실험적으로 분석한다. 또한, 분류 성능의 향상을 위한 스펙트럴 정보와 공간적 정보의 상관성을 함께 활용하는 이중 평탄도 LDA 규칙화 기법을 제시한다.

자연 프루닝과 베이시안 선택에 의한 신경회로망 일반화 성능 향상 (Improving Generalization Performance of Neural Networks using Natural Pruning and Bayesian Selection)

  • 이현진;박혜영;이일병
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.326-338
    • /
    • 2003
  • 신경회로망 설계 및 모델선택의 목표는 최적의 구조를 가지는 일반화 성능이 우수한 네트워크를 구성하는 것이다. 하지만 학습데이타에는 노이즈(noise)가 존재하고, 그 수도 충분하지 않기 때문에 최종적으로 표현하고자 하는 진확률 분포와 학습 데이타에 의해 표현되는 경험확률분포(empirical probability density) 사이에는 차이가 발생한다. 이러한 차이 때문에 신경회로망을 학습데이타에 대하여 과다하게 적합(fitting)시키면, 학습데이타만의 확률분포를 잘 추정하도록 매개변수들이 조정되어 버리고, 진확률 분포로부터 멀어지게 된다. 이러한 현상을 과다학습이라고 하며, 과다학습된 신경회로망은 학습데이타에 대한 근사는 우수하지만, 새로운 데이타에 대한 예측은 떨어지게 된다. 또한 신경회로망의 복잡도가 증가 할수록 더 많은 매개변수들이 노이즈에 쉽게 적합되어 과다학습 현상은 더욱 심화된다. 본 논문에서는 통계적인 관점을 바탕으로 신경회로망의 일반화 성능을 향상시키는 신경회로 망의 설계 및 모델 선택의 통합적인 프로세스를 제안하고자 한다. 먼저 학습의 과정에서 적응적 정규화가 있는 자연기울기 학습을 통해 수렴속도의 향상과 동시에 과다학습을 방지하여 진확률 분포에 가까운 신경회로망을 얻는다. 이렇게 얻어진 신경회로망에 자연 프루닝(natural pruning) 방법을 적용하여 서로 다른 크기의 후보 신경회로망 모델을 얻는다. 이러한 학습과 복잡도 최적화의 통합 프로세스를 통하여 얻은 후보 모델들 중에서 최적의 모델을 베이시안 정보기준에 의해 선택함으로써 일반화 성능이 우수한 최적의 모델을 구성하는 방법을 제안한다. 또한 벤치마크 문제를 이용한 컴퓨터 시뮬레이션을 통하여, 제안하는 학습 및 모델 선택의 통합프로세스의 일반화 성능과 구조 최적화 성능의 우수성을 검증한다.