• 제목/요약/키워드: 과소적합

검색결과 104건 처리시간 0.027초

클라우드컴퓨팅 기반의 HW용량 산정방법에 관한 연구

  • 최국현;강용석;신용태;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.878-881
    • /
    • 2014
  • 정보시스템은 메인프레임(Mainframe)에서 클라이언트/서버시스템(C/S System), 인터넷 및 인트라넷 시스템을 지나 최근에는 클라우드 컴퓨팅환경으로 발전하고 있다. 이러한 복잡성과 컴퓨팅 환경의 다변함에 따라 시스템 성능 및 용량 산정에 관한 중요성은 점점 부각되고 있다. 이는 기존의 H/W(하드웨어규모산정지침 등)의 방식이 체계적이지 못하고, 다양한 컴퓨팅 환경의 특징을 반영하지 못하기 때문이며 이는 하드웨어 구축비용의 증가 혹은 감소로 실제 요구되는 정보시스템 자원이 과다 또는 과소 산정되는 경우가 발생할 수 있다. 특히 클라우드 컴퓨팅은 막대한 서버자원이 필요하기 때문에 보다 체계적이고 정확하게 HW를 산정하는 것은 사업성공 중요한 요소라 할 수 있다. 클라우드 컴퓨팅의 하드웨어의 용량 산정을 위해서는 우선 IT자원의 성격에 따른 3가지 서비스모델(서비스형소프트웨어, 플랫폼형서비스, 인프라형서비스)에 적합한 용량산정모델을 제시해야 한다. IaaS는 사용자에게 인프라기반의 서비스를 제공하며, PaaS의 경우에는 플랫폼과 OS 등의 개발환경을 제공의 목적이 있기 때문에 HW용량산정을 위해서는 다양한 측면에서의 접근이 요구된다. SaaS는 WEB/WAS의 서비스와 유사한 형태의 서비스 특징을 가지고 있기 때문에 기존 서비스 특징과 클라우드 특징을 도출하기에 적합하다 할 수 있다. 본 연구에서는 SaaS기반의 하드웨어 용량산정에 대한 방법과 기준을 제시하였다. 본 연구결과는 클라우드 컴퓨팅 환경구축 시 HW용량산정에 대한 가이드라인으로 활용 가능하다.

  • PDF

적은 양의 데이터에 적용 가능한 계층별 데이터 증강 알고리즘 (A layered-wise data augmenting algorithm for small sampling data)

  • 조희찬;문종섭
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.65-72
    • /
    • 2019
  • 데이터 증강(Data Augmentation)은 적은 양의 데이터를 바탕으로 다양한 알고리즘을 통해 데이터의 양을 늘리는 기술이다. 현실문제를 해결하기 위해 기계학습 및 딥러닝 기법을 사용하는 경우, 데이터 셋이 부족한 경우가 많다. 데이터의 부족은 모델 학습 시, 데이터 셋의 특징을 잘 반영하지 못하는 것 이외에도 과소적합 및 과적합에 빠질 위험이 크다. 따라서 본 논문에서는 오토인코더와 고유값 분해를 기반으로 하는 데이터 증강 기법을 통해 데이터를 증강 시키고 이를 심층 신경망의 각 층 마다 적용하여, 심층 신경망을 효과적으로 사전 학습하는 방법을 제시한다. 이후, WOBC 데이터와 WDBC 데이터에 대해 실험을 통하여 논문에서 제안하는 방법이 분류 정확도를 향상시키는지 측정하고 기존 연구들과 비교함으로써 제안한 방법이 실질적으로 의미가 있는 데이터를 생성하고 모델의 학습에 효과적임을 보인다.

저수지 유입량 예측을 위한 신경망 모형의 특성 연구 (A Study on Characteristics of Neural Network Model for Reservoir Inflow Forecasting)

  • 김재형;윤용남
    • 한국방재학회 논문집
    • /
    • 제2권4호
    • /
    • pp.123-129
    • /
    • 2002
  • 본 연구에서는 3층 신경망 모형에 의해 충주호의 유입량을 예측한 결과들을 이용하여 신경망 모형의 저수지 유입량 예측 특성을 분석하였다. 신경망 모형의 적절한 입력층 및 은닉층 뉴런 개수, 학습회수를 제시하였으며, 학습 첨두유량 크기가 예측된 첨두유량보다 작을 경우 예측 값이 과소평가되는 특징을 확인하였다. 또한 뉴런 개수, 학습회수가 과다할 경우 발생 가능한 과적합 현상을 확인하였으며, 정확한 예측을 위해 필요한 최소 학습자료 기간도 제시하였다. 결과적으로 충주호의 경우 $8{\sim}10$개의 뉴런 개수 및 $1500{\sim}3000$회의 학습회수를 이용한 신경망 모형이 적합한 것으로, 학습자료 기간 수는 최소한 600개 이상의 자료를 적용하여야 정확한 예측이 가능한 것으로 결과되었다.

적대적 생성망을 이용한 부동산 시계열 데이터 생성 방안 (A Methodology for Realty Time-series Generation Using Generative Adversarial Network)

  • 유재필;한창훈;신현준
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.9-17
    • /
    • 2021
  • 최근 빅데이터 분석, 인공지능, 기계학습 등의 발전으로 인해서 데이터를 과학적으로 분석하는 기술이 발전하고 있으며 이는 의사결정 문제를 최적으로 해결해주고 있다. 그러나 특정 분야의 경우에는 데이터의 양이 부족해서 과학적 방식에 적용하는 것이 어렵다. 예컨대 부동산과 같은 데이터는 데이터 발표 시점이 최근이거나 비 유동성 자산이다 보니 발표 주기가 긴 경우가 많다. 따라서 본 연구에서는 이런 문제점을 극복하기 위해서 TimeGAN 모형을 통해 기존의 시계열의 확장 가능성에 대해서 연구하고자 한다. 이를 위해 부동산과 관련된 총 45개의 시계열을 데이터 셋에 맞게 2012년부터 2021년까지 주 단위로 데이터를 수집하고 시계열 간의 상관관계를 고려해서 총 15개의 최종 시계열을 선정한다. 15개의 시계열에 대해서 TimeGAN 모형을 통해 데이터 확장을한 결과, PCA 및 T-SNE 시각화 알고리즘을 통해 실제 데이터와 확장 데이터 간의 통계적 분포가 유사하다는 것을 확인할 수 있었다. 따라서 본 논문을 통해서 데이터의 과적합 또는 과소적합이라는 한계점을 극복할 수 있는 다양한 실험이 연구되기를 기대한다.

CT 이미지 세그멘테이션을 위한 3D 의료 영상 데이터 증강 기법 (3D Medical Image Data Augmentation for CT Image Segmentation)

  • 고성현;양희규;김문성;추현승
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.85-92
    • /
    • 2023
  • X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI)과 같은 의료데이터에서 딥러닝을 활용해 질병 유무 판별 태스크와 같은 문제를 해결하려는 시도가 활발하다. 대부분의 데이터 기반 딥러닝 문제들은 높은 정확도 달성과 정답과 비교하는 성능평가의 활용을 위해 지도학습기법을 사용해야 한다. 지도학습에는 다량의 이미지와 레이블 세트가 필요하지만, 학습에 충분한 양의 의료 이미지 데이터를 얻기는 어렵다. 다양한 데이터 증강 기법을 통해 적은 양의 의료이미지와 레이블 세트로 지도학습 기반 모델의 과소적합 문제를 극복할 수 있다. 본 연구는 딥러닝 기반 갈비뼈 골절 세그멘테이션 모델의 성능 향상과 효과적인 좌우 반전, 회전, 스케일링 등의 데이터 증강 기법을 탐색한다. 좌우 반전과 30° 회전, 60° 회전으로 증강한 데이터셋은 모델 성능 향상에 기여하지만, 90° 회전 및 ⨯0.5 스케일링은 모델 성능을 저하한다. 이는 데이터셋 및 태스크에 따라 적절한 데이터 증강 기법의 사용이 필요함을 나타낸다.

강우의 통계적 특성과 AI 모형의 연계를 통한 도시침수예측 (Urban flood prediction through the linkage between the statistical characteristics of rainfall and the AI model)

  • 이연수;유재환;김현일;김병현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.97-97
    • /
    • 2022
  • AI 모형을 적용한 도시지역 침수예측에 대한 연구는 꾸준히 수행되어 왔다. AI 모형을 이용해 도시침수예측을 하기 위해서는 모형에 강우자료를 학습시키게 되는데, 시계열 강우분포 자료를AI 모형의 학습자료로 사용하기에 자료의 양이 너무 많기 때문에 총 강우량만을 이용하여 도시침수예측을 수행한 바 있다(Kim et al., 2021). 하지만 총 강우량만을 AI 모형에 학습시킬 경우, 지속기간 동안 강우가 고르게 분포하는지 불규칙적으로 분포하는지에 대한 정보가 포함되지 않았기 때문에 침수예측력이 떨어질 수 있다. 따라서 본 연구에서는 시계열 강우자료의 통계치를 산정하여 AI 모형에 학습시킴으로써 강우분포특성을 고려한 침수예측을 통해 예측력을 높이고자 한다. 총 강우량만을 학습시킬 경우, 같은 지속시간에 같은 양의 강우가 내리더라도 고른 분포를 가진 강우에 의해서는 실제 침수는 작게 일어나므로 과대예측을, 전체 지속시간 중 특정 시간대에 편향된 분포를 가진 강우에 의해서는 실제 침수가 크게 일어나므로 과소예측을 하는 문제가 발생할 수 있다. 따라서 표준편차를 평균 강우량으로 나눈 값인 변동계수, 강우분포의 뾰족한 정도를 나타내는 첨도, 평균값에 대해 어느 방향으로 비대칭인지를 나타내는 왜도 값을 추가로 학습시킴으로써 시계열 강우자료 전체를 학습시키지 않고도 강우분포를 학습시키지 않았을 때 발생하는 과소·과대예측 문제를 해결할 수 있다. 또한 변동계수 대신 표준편차를 학습시키는 모형, 변동계수와 표준편차를 모두 학습시키지 않는 모형, 변동계수와 표준편차를 모두 학습시키는 모형과의 침수예측 결과 비교를 통해 표준편차와 변동계수 중 어떤 통계치를 학습시키는 것이 적합한지와 비슷한 통계치 자료를 모두 학습시켰을 때의 과적합 문제 등에 대한 결론를 얻을 수 있다.

  • PDF

국내 연안지역의 액상화 구역도 작성에 관한 연구 (Study on Mapping of Liquefaction Hazared Potential at Port and harbor in Korea)

  • 강규진;박인준;박인준;김수일
    • 한국지진공학회논문집
    • /
    • 제4권2호
    • /
    • pp.57-64
    • /
    • 2000
  • 본 연구에서는 항만 및 어항시설의 내진설?준서에서 채택하고 있는 수정 Seed와 Idriss 방법을 이용하여 액상화 평가를 수행하고 액상화 가능지수(liquefaction potential index, LPI)와 등가 액상화 안전율(FE)을 이용하여 액상화 가능성에 대한 구역도를 작성하였다. 이 두결과가 유사한 것으로 나타나 등가 액상화 안전율의 적합성을 확인하였다 국내 연안의 두지역에 대하여 Hachinohe 지진기록과 Ofunato 지진기록을 이용한 액상화 가능성 구역도를 FE를 이용하여 작성한 후 비교한 결과 Hachinohe 지진기록에 의한 액상화 가능성 구역도가 더 과소평가되는 경향을 보이는 것으로 나타났다 또한 FE는 안전율의 형태로 표현되었기 때문에 구역도 작성과 해석에 편의 성을 제공하였다.

  • PDF

실용 고강도 콘크리트의 크리프에 관한 실험적 연구 (An Experimental Study on Creep of the High Strength Concrete for Practical Use)

  • 김생빈;김성욱
    • 콘크리트학회지
    • /
    • 제9권6호
    • /
    • pp.147-156
    • /
    • 1997
  • 지금까지 국내에서는 콘크리트의 크리프에 관한 실험적 연구가 많이 진행되지 못하여 해당 구조물의 설계기술 도입국의 규준에 따라 크리프를 예측해왔다. 그러나 예측된 크리프 모델이 국내 콘크리트 재료의 특성에 적합한지에 대한 실험적 검증은 제대로 이루어지지 않고 있는 실정이다. 본 연구에서는 국내에서 프리스트레스 콘크리트 구조물에 적용하는 실용 고강도 콘크리트의 크리프 값을 예측하기 위해 동일한 설계기준강도를 갖는 세 가지 배합에 대하여 재령별로 크리프 시험을 수행하고 이 실험결과를 ACI, CEB/FIB, KSCE, JSCE규준들의 크리프 예측식과 비교 분석하였다.시험결과와 이들규준들에 대한 비교분석에 의하면 CEB/FIB-90 크리프 예측식은 비교적 과대 평가되고 ACI 209-92와 JSCE-96의 경우는 과소 평가되었으나 콘크리트 표준시방서 KSCE -96 크리프 예측식은 비교적 시험결과에 근접하는 것으로 평가되었다. 그러나 구성재료의 양적 변동에 '따른 배합별 시험결과의 차이를 반영할 수 있는 점이 보완되어야 할 것으로 보며 향후 많은 실험결과를 바탕으로 국내에서 생산되는 콘크리트에 대하여 보다 정확히 크리프를 예측할 수 있는 연구가 필요하다.

영 변환 모형 산포형태모수와 두 적합도 검정통계량 사이의 유사성 비교 (Similarity between the dispersion parameter in zero-altered model and the two goodness-of-fit statistics)

  • 윤유정;김홍기
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.493-504
    • /
    • 2017
  • 통계청 인구총조사의 출생아 수 자료는 우리가 쉽게 접할 수 있는 가산 자료이며 국가경쟁력 제고를 위한 정부의 출산정책 결정 및 그 기대효과 분석의 기반이 되는 자료이다. 출생아 수 자료 분석에 있어서 포아송 모형 등 가산 모형이 우월하다는 선행 연구결과에 의하여 가산 모형을 통한 자료 분석방법이 활용되고 있다. 이 때 가산 모형에서 가장 많이 사용하는 포아송 모형은 균등상포라는 제한적인 가정을 토대로 하기 때문에 출생아 수 자료 분석에 이 포아송 모형을 그대로 적용한다면 정보의 손실과 편향추정을 피할 수 없게 된다. 이러한 한계를 극복하기 위해 Ghosh 와 Kim (2007)은 영 과잉과 부족으로 인한 과대산포와 과소산포를 동시에 설명할 수 있는 영 변환 모형 (zero-altered model)을 제안하였다. 본 논문에서는 Ghosh 와 Kim (2007)의 영 변환 모형을 적용하여 실제 출생아수분포에서 영 변환 모형의 산포형태모수 ${\delta}$를 도출하고 그 역할에 대하여 분석한다. 그리고 관측분포에서의 산포형태모수 ${\delta}$와 이론적분포와의 차이를 비교하기 위한 적합도 검정통계량과의 유사성을 확인한다.

딥러닝 모형 기반 진해만 용존산소농도 재현을 위한 기초연구 (Preliminary Study on the Reproduction of Dissolved Oxygen Concentration in Jinhae Bay Based on Deep Learning Model)

  • 박성식;김경회
    • 해양환경안전학회지
    • /
    • 제28권2호
    • /
    • pp.193-200
    • /
    • 2022
  • 본 연구에서는 진해만의 DO 농도 재현을 목표로 LSTM 모형의 최적 매개변수 조건과 예측변수를 선별하기 위한 Case study를 진행하였다. 모형 매개변수 Case study 결과, 가장 적은 Hidden node와 Epoch인 Hidden node=10, Epoch=100에서 가장 낮은 정확도를 보였다. 이는 모형이 과소적합(Underfitting) 상태인 것으로 판단된다. Hidden node=80, Epoch=1200에서 R2 값은 0.99로 가장 높은 정확도를 보였다. 예측변수 Case study 결과, 1개의 환경변수만을 예측변수로 사용한 Step 1에서 수온을 예측변수로 했을 때 저층 DO 농도 재현의 R2 값은 0.81로 가장 높은 정확도를 보였다. 이후 2개의 환경변수를 사용한 Step 2에서는 수온과 SiO2를 예측변수로 했을 때 R2 값은 0.92로 수온만 사용했을 때보다 정확도가 급격히 증가하였다. 이는 저층 DO 농도와 SiO2 농도간의 높은 상관성$({\mid}R{\mid}=0.70)$에 기인한 것으로 판단된다. 상기 결과로부터 진해만의 DO 농도 재현에 적합한 LSTM 모형의 매개변수와 예측변수를 찾을 수 있었다.