• 제목/요약/키워드: 랜덤변수

검색결과 260건 처리시간 0.022초

강건한 태양광 발전량 예측을 위한 2단계 신경망 최적화 (Two-Stage Neural Network Optimization for Robust Solar Photovoltaic Forecasting)

  • 오진영;소다영;문지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.31-34
    • /
    • 2024
  • 태양광 에너지는 탄소 중립 이행을 위한 주요 방안으로 많은 주목을 받고 있다. 태양광 발전량은 여러 환경적 요인에 따라 크게 달라질 수 있으므로, 정확한 발전량 예측은 전력 네트워크의 안정성과 효율적인 에너지 관리에 근본적으로 중요하다. 대표적인 인공지능 기술인 신경망(Neural Network)은 불안정한 환경 변수와 복잡한 상호작용을 효과적으로 학습할 수 있어 태양광 발전량 예측에서 우수한 성능을 도출하였다. 하지만, 신경망은 모델의 구조나 초매개변수(Hyperparameter)를 최적화하는 것은 복잡하고 시간이 많이 드는 작업이므로, 에너지 분야에서 실제 산업 적용에 한계가 존재한다. 본 논문은 2단계 신경망 최적화를 통한 태양광 발전량 예측 기법을 제안한다. 먼저, 태양광 발전량 데이터 셋을 훈련 집합과 평가 집합으로 분할한다. 훈련 집합에서, 각기 다른 은닉층의 개수로 구성된 여러 신경망 모델을 구성하고, 모델별로 Optuna를 적용하여 최적의 초매개변숫값을 선정한다. 다음으로, 은닉층별 최적화된 신경망 모델을 이용해 훈련과 평가 집합에서는 각각 5겹 교차검증을 적용한 발전량 추정값과 예측값을 출력한다. 마지막으로, 스태킹 앙상블 방식을 채택해 기본 초매개변숫값으로 설정해도 우수한 성능을 도출하는 랜덤 포레스트를 이용하여 추정값을 학습하고, 평가 집합의 예측값을 입력으로 받아 최종 태양광 발전량을 예측한다. 인천 지역으로 실험한 결과, 제안한 방식은 모델링이 간편할 뿐만 아니라 여러 신경망 모델보다 우수한 예측 성능을 도출하였으며, 이를 바탕으로 국내 에너지 산업에 이바지할 수 있을 것으로 기대한다.

  • PDF

국내 회사채 신용 등급 예측 모형의 비교 연구 (Comparative study of prediction models for corporate bond rating)

  • 박형권;강준영;허성욱;유동현
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.367-382
    • /
    • 2018
  • 회사채 신용 등급 예측 모형에 대한 연구는 신용 평가 기관이 회사채 신용 등급 평가에 사용될 것이라 예상 되는 여러 재무적 특성 변수들을 기반으로 진행되었으며 선형 회귀 모형(linear regression), 순위 로짓(ordered logit), 순위 프로빗(ordered probit), 서포트 벡터 기계(support vector machine), 랜덤 포레스트(random forest) 등 다양한 모형들을 적용하여 개발되었다. 하지만 기존 연구들에서 고려한 회사채 신용 등급은 연구에 따라 5등급에서 20등급까지 다른 등급 구간을 적용하였으며 분석에 이용된 표본 자료의 기간 및 대상도 상이하여 예측 성능의 공정한 비교에 어려움이 있다. 따라서 본 연구에서는 2013년부터 2017년까지의 회사채 신용 등급 자료와 기존 연구들에서 사용된 재무 지표들을 통합하여 기존에 발표된 예측 모형들을 동일한 자료에 적용하고 예측 성능을 비교하였다. 추가적으로 Elastic-net 벌점화 회귀 모형 및 순위 로짓, 순위 프로빗 모형을 적합하여 LASSO 벌점이 선택됨을 확인하였으며 LASSO 벌점을 고려한 예측 모형이 대응하는 기존의 예측 모형들보다 향상된 성능을 보임을 확인하였다. 본 연구의 수행 결과, 랜덤 포레스트를 이용한 예측 모형이 15등급 기준 검증 자료에서 정확한 등급 예측률이 69.6%로 다른 모형과 비교하여 높은 예측 성능을 나타내었다.

랜덤포레스트를 이용한 모기업의 하향 거래처 기업의 분류: 자동차 부품산업의 가치사슬을 중심으로 (Classification of Parent Company's Downward Business Clients Using Random Forest: Focused on Value Chain at the Industry of Automobile Parts)

  • 김태진;홍정식;전윤수;박종률;안태욱
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.1-22
    • /
    • 2018
  • 가치사슬은 경쟁우위 강화를 위한 전략적 도구로써 주로 기업수준, 산업수준에서 분석되어 왔다. 그런데 기업수준에서 가치사슬 분석을 수행하기 위해서는 분석 기업의 거래처 기업들이 그 기업의 가치 사슬에 속하는지의 여부에 따라 분류되어야 한다. 단일 기업에 대한 가치사슬 분류는 전문가들에 의해 원활히 수행될 수 있지만 다수의 기업을 대상으로 분류할 때는 많은 비용과 시간이 소요되는 등의 한계점이 따른다. 따라서 본 연구에서는 실거래 데이터를 기반으로 특정 기업의 거래처 기업들을 분류해서 가치사슬 기업을 자동적으로 도출해주는 모형을 제안하고자 한다. 총 19개의 거래 속성 변수를 실거래 데이터로부터 도출하여 기계학습의 입력 데이터의 형태로 가공하였고, 랜덤포레스트 알고리즘을 이용하여 가치사슬 분류 모형을 구축하였다. 자동차 부품 기업 사례에 본 연구 모형을 적용한 결과, 정확도 92%, F1-척도 76% 그리고 AUC 94%로 자동적 가치사슬 분류의 가능성을 확인하였다. 또한 거래집중도, 거래금액 그리고 거래처별 총 매출액 등과 같은 거래 속성들이 가치사슬에 속하는 기업들을 대표하는 주요 특성임을 확인하였다.

독립성분 분석과 E-M을 이용한 혼합영상의 분리 기법 (An Image Separation Scheme using Independent Component Analysis and Expectation-Maximization)

  • 오범진;김성수;유정웅
    • 한국정보과학회논문지:정보통신
    • /
    • 제30권1호
    • /
    • pp.24-29
    • /
    • 2003
  • 이 논문에서는, 독립성분해석기법과 EM기법을 이용한 새로운 혼합영상분리 방법을 제안한다. 독립성분해석기법은 통계적으로 독립된 랜덤변수들의 선형조합으로 측정대상 랜덤신호를 표기하는 여러 통계신호처리 기법 중의 하나로, 정보의 분리, 특징 추출 통의 응용분야에 적용되고 있다. 기술적으로는, 독립성분기법은 주성분 분리기법의 확장이라 볼 수 있고, 근래에 혼합정보의 분리에 관련하여 많이 연구되고 있다. 현재까지의 연구 결과로는 혼합영상의 분리에 있어 독립성분해석기법만으로는 혼합영상분리의 해를 얻지 못하고 있다. 이러한 독립성분해석기법의 약점을 보완하는 방범으로, 최근에 이노베이션 프로세서를 전처리로 하는 독립성분해석기법을 혼합한 시스템을 이용한 혼합영상 분리가 시도되었다. 이노베이션 프로세서를 전처리로 첨가한 혼합영상분리의 과정도 독립성분해석기법만을 사용한 경우보다는 향상된 혼합영상분리를 하지만, 분류된 영상들이 원래의 혼합 전의 영상과 많이 다른 결과를 내고 있다. 기존의 방법들인 독립성분해석기법이나 이노베이션이 전처리로 적용된 경우에도 혼합이전의 영상간의 상관관계가 클 경우, 혼합영상의 분류가 잔 이루어지지 않는다. 본 논문에서는 이 약점을 보완하기 위하여. EM이론을 기존의 시스템에 전처리로 첨가하여 혼합 영상의 분리를 향상시키고자 하였다. 실험 결과에서는 최근에 연구된 이노베이션의 방법보다 EM을 적용시킨 경우가 향상된 혼합영상의 분리의 결과를 보여 주고 있다.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

AI 기법을 활용한 정수장 수질예측에 관한 연구 (Study on water quality prediction in water treatment plants using AI techniques)

  • 이승민;강유진;송진우;김주환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제57권3호
    • /
    • pp.151-164
    • /
    • 2024
  • 상수도 공급을 위한 정수장에서 전염소 또는 중염소 공정이 도입된 수처리 공정의 염소농도 관리에 필요한 공정제어를 위하여 AI 기술을 활용한 수질예측 기법이 연구되고 있다. 본 연구에서는 정수장 수처리 공정에서 실시간으로 관측, 생산되고 있는 수량·수질자료를 이용하여 염소소독 공정제어 자동화를 목적으로 침전지 후단의 잔류염소 농도를 예측하기 위한 AI 기반 예측모형을 개발하였다. AI 기반 예측모형은 과거 수질 관측자료를 학습하여 이후 시점의 수질에 대한 예측이 가능한 기법으로, 복잡한 물리·화학·생물학적 수질모형과 달리 간단하고 효율적이다. 다중회귀 모형과 AI 기반 모형인 랜덤포레스트와 LSTM을 이용하여 정수장의 침전지 후단 잔류염소 농도를 예측하여 비교하였다. 최적의 잔류염소 농도 예측을 위한 AI 모형의 입출력 구조로는 침전지 전단의 잔류염소 농도, 침전지 탁도, pH, 수온, 전기전도도, 원수의 유입량, 알칼리도, NH3 등을 독립변수로, 예측하고자 하는 침전지 유출수의 잔류염소 농도를 종속변수로 선정하였다. 독립변수는 침전지 후단의 잔류염소에 영향이 있는 정수장에서 확보가 가능한 관측자료중에서 분석을 통해 선별하였으며, 분석 결과 연구대상 정수장인 정수장에서는 중회귀모형, 신경망모형, 모델트리 및 랜덤포레스트 모형을 비교한 결과 랜덤포레스트에 기반한 모형오차가 가장 낮게 도출되는 결과를 얻을 수 있었다. 본 연구에서 제시하는 침전지 후단의 적정 잔류염소 농도 예측값은 이전 처리단계에서 염소주입량의 실시간 제어가 가능토록 할 수 있어 수처리 효율 향상과 약품비 절감에 도움이 될 것으로 기대된다.

빅데이터 분석을 활용한 초기 정보 기반 화재현장 위험도 예측 모델 개발 연구 (A Study on the Development of a Fire Site Risk Prediction Model based on Initial Information using Big Data Analysis)

  • 김도형;조병완
    • 한국재난정보학회 논문집
    • /
    • 제17권2호
    • /
    • pp.245-253
    • /
    • 2021
  • 연구목적: 본 연구는 화재발생 건축물 정보, 신고자 취득 정보 등 초기 정보를 활용하여 화재현장의 위험도를 예측하여, 재난 발생 초기에 효과적인 소방자원 동원 및 적절한 대응을 위한 피해최소화 전략 수립을 지원하는 위험도 예측 모델을 개발하고자 한다. 연구방법: 화재 통계 데이터 상에서 화재의 피해규모와 관련된 변수 규명을 위해 머신러닝 알고리즘을 이용한 변수간 상관성 분석을 실시하여 예측 가능성을 검토하고, 데이터 표준화 및 이산화 등의 전처리를 통해 학습 데이터 셋을 구축하였다. 이를 활용하여 예측 정확도가 높은 것으로 평가 받고 있는 복수의 머신러닝 알고리즘을 테스트하여 가장 정확도가 높은 알고리즘을 적용한 위험도 예측 모델을 개발하였다. 연구결과: 머신러닝 알고리즘 성능 테스트 결과 랜덤포레스트 알고리즘의 정확도가 가장 높게 나왔으며, 위험도 등급에 대해서는 중간치에 대한 정확성이 상대적으로 높은 것으로 확인되었다. 결론: 화재 통계 상 피해규모 데이터의 편향성에 의해 예측모델 정확도가 제한적으로 나타났으며, 예측 모델 성능 개선을 위해 데이터 정합성 및 결손치 보완 등을 통한 데이터 정제가 필요하다.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.