• 제목/요약/키워드: Forecasting Technology

검색결과 787건 처리시간 0.023초

다중 웹 데이터와 LSTM을 사용한 전염병 예측 (Prediction of infectious diseases using multiple web data and LSTM)

  • 김영하;김인환;장백철
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.139-148
    • /
    • 2020
  • 전염병은 오래전부터 인류를 괴롭혀 왔으며 이를 예측 하고 예방하는 것은 인류에게 있어 큰 과제였다. 이러한 이유로 지금까지도 전염병을 예측하기 위해 다양한 연구가 진행되고 있다. 초기의 연구 중 대부분은 CDC(Centers for Disease Control and Prevention)의 역학 데이터에 의존한 연구였으며, CDC에서 제공하는 데이터는 일주일에 한 번만 갱신돼 실시간 질병 발생 건수를 예측하기 어렵다는 문제점을 갖고 있었다. 하지만 최근 IT 기술의 발전으로 여러 인터넷 매체들이 등장하면서 웹 데이터를 통해 전염병의 발생을 예측하고자 하는 연구가 진행되었고 이 중 우리가 조사한 연구 중 대부분은 단일 웹 데이터를 사용하여 질병을 예측하는 연구였다. 하지만 단일 웹 데이터를 통한 질병 예측은 "COVID-19" 같이 최근에 등장한 전염병에 대해서는 많은 양의 학습 데이터를 수집하기 어려우며 이러한 모델을 통해 정확한 예측을 하기 어렵다는 단점을 가지고 있다. 이에 우리는 전염병 발생을 LSTM 모델을 통해 예측할 때 여러 개의 웹 데이터를 사용하는 모델이 단일 웹 데이터를 사용하는 모델보다 정확도가 더 높음을 실험을 통해 증명하고 전염병 예측에 적절한 모델을 제안하고자 한다. 본 실험에서는 단일 웹 데이터를 사용하는 모델과 우리가 제안하는 모델을 사용하여 "말라리아"와 "유행성이하선염"의 발생을 예측했다. 우리는 2017년 12월 31 일부터 2019년 12월 28일까지 총 104주 분량의 NEWS, SNS, 검색 쿼리 데이터를 수집했는데, 이 중 75주는 학습 데이터로, 29주는 검증 데이터로 사용됐다. 실험 결과 우리가 제안한 모델의 예측 결과와 단일 웹 데이터를 사용한 모델의 예측 결과를 비교했을 때 검증 데이터에 대해서 피어슨 상관계수가 0.94, 0.86로 가장 높았고 RMSE 또한 0.19, 0.07로 가장 낮은 오차를 보여주었다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

기계학습을 활용한 상품자산 투자모델에 관한 연구 (A Study on Commodity Asset Investment Model Based on Machine Learning Technique)

  • 송진호;최흥식;김선웅
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.127-146
    • /
    • 2017
  • 상품자산(Commodity Asset)은 주식, 채권과 같은 전통자산의 포트폴리오의 안정성을 높이기 위한 대체투자자산으로 자산배분의 형태로 투자되고 있지만 주식이나 채권 자산에 비해 자산배분에 대한 모델이나 투자전략에 대한 연구가 부족한 실정이다. 최근 발전한 기계학습(Machine Learning) 연구는 증권시장의 투자부분에서 적극적으로 활용되고 있는데, 기존 투자모델의 한계점을 개선하는 좋은 성과를 나타내고 있다. 본 연구는 이러한 기계학습의 한 기법인 SVM(Support Vector Machine)을 이용하여 상품자산에 투자하는 모델을 제안하고자 한다. 기계학습을 활용한 상품자산에 관한 기존 연구는 주로 상품가격의 예측을 목적으로 수행되었고 상품을 투자자산으로 자산배분에 관한 연구는 찾기 힘들었다. SVM을 통한 예측대상은 투자 가능한 대표적인 4개의 상품지수(Commodity Index)인 골드만삭스 상품지수, 다우존스 UBS 상품지수, 톰슨로이터 CRB상품지수, 로저스 인터내셔날 상품지수와 대표적인 상품선물(Commodity Futures)로 구성된 포트폴리오 그리고 개별 상품선물이다. 개별상품은 에너지, 농산물, 금속 상품에서 대표적인 상품인 원유와 천연가스, 옥수수와 밀, 금과 은을 이용하였다. 상품자산은 전반적인 경제활동 영역에 영향을 받기 때문에 거시경제지표를 통하여 투자모델을 설정하였다. 주가지수, 무역지표, 고용지표, 경기선행지표 등 19가지의 경제지표를 이용하여 상품지수와 상품선물의 등락을 예측하여 투자성과를 예측하는 연구를 수행한 결과, 투자모델을 활용하여 상품선물을 리밸런싱(Rebalancing)하는 포트폴리오가 가장 우수한 성과를 나타냈다. 또한, 기존의 대표적인 상품지수에 투자하는 것 보다 상품선물로 구성된 포트폴리오에 투자하는 것이 우수한 성과를 얻었으며 상품선물 중에서도 에너지 섹터의 선물을 제외한 포트폴리오의 성과가 더 향상된 성과를 나타남을 증명하였다. 본 연구에서는 포트폴리오 성과 향상을 위해 기존에 널리 알려진 전통적 주식, 채권, 현금 포트폴리오에 상품자산을 배분하고자 할 때 투자대상은 상품지수에 투자하는 것이 아닌 개별 상품선물을 선정하여 자체적 상품선물 포트폴리오를 구성하고 그 방법으로는 기간마다 강세가 예측되는 개별 선물만을 골라서 포트폴리오를 재구성하는 것이 효과적인 투자모델이라는 것을 제안한다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.

포도 동해위험 판정기준으로서 온도시간 기반의 휴면심도 이용 (A Thermal Time-Driven Dormancy Index as a Complementary Criterion for Grape Vine Freeze Risk Evaluation)

  • 권은영;정재은;정유란;이승종;송기철;최동근;윤진일
    • 한국농림기상학회지
    • /
    • 제8권1호
    • /
    • pp.1-9
    • /
    • 2006
  • 동계기온의 지속적인 상승에도 불구하고 낙엽과수의 동해발생빈도는 줄지 않고 있지만, 동해 경감을 위해 필수적인 사전경보시스템에 대한 연구는 미흡한 실정이다. 본 연구에서는 급격한 기후변화에 적응하지 못하는 기존의 '최저기온 의존 동해경보시스템'을 보완하기 위해 생물계절이론에 근거한 휴면심도를 동해위험도 판정의 추가기준으로 제시한다. 평년 기온자료와 생물계절모형에 근거한 휴면심도의 경시변화양상은 낙엽과수의 교과서적인 내동성 변화추세와 일치하였다. 개별 연도의 기온자료에 의해 추정된 휴면심도는 연차 변이가 현저하였으며 동일 연도 내 지역간 변이도 확인할 수 있었다. 전북 김제시 백구면 Campbell Early 주산지 10개 포도원을 대상으로 소기후모형과 인근 기상관서 기후자료에 의해 연도별 최저기온을 복원하고, 최저기온 발생일의 휴면심도를 생물계절모형으로 추정하였으며, 동해정도를 조사하였다. 최저기온휴면심도 피해율 사이의 관계를 분석하여 동해위험도 판정식을 작성하고, 이를 근거로 경북 영천, 충북 옥천, 충남 아산, 경기 화성 등 4개 포도 주산지 시군에 대해 1971-2000 평년의 동해위험지도를 30 m 공간해상도로 제작하였다. 화성지역의 경우 1996년의 동해사례에 의해 동해위험지도의 신뢰성을 부분적으로 검증할 수 있었다. 월동기간 중 실측기온자료에 의해 임의날짜의 휴면심도를 추정하고, 기상청 예보기온을 소기후모형에 의해 30m해상도의 국지기온 예상분포도로 변환한 다음, 내일 아침의 동해가능성을 동해위험도 판정식에 의해 판정할 수 있는 실시간 동해경보시스템을 설계하였다. 이 시스템의 실제 운영을 위해 필요한 프로그램을 작성하고 하드웨어를 갖추어 기상청 국가농업기상센터에 이전, 설치하였다. 산출되는 최저기온 및 동해위험정보는 표준지리정보로 가공되어 기상청 농업 기상정보서비스를 통해 시범적으로 제공될 예정이다.되지 않았으며 상처에 의하여서도 전혀 반응을 하지 않았다. 고에서는 이와 같은 비상통신과 관련하여 수행하고 있는 국외 비상통신 관련표준화 현황 및 해외 주요국가 별 구축 동향에 대해서 기술한다.급식성과는 급식경험 기간과 음(-)의 상관관계를, 아침식사횟수와는 양(+)의 상관관계를 보였으며, 서비스 품질의 특성 영역은 각 영역들에 대한 급식성과 점수가 높을수록 다른 영역의 급식성과 점수가 높은 유의적인(p <0.01) 양(+)의 상관관계를 보였다. 이상의 결과를 살펴볼 때, 균형된 영양공급이 다른 어느 시기보다 더 중요한 우리의 청소년들의 학교급식에 대한 만족도를 높이기 위해서 다음과 같은 제언을 하고자 한다. 먼저, 학교급식에 대한 식단 작성 시 학생들이 학교에서 제공되기 원하는 식단에 대한 의견을 받고 그 의견에 대한 결과를 게시하여 학생들이 제공되기 원하는 식단을 급식 시 제공하여 학생들이 식단선택에 동참할 수 있는 기회를 주는 것이 바람직하겠다. 또한 영양사는 학급의 반대표와의 정기적인 모임을 가짐으로서 학생들의 불만사항 및 개선 요구사항에대해 서로 의견을 교환하여 설문지조사가 아닌 직접적인 대화를 하여 문제점을 파악하고자 하는 적극적인 자세가 필요하겠다. 특히 아침식사의 결식 빈도가 높았고 이는 급식성과에 부정적인 영향을 줄 뿐 아니라 학교에서 제공하는 음식의 섭취정도에도 영향을 주고 있으므로 학생들에게 학부모와 전담교사 및 학교영양사는 학생들에게 이상적인 아침식사에 대한 교육은 물론이고 아침식사를 실천할 수 있도록 다양한 방안에 대해 함께 연구해야 하겠다. 정부차원에서 학교급식에 아침식사 프로그램을 도입할 수 있는 방안을 연구하고, 아침을 결식하는 학생이 학교에서 수업시작 하기 전에 간단한 식사를 할 수 있는 정책 도입이 필요하다acid의 생성량(生成量)을 측정(測定)하였는데 periodate의 소비량(消費量)은

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.