• 제목/요약/키워드: Forecast accuracy

검색결과 487건 처리시간 0.026초

트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 (Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter)

  • 우승민;황병연
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권10호
    • /
    • pp.447-454
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 최근 스마트폰 이용자의 증가로 소셜 네트워크 서비스(SNS) 이용자가 증가하고 있는 추세이다. 그중 트위터는 140자 이내의 단문서비스와 팔로우 기능으로 정보의 빠른 전달력과 확산성을 가지고 있다. 이러한 특성과 모바일에 최적화된 트위터의 특성상 정보 전달 속도가 매우 빠르기 때문에 재난 상황이나 이벤트 전달의 매개체 역할을 하고 있다. 이와 관련된 연구로는 트위터 사용자 개개인을 이벤트 탐지의 센서로 사용하여 현실에서 발생하는 이벤트를 탐지하였는데 이벤트가 특정 장소에서 발생한다는 특성을 이용해서 지명 키워드를 사용하였다. 그러나 지명과 동형이의어 관계에 관한 노이즈제거에 대한 부분이 누락되어있어서 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 제거와 예측 두 가지 방식으로 노이즈제거 기법을 적용하였다. 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 나이브 베이지안 분류를 이용해서 지명 유무를 결정하였다. 실험 데이터를 이용해서 기계학습을 위한 확률값을 구했으며, 지명마다 본 논문에서 제시하는 예측기법을 검증했을 때 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.

미래교육 혁신을 위한 트렌드 분석과 예측: 20년간의 문헌 연구 데이터를 기반으로 한 키워드 추출 분석을 중심으로 (Analysis and Prediction of Trends for Future Education Reform Centering on the Keyword Extraction from the Research for the Last Two Decades)

  • 조헌국
    • 과학교육연구지
    • /
    • 제45권2호
    • /
    • pp.156-171
    • /
    • 2021
  • 본 연구는 미래 교육에 관련된 선행 연구를 분석하여 그 시기별 변화의 특징을 파악하고, 최근 나타나는 뉴스 기사를 비교하여 미래 교육에 대한 예측과 전망이 얼마나 일치하는지 비교 분석함으로써 교육을 위한 예측 모형 수립을 위한 시사점을 제공하고자 하였다. 이에 Web of Science를 통해 미래교육을 키워드로 포함한 국제전문학술지의 1,222건의 학술논문의 상세 서지정보를 수집하였고, 이를 2000년대부터 5년 단위로 4개의 시기로 구분하여 각 시기별 키워드를 추출하였다. 또한 최근 1년간 발간된 뉴스를 토대로 키워드를 추출하고 두 결과를 비교하여 얼마나 예측한 결과가 일치하는지 살펴보았다. 연구 결과, 문헌 조사 결과를 통한 키워드는 교사 교육을 제외하면 공통적으로 나타나는 주제나 경향성을 발견하기 어려웠으며 교육과정, 학습자 특성, 협동학습, 컴퓨터 기반 학습 등 교육과정과 내용, 방법, 환경 등 전반을 제시하고 있었다. 이에 반해 뉴스를 통해 도출된 키워드는 혁신학교나 미래교육센터 등 정부의 주요 추진 정책이나 코로나19와 관련된 키워드들이 부각되어 나타났다. 또한 온라인 플랫폼이나 콘텐츠 개발, 클라우드, 빅데이터, 개별학습 등 교육환경과 방법에 초점이 맞춰지고 있음을 파악할 수 있다. 뉴스를 통해 나타나는 키워드를 살펴보면 장기적인 예측을 통해 나타난 키워드는 거의 없었고, 최근 5년 내에 제시되었던 단기적인 내용들이나 최근 5년에서도 언급되지 않는 새로운 주제들을 다루고 있었다. 이는 미래 교육에 대한 예측과 망에 대한 모형이 실제 중장기적 예측에서는 여러 요인의 불확실성으로 인해 정확성을 기대하기 어렵다는 점을 의미한다. 이에 본 연구에서는 미래 교육 예측을 위해 필요한 과제와 방향에 대해 시사점으로 제시하였다.

기상청 전구 수치예보모델을 활용한 Himawari-8/AHI 청천복사휘도 편차 특성 분석 (Bias Characteristics Analysis of Himawari-8/AHI Clear Sky Radiance Using KMA NWP Global Model)

  • 김보람;신인철;정주용;정성훈
    • 대한원격탐사학회지
    • /
    • 제34권6_1호
    • /
    • pp.1101-1117
    • /
    • 2018
  • 청천복사휘도는 히마와리-8호 정지궤도 기상위성에서 제공되는 주요 산출물 중의 하나로서, 자료동화 과정을 통해 수치예보 정확도 향상에 기여한다. 특히, 청천복사휘도는 대기운동벡터와 함께 대기 상층에서 자료동화의 효과를 보인다. 본 연구에서는 히마와리-8호 청천복사휘도의 편차 특성 분석과 평가를 통해 자료를 활용하는 사용자에게 정보를 제공해주고, 효과적으로 자료를 사용할 수 있도록 수치예보모델자료를 활용한 편차와 불확실성을 계산하였다. 일본 기상청에서 제공되는 청천복사휘도를 관측 자료로 사용하였고, 17 km 공간해상도의 기상청 전구 모델 Unified Model(UM) 자료와 복사전달모델 RTTOV-v11.2를 이용하여 청천복사휘도를 모의하였다. 먼저, 관측자료의 특성을 파악하고 관측자료와 모의된 청천복사휘도의 채널별 편차특성을 분석하였다. 전반적인 결과는 히마와리-8호 위성의 세 개의 수증기 채널(6.2, 6.9, $7.3{\mu}m$)에서는 양의 편차를 보인 반면에 대기창 적외 채널(10.4, 11.2, $12.4{\mu}m$)에서는 음의 편차를 보였다. 또한 분석결과는 계절과 영역에 따라 상이하게 나타났으며, 특히 사막이나 고지대 지역의 편차 특성이 뚜렷하게 나타났다. 이를 통해 청천복사자료를 활용할 때 시공간적인 특성을 고려해야 함을 확인할 수 있었다. 본 연구의 결과는 히마와리-8호 AHI의 청천복사휘도를 자료동화 할 때 전처리 과정에서 유용하게 활용될 수 있을 것이며, 2018년에 발사된 천리안-2A호의 산출물 활용에도 도움이 될 것으로 기대한다.

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

태양복사모델(SOLWEIG)의 복사플럭스 자료를 활용한 노면온도 예측: 서울시 내부순환로 대상 (Predicting Road Surface Temperature using Solar Radiation Data from SOLWEIG(SOlar and LongWave Environmental Irradiance Geometry-model): Focused on Naebu Expressway in Seoul)

  • 안숙희;권혁기;양호진;이근희;이채연
    • 한국지리정보학회지
    • /
    • 제23권4호
    • /
    • pp.156-172
    • /
    • 2020
  • 본 연구는 대상도로인 내부순환로에 대해 태양복사모델(SOlar and LongWave Environmental Irradiance Geometry-model, SOLWEIG)을 통해 산출한 도로의 그림자 패턴을 사용하여 항상 그늘이 지는 음영지역을 살펴보고, 열수지법을 기반으로 한 노면온도예측모델(road surface temperature prediction model, 이하 RSTPM)과 SOLWEIG 모델을 연계하여 고해상도의 태양복사정보를 활용한 도로의 노면온도를 예측하고자 하였다. 우선, 그림자 패턴 및 복사플럭스 산출의 정확도를 높이기 위하여 안개, 구름, 강수 등의 영향을 최소화할 수 있는 사례일을 선정하여, 고도 및 지형의 효과에 따른 그림자의 영향을 살펴보았다. 그 결과, 터널 입출구와 고도가 높은 지역에서 그림자 영역이 오래 지속되었고, 그림자의 영향을 많이 받는 구간의 복사량 감소가 뚜렷하게 나타났다. 이는 노면온도 예측결과에 반영되어 지형적으로 개방된 지점에서는 노면온도가 높게 예측되고, 고도가 높은 지점들은 그렇지 않은 지점에 비해 상대적으로 낮게 예측되었다. 본 연구의 결과는 겨울철 기상상황에 따른 도로 결빙구간을 예측하여 도로 관리자 및 운전자의 의사결정 자료로서의 활용이 기대된다.

합리적인 하천수 관리체계 구축을 위한 자료기반 방류량 예측모형 개발 (Development of a Data-Driven Model for Forecasting Outflow to Establish a Reasonable River Water Management System)

  • 유형주;이승오;최서혜;박문형
    • 한국방재안전학회논문집
    • /
    • 제13권4호
    • /
    • pp.75-92
    • /
    • 2020
  • 일반적으로 물수지 분석 시 공급에 해당되는 회귀수량의 경우 용수별 회귀율을 일률적으로 정하여 산정하는 방법을 채택하고 있어 정확한 가용유량을 산정하지 못하는 한계를 갖고 있다. 이에 본 연구에서는 회귀수 중 하·폐수에 초점을 두었고 인공신경망 등의 기계학습 모형을 적용하여 하수종말처리장의 방류량 예측 모형을 개발하였다. 시계열 자료예측 시 사용되는 주요 기계학습 모형인 LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), SVR (Support Vector Regression)모형을 적용하였으며 관측 값과 예측 값을 비교하는 오차지표를 통하여 방류량 예측의 최적의 모형을 선정하였다. 모형 적용 결과, GRU 모형의 평균제곱근 오차(Root Mean Square Error, RMSE)는 LSTM 모형과 SVR 모형보다 작으며 Nash-Sutcliffe 계수(NSE)는 LSTM 모형과 SVR 모형보다 큰 것을 확인하였고, 이를 근거로 하수종말처리장의 방류량 예측에 최적모형은 GRU 모형이라고 판단하였다. 다만, 극값에서는 예측 값이 과소 및 과대 산정되는 경향을 보여 추후 예측 정확도 향상을 위해서는 극한사상에 대한 추가자료 구축 및 입력 자료의 최소시간단위를 축소하는 것이 필요할 것으로 판단되었다. 또한, 예측하고자 하는 대상지의 용수이용량을 검토하고 계절적 영향을 반영할 수 있는 추가인자를 고려하게 되면 기후변동성에 대비하여 정확한 방류량 예측이 가능하며 예측 결과를 토대로 종합적인 하천수 사용관리 및 물이용 계획 수립을 위한 기초자료로 활용될 수 있을 것으로 기대된다.

도시 쇠퇴지역 공간 특성을 반영한 적합 도시재생 사업유형 적용방안 연구 (A Study on the Application of Suitable Urban Regeneration Project Types Reflecting the Spatial Characteristics of Urban Declining Areas)

  • 조돈철;신동빈
    • 한국지리정보학회지
    • /
    • 제24권4호
    • /
    • pp.148-163
    • /
    • 2021
  • 본 연구는 「도시재생 활성화 및 지원에 관한 특별법」에 따라 2017년부터 시작된 도시재생 뉴딜사업(이하 '뉴딜사업')의 종류가 다양해짐에 따라 데이터 기반의 정확한 쇠퇴진단과 사업유형 예측이 중요하다고 판단되어, 전국 읍면동을 대상으로 가장 적합한 뉴딜사업 유형을 판별할 수 있는 적용 모형 개발을 위한 연구를 수행하였다. 적용 모형 개발을 위한 데이터는 통계지리정보서비스(SGIS)와 도시재생정보체계의 '도시재생 종합정보 개방체계'를 통해 수집하고 데이터 전처리를 거쳐 분석 모델을 위한 데이터를 구축하였다. 적용 모형은 다항 회귀분석과 다항 로지스틱 회귀분석을 통해 4가지 모형을 도출하였다. 4가지 모형의 적용 가능성과 유효성 검증을 위해 서울특별시를 대상으로 각 모형별로 기존에 선정된 뉴딜사업지에 공간분포도를 비교 분석한 결과 DI-54 모형이 가장 높은 일치율을 확인할 수 있었다. 또한 DI-54 모형을 전국 954개 도시 쇠퇴지역에 적용해본 결과에서도 적합 도시재생 사업유형 판별에 활용 가능성을 확인할 수 있었다.

친환경 스마트 선박 인력 수요예측에 관한 연구 (A Study on Forecasting of the Manpower Demand for the Eco-friendly Smart Shipbuilding)

  • 신상훈;신용존
    • 한국항만경제학회지
    • /
    • 제39권2호
    • /
    • pp.1-13
    • /
    • 2023
  • 이 연구는 IMO의 환경규제와 4차산업 혁명 기술의 확산에 따라 그중요성과 비중이 확대되고 있는 친환경 스마트 선박의 성장에 필요한 인력 수요를 통계청의 2000년~2020년의 조선산업 인력자료를 기반으로 예측하였다. 추세분석과 시계열분석의 다양한 모델을 적용하여 조선산업의 인력 수요를 예측하고 최근 5년간의 실적치와 비교하여 기하평균을 적용한 단순평균법이 예측 오차가 유의적으로 가장 적은 것으로 평가되었다. 그리고 산업통상자원부의 친환경 스마트 선박 분야의 2018년과 2020년의 인력현황 설문조사 결과를 바탕으로 조선산업 인력 증가추이를 반영하여 인력 수요를 예측하였다. 조선산업의 인력수요 예측치에 친환경 스마트 선박부분의 인력 증가수치를 반영하여 인력 수요를 예측한 결과, 2025년 62,001명, 2030년 85,035명으로 증가하는 것으로 예측되었다. 본 연구는 고부가가치 친환경 스마트 선박 분야에 필요한 인력 수요를 통계자료에 기반하여 객관적으로 예측함으로써, 향후의 인력 수요에 대응한 적절한 전문인력의 양성 및 공급 방안 수립에 기여하게 될 것으로 평가된다.

코로나 팬데믹 이후 국내 수입와인 시장의 수요예측 변화 연구 (A Study on Demand Forecasting Change of Korea's Imported Wine Market after COVID-19 Pandemic)

  • 김지형
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.189-200
    • /
    • 2023
  • COVID-19 팬데믹 초기에 한국의 와인시장은 다른 나라들과 마찬가지로 상당히 위축되어 있었다. 하지만 팬데믹 직후 한국의 수입 와인소비는 2020년 한 해 69.6%나 증가하였다. 이는 해외 여행금지로 와인이 국내에서만 소비되고 보복 소비와 홈술로 인해 고가 와인의 판매가 증가한 것에 기인한다. 그러나 코로나가 끝난 2022년부터 한국의 와인시장은 큰 폭으로 다시 위축되기 시작하였다. 그러므로 본 연구는 와인과 관련된 사업자들에게 향후 10년 뒤, 2032년까지 수입와인 시장의 수요예측을 통해 중장기 사업계획 수립에 유용한 정보를 제공하고자 한다. 본 연구는 2020년 1월부터 2023년 9월까지 한국무역협회가 제공한 95개의 시계열 데이터를 사용하였다. 모형의 정확도는 MAPE 값을 기초로 시험하였고, 수입와인의 전체 금액 예측은 ARIMA 모형, 전체 중량의 예측은 Winters 승법 모형을 사용해 계산하였다. 2032년까지 수입 와인시장의 전체 금액을 예측한 ARIMA 모형(MAPE=10.56%)은 와인시장 금액의 규모를 USD $1,023,619, CAGR=6.22%로 예측하였으며, 이는 2023년 대비 101% 증가한 규모이다. 반면에 중량은 Winters 승법모형(MAPE=10.03%)을 사용하여 계산하였으며, 2032년 중량은 64,691,329톤으로 CAGR=-0.61% 하락할 것으로 예측하였고, 이는 2023년 대비 15.12% 성장한 것이다. 결론적으로 한국 수입와인 시장은 최근의 하락세에도 불구하고 꾸준히 성장할 것이며, 고급 와인시장이 이 증가의 대부분을 차지할 것으로 보인다.

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.