• 제목/요약/키워드: Machine Learning

검색결과 5,492건 처리시간 0.04초

다층퍼셉트론 기법을 이용한 ECMWF 예측자료의 강수예측 정확도 향상 (Improvement of precipitation forecasting skill of ECMWF data using multi-layer perceptron technique)

  • 이승수;김가영;윤순조;안현욱
    • 한국수자원학회논문집
    • /
    • 제52권7호
    • /
    • pp.475-482
    • /
    • 2019
  • 2주에서 2개월까지 선행기간을 가지는 계절내-계절(Subseasonal-to-Seasonal, S2S) 예측결과는 산업전반에 걸쳐 다양한 분야에 활용이 가능할 것으로 기대되고 있으나, 일기예보나 중장기 예보대비 낮은 예측성으로 인하여 현재까지 활용성이 매우 낮은 실정이다. 본 연구에서는 기계학습 기법중 비선형회귀 분야에서 좋은 결과를 보여주는 다층퍼셉트론 기법을 이용하여 S2S 예측자료의 후처리를 통한 국내 영역에서의 강수예측성 향상에 관한 연구를 수행하였다. 후처리 모형의 학습을 위한 입력자료로는 ECMWF의 S2S 과거예측(Hindcast) 정보를 이용하였으며 양분예보기법에 기반하여 학습된 다층퍼셉트론 모델을 이용한 후처리 결과와의 비교 분석이 수행되었다. 비교분석 결과 편차도(Bias score)는 평균 59.7% 감소하였고, 정확도(Accuracy)는 124.3% 증가하였으며, 임계성공지수(Critical Success Index)는 88.5% 향상된 것으로 분석되었다. 탐지확률(Probability of detection)의 경우 원자료 대비 평균 9.5% 감소하였으나 이는 ECMWF의 예측모델이 강수의 발생일을 과도하게 예측하였기 때문인 것으로 분석되었다. 본 연구 수행 결과 비록 ECMWF의 S2S 예측자료의 예측성이 낮더라도 후처리를 통해 예측성을 향상 시킬 수 있음을 확인하였으며, 본 연구 결과는 향후 수자원과 농업 분야에서 S2S 자료의 활용성을 높이는데 도움이 될 수 있을 것으로 판단된다.

Prediction Model of User Physical Activity using Data Characteristics-based Long Short-term Memory Recurrent Neural Networks

  • Kim, Joo-Chang;Chung, Kyungyong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2060-2077
    • /
    • 2019
  • Recently, mobile healthcare services have attracted significant attention because of the emerging development and supply of diverse wearable devices. Smartwatches and health bands are the most common type of mobile-based wearable devices and their market size is increasing considerably. However, simple value comparisons based on accumulated data have revealed certain problems, such as the standardized nature of health management and the lack of personalized health management service models. The convergence of information technology (IT) and biotechnology (BT) has shifted the medical paradigm from continuous health management and disease prevention to the development of a system that can be used to provide ground-based medical services regardless of the user's location. Moreover, the IT-BT convergence has necessitated the development of lifestyle improvement models and services that utilize big data analysis and machine learning to provide mobile healthcare-based personal health management and disease prevention information. Users' health data, which are specific as they change over time, are collected by different means according to the users' lifestyle and surrounding circumstances. In this paper, we propose a prediction model of user physical activity that uses data characteristics-based long short-term memory (DC-LSTM) recurrent neural networks (RNNs). To provide personalized services, the characteristics and surrounding circumstances of data collectable from mobile host devices were considered in the selection of variables for the model. The data characteristics considered were ease of collection, which represents whether or not variables are collectable, and frequency of occurrence, which represents whether or not changes made to input values constitute significant variables in terms of activity. The variables selected for providing personalized services were activity, weather, temperature, mean daily temperature, humidity, UV, fine dust, asthma and lung disease probability index, skin disease probability index, cadence, travel distance, mean heart rate, and sleep hours. The selected variables were classified according to the data characteristics. To predict activity, an LSTM RNN was built that uses the classified variables as input data and learns the dynamic characteristics of time series data. LSTM RNNs resolve the vanishing gradient problem that occurs in existing RNNs. They are classified into three different types according to data characteristics and constructed through connections among the LSTMs. The constructed neural network learns training data and predicts user activity. To evaluate the proposed model, the root mean square error (RMSE) was used in the performance evaluation of the user physical activity prediction method for which an autoregressive integrated moving average (ARIMA) model, a convolutional neural network (CNN), and an RNN were used. The results show that the proposed DC-LSTM RNN method yields an excellent mean RMSE value of 0.616. The proposed method is used for predicting significant activity considering the surrounding circumstances and user status utilizing the existing standardized activity prediction services. It can also be used to predict user physical activity and provide personalized healthcare based on the data collectable from mobile host devices.

케이프선 시장 운임의 결정요인 및 운임예측 모형 분석 (An Analysis on Determinants of the Capesize Freight Rate and Forecasting Models)

  • 임상섭;윤희성
    • 한국항해항만학회지
    • /
    • 제42권6호
    • /
    • pp.539-545
    • /
    • 2018
  • 운임시장의 심한 변동성과 시계열 데이터의 불안정성으로 해운시황 예측에 대한 연구가 큰 성과를 내지 못하고 있지만 최근 대표적인 비선형 모델인 기계학습모델을 적용한 연구들이 활발히 진행되고 있다. 대부분의 기존 연구가 계량모델의 설계단계에서 입력변수에 해당하는 요인들을 기존 문헌연구와 연구자의 직관에 의존하여 선정했기 때문에 요인선정에 대한 체계적인 연구가 필요하다. 본 연구에서는 케이프선 운임을 대상으로 단계적 회귀모형과 랜덤포레스트모델을 이용하여 중요 영향요인을 분석하였다. 해운시장에서 비교적 단순한 수급구조를 가져 요인파악이 용이한 케이프선 운임을 대상으로 하였으며 총 16개의 수급요인들을 사전 추출하였다. 요인간의 상호관련성을 파악하여 단계적 회귀는 8개 요인, 랜덤포레스트는 10개 요인을 분석대상으로 선정하였으며 선정된 변수를 입력변수로 하여 예측한 결과를 비교하였다. 랜덤포레스트의 예측성능이 아주 우수하였는데 수요요인이 주로 선정된 단계적 회귀분석과는 달리 공급요인이 비중 있게 선정되었기 때문인 것으로 판단된다. 본 연구는 운임예측 연구에 있어 운임결정요인에 대한 과학적인 근거를 마련하였으며 이를 위해 기계학습 기반의 모델을 활용하였다는데 연구적 의의가 있다. 또한 시장정보의 분석에 있어 실무자들이 어떤 변수에 중점을 두어야 하는지에 대해 합리적 근거를 제시한 측면에서 해운기업의 의사결정에 실질적 도움이 될 것으로 기대된다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

Evidential Belief Function, Weight of Evidence 및 Artificial Neural Network 모델을 이용한 산사태 공간 취약성 예측 연구 (Landslide Susceptibility Prediction using Evidential Belief Function, Weight of Evidence and Artificial Neural Network Models)

  • 이사로;오현주
    • 대한원격탐사학회지
    • /
    • 제35권2호
    • /
    • pp.299-316
    • /
    • 2019
  • 본 연구는 지리정보시스템(GIS) 환경에서 확률 모델인 Weight Of Evidence (WOE)와 Evidential Belief Function (EBF), 기계학습 모델인 Artificial Neural Networks (ANN) 모델을 이용하여 평창지역의 산사태 취약성도를 공간적으로 분석하고 예측하였다. 본 연구지역은 2006년 태풍 에위니아에 의한 집중호우로 산사태가 많이 발생하여 많은 재산 및 인명피해가 발생하였다. 산사태 취약성도를 작성하기 위해 항공사진을 이용하여 3,955개의 방대한 산사태 발생 위치를 탐지하였고, 환경공간정보인 지형, 지질, 토양, 산림 및 토지이용 등의 공간 데이터를 수집하여 공간데이터베이스에 구축하였다. 이러한 공간데이터베이스를 이용하여 산사태에 영향을 줄 수 있는 인자 17개를 추출하여 입력 인자와 EBF, WOE, ANN 모델을 이용하여 산사태 취약성도를 작성하고 검증하였다. 작성 및 검증을 위해 산사태 자료는 각각 50%씩 나누어서 훈련 및 검증을 실시하였고, 검증결과 WOE 모델의 경우는 74.73%, EBF 모델의 경우는 75.03%, ANN 모델의 경우는 70.87%의 예측 정확도를 나타내었다. 본 연구에 사용된 모델 중 EBF 모델이 가장 높은 정확도를 나타냈으며, 모든 모델에서 70% 이상의 예측 정확도를 보여 본 연구에서 사용된 기법이 산사태 취약성도 작성에 유효함을 나타내었다. 본 연구에서 제안된 WOE, EBF, ANN 모델과 산사태 취약성도는 이전에 산사태가 발생하지 않은 지역의 산사태를 예측하는 데 사용될 수 있다. 이러한 취약성도는 산사태 위험 감소를 촉진하고, 토지 이용 정책 및 개발을 위한 기초자료 역할을 할 수 있으며, 궁극적으로 산사태 재해 예방을 위한 시간과 비용을 절약할 수 있다. 향후 보다 많은 지역에서 산사태 취약성도 작성 방법을 적용하여 산사태 위험 예측을 위한 일반화된 모델을 이끌어 내야 한다.

비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향 (Causal inference from nonrandomized data: key concepts and recent trends)

  • 최영근;유동현
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.173-185
    • /
    • 2019
  • 과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potential outcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.

한국 30~40대 실업률 예측을 위한 구글 검색 정보의 활용 (Application of Google Search Queries for Predicting the Unemployment Rate for Koreans in Their 30s and 40s)

  • 정재운;황진호
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.135-145
    • /
    • 2019
  • 장기불황으로 인해 한국 청년실업률이 수년간 10% 안팎의 높은 수준을 유지하고 있는 가운데, 주요 경제활동 인구인 30~40대의 실업률이 최근 상승세를 보이고 있다. 정부의 기존 청년 중심의 고용촉진 및 실업복지 정책을 30~40대를 포함한 다양한 연령층으로 확대 강화하기 위해서는 각 연령층에 대한 실업예측 모형 연구가 필요하다. 이에 본 연구에서는 한국 통계청 실업률 자료와 구글 검색어를 활용하여 한국 30~40대 연령층에 특화된 실업률 예측모형을 개발하고자 하였다. 실업률 자료와 계절성 자기회귀누적이동평균 모형을 활용하여 기초모형(Model 1)을 다중선형회귀 모형으로 추정하였으며, 개선된 모형을 구하고자 구글 검색 질의어 정보를 Model 1에 추가 활용하였다(Model 2). 그 결과, 30대와 40대 연령층 모두 구글 검색 질의어를 추가 활용한 Model 2가 Model 1보다 우수한 예측력을 보였다. 이는 웹 검색 질의어가 여전히 한국의 실업률 예측모형을 개선하는 데 유의미함을 의미한다. 본 연구는 실질적인 활용을 위해 추가적인 연구가 필요하지만, 연령대별 실업률 예측 연구에 기여할 것으로 판단된다.

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

수목 동정을 위한 수피 분류 데이터셋 구축과 합성곱 신경망 기반 53개 수종의 동정 모델 개발 (Construction of a Bark Dataset for Automatic Tree Identification and Developing a Convolutional Neural Network-based Tree Species Identification Model)

  • 김태경;백규헌;김현석
    • 한국산림과학회지
    • /
    • 제110권2호
    • /
    • pp.155-164
    • /
    • 2021
  • 자연환경에 대한 국민들의 관심 증가로 스마트폰과 같은 휴대용 기기를 이용한 수목 동정의 자동화에 대한 요구가 증가하고 있다. 최근 딥러닝 기술의 발전에 힘입어, 외국에서는 수목 인식 분야에의 적용이 활발하게 이루어지고 있다. 수목의 분류를 위해 꽃, 잎 등 다양한 형질들을 대상으로 연구가 진행되고 있지만, 접근성을 비롯한 여러 장점을 가진 수피의 경우 복잡도가 높고 자료가 부족하여 연구가 제한적이었다. 본 연구에서는 국내에서 흔히 관찰 가능한 수목 54종의 사진자료를 약 7,000 여장 수집 및 공개하였고, 이를 해외의 20 수종에 대한 BarkNet 1.0의 자료와 결합하여 학습에 충분한 수의 사진 수를 가지는 53종을 선정하고, 사진들을 7:3의 비율로 나누어 훈련과 평가에 활용하였다. 분류 모델의 경우, 딥러닝 기법의 일종인 합성곱 신경망을 활용하였는데, 가장 널리 쓰이는 VGGNet (Visual Geometry Group Network) 16층, 19층 모델 두 가지를 학습시키고 성능을 비교하였다. 또한 본 모형의 활용성 및 한계점을 확인하기 위하여 학습에 사용하지 않은 수종과 덩굴식물과 같은 방해 요소가 있는 사진들에 대한 모델의 정확도를 확인하였다. 학습 결과 VGG16과 VGG19는 각각 90.41%와 92.62%의 높은 정확도를 보였으며, 더 복잡도가 높은 모델인 VGG19가 조금 더 나은 성능을 보임을 확인하였다. 학습에 활용되지 않은 수목을 동정한 결과 80% 이상의 경우에서 같은 속 또는 같은 과에 속한 수종으로 예측하는 것으로 드러났다. 반면, 이끼, 만경식물, 옹이 등의 방해 요소가 존재할 경우 방해요소가 자치하는 비중에 따라 정확도가 떨어지는 것이 확인되어 실제 현장에서 이를 보완하기 위한 방법들을 제안하였다.

개발영향과 멸종위기종의 서식적합성을 고려한 보전 우선순위 선정 (Spatial Conservation Prioritization Considering Development Impacts and Habitat Suitability of Endangered Species)

  • 모용원
    • 한국환경생태학회지
    • /
    • 제35권2호
    • /
    • pp.193-203
    • /
    • 2021
  • 인간의 개발로 점차 멸종위기 생물종이 증가하고 있어, 충분한 보호지역의 선제적 확보가 중요한 상황이다. 따라서 본 연구에서는 인간의 개발영향을 고려했을 때 앞으로 보호지역 선정 시 고려해야 할 보전 우선순위지역을 확인하였다. 보전 우선순위 도출은 보전계획 의사결정 지원 소프트웨어인 MARXAN을 이용하여 기존 보호지역 포함 여부와 개발영향 반영여부를 기준으로 총 네 가지의 시나리오로 분석하였다. 개발영향은 개발면적 비율, 인구밀도, 도로망 체계, 교통량을 이용하여 도출하였으며, 생물종 보전 대상 지역은 제 3차 전국자연환경조사 자료의 조류, 포유류, 양서파충류의 출현자료를 이용하여 도출한 서식적합지역을 이용하였다. 이 두 가지 요인을 입력 자료로 기계학습 기반 최적화방법론을 이용하여 보전 우선순위 지역을 도출하였다. 연구결과, 멸종위기 생물종을 보전하는데 중요한 역할을 할 것으로 기대되는 지역이 기존 보호지역과 떨어진 지역에서 다수 나타났으며, 개발영향을 고려했을 때는 보전우선순위 지역이 파편화되어 나타남을 알 수 있었다. 개발영향과 기존보호지역을 모두 고려했을 때에도 기존 보호지역 주변으로 이미 도로개발이 많이 이뤄져 기존 보호지역과는 떨어진 지역에서 우선순위가 높게 나타났다. 따라서 개발영향을 고려하여 멸종위기종 보호하기 위해서는 기존 보호지역 주변 이외의 지역도 검토해볼 필요가 있으며, 파편화되어 나타나는 보전 우선순위지역에 대한 대응방안 모색이 필요함을 알 수 있었다.