• 제목/요약/키워드: Machine Learning

검색결과 5,355건 처리시간 0.046초

케이프선 시장 운임의 결정요인 및 운임예측 모형 분석 (An Analysis on Determinants of the Capesize Freight Rate and Forecasting Models)

  • 임상섭;윤희성
    • 한국항해항만학회지
    • /
    • 제42권6호
    • /
    • pp.539-545
    • /
    • 2018
  • 운임시장의 심한 변동성과 시계열 데이터의 불안정성으로 해운시황 예측에 대한 연구가 큰 성과를 내지 못하고 있지만 최근 대표적인 비선형 모델인 기계학습모델을 적용한 연구들이 활발히 진행되고 있다. 대부분의 기존 연구가 계량모델의 설계단계에서 입력변수에 해당하는 요인들을 기존 문헌연구와 연구자의 직관에 의존하여 선정했기 때문에 요인선정에 대한 체계적인 연구가 필요하다. 본 연구에서는 케이프선 운임을 대상으로 단계적 회귀모형과 랜덤포레스트모델을 이용하여 중요 영향요인을 분석하였다. 해운시장에서 비교적 단순한 수급구조를 가져 요인파악이 용이한 케이프선 운임을 대상으로 하였으며 총 16개의 수급요인들을 사전 추출하였다. 요인간의 상호관련성을 파악하여 단계적 회귀는 8개 요인, 랜덤포레스트는 10개 요인을 분석대상으로 선정하였으며 선정된 변수를 입력변수로 하여 예측한 결과를 비교하였다. 랜덤포레스트의 예측성능이 아주 우수하였는데 수요요인이 주로 선정된 단계적 회귀분석과는 달리 공급요인이 비중 있게 선정되었기 때문인 것으로 판단된다. 본 연구는 운임예측 연구에 있어 운임결정요인에 대한 과학적인 근거를 마련하였으며 이를 위해 기계학습 기반의 모델을 활용하였다는데 연구적 의의가 있다. 또한 시장정보의 분석에 있어 실무자들이 어떤 변수에 중점을 두어야 하는지에 대해 합리적 근거를 제시한 측면에서 해운기업의 의사결정에 실질적 도움이 될 것으로 기대된다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

Evidential Belief Function, Weight of Evidence 및 Artificial Neural Network 모델을 이용한 산사태 공간 취약성 예측 연구 (Landslide Susceptibility Prediction using Evidential Belief Function, Weight of Evidence and Artificial Neural Network Models)

  • 이사로;오현주
    • 대한원격탐사학회지
    • /
    • 제35권2호
    • /
    • pp.299-316
    • /
    • 2019
  • 본 연구는 지리정보시스템(GIS) 환경에서 확률 모델인 Weight Of Evidence (WOE)와 Evidential Belief Function (EBF), 기계학습 모델인 Artificial Neural Networks (ANN) 모델을 이용하여 평창지역의 산사태 취약성도를 공간적으로 분석하고 예측하였다. 본 연구지역은 2006년 태풍 에위니아에 의한 집중호우로 산사태가 많이 발생하여 많은 재산 및 인명피해가 발생하였다. 산사태 취약성도를 작성하기 위해 항공사진을 이용하여 3,955개의 방대한 산사태 발생 위치를 탐지하였고, 환경공간정보인 지형, 지질, 토양, 산림 및 토지이용 등의 공간 데이터를 수집하여 공간데이터베이스에 구축하였다. 이러한 공간데이터베이스를 이용하여 산사태에 영향을 줄 수 있는 인자 17개를 추출하여 입력 인자와 EBF, WOE, ANN 모델을 이용하여 산사태 취약성도를 작성하고 검증하였다. 작성 및 검증을 위해 산사태 자료는 각각 50%씩 나누어서 훈련 및 검증을 실시하였고, 검증결과 WOE 모델의 경우는 74.73%, EBF 모델의 경우는 75.03%, ANN 모델의 경우는 70.87%의 예측 정확도를 나타내었다. 본 연구에 사용된 모델 중 EBF 모델이 가장 높은 정확도를 나타냈으며, 모든 모델에서 70% 이상의 예측 정확도를 보여 본 연구에서 사용된 기법이 산사태 취약성도 작성에 유효함을 나타내었다. 본 연구에서 제안된 WOE, EBF, ANN 모델과 산사태 취약성도는 이전에 산사태가 발생하지 않은 지역의 산사태를 예측하는 데 사용될 수 있다. 이러한 취약성도는 산사태 위험 감소를 촉진하고, 토지 이용 정책 및 개발을 위한 기초자료 역할을 할 수 있으며, 궁극적으로 산사태 재해 예방을 위한 시간과 비용을 절약할 수 있다. 향후 보다 많은 지역에서 산사태 취약성도 작성 방법을 적용하여 산사태 위험 예측을 위한 일반화된 모델을 이끌어 내야 한다.

비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향 (Causal inference from nonrandomized data: key concepts and recent trends)

  • 최영근;유동현
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.173-185
    • /
    • 2019
  • 과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potential outcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.

한국 30~40대 실업률 예측을 위한 구글 검색 정보의 활용 (Application of Google Search Queries for Predicting the Unemployment Rate for Koreans in Their 30s and 40s)

  • 정재운;황진호
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.135-145
    • /
    • 2019
  • 장기불황으로 인해 한국 청년실업률이 수년간 10% 안팎의 높은 수준을 유지하고 있는 가운데, 주요 경제활동 인구인 30~40대의 실업률이 최근 상승세를 보이고 있다. 정부의 기존 청년 중심의 고용촉진 및 실업복지 정책을 30~40대를 포함한 다양한 연령층으로 확대 강화하기 위해서는 각 연령층에 대한 실업예측 모형 연구가 필요하다. 이에 본 연구에서는 한국 통계청 실업률 자료와 구글 검색어를 활용하여 한국 30~40대 연령층에 특화된 실업률 예측모형을 개발하고자 하였다. 실업률 자료와 계절성 자기회귀누적이동평균 모형을 활용하여 기초모형(Model 1)을 다중선형회귀 모형으로 추정하였으며, 개선된 모형을 구하고자 구글 검색 질의어 정보를 Model 1에 추가 활용하였다(Model 2). 그 결과, 30대와 40대 연령층 모두 구글 검색 질의어를 추가 활용한 Model 2가 Model 1보다 우수한 예측력을 보였다. 이는 웹 검색 질의어가 여전히 한국의 실업률 예측모형을 개선하는 데 유의미함을 의미한다. 본 연구는 실질적인 활용을 위해 추가적인 연구가 필요하지만, 연령대별 실업률 예측 연구에 기여할 것으로 판단된다.

수입식품 빅데이터를 이용한 부적합식품 탐지 시스템에 관한 연구 (Study on Anomaly Detection Method of Improper Foods using Import Food Big data)

  • 조상구;최경현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.19-33
    • /
    • 2018
  • FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.

수목 동정을 위한 수피 분류 데이터셋 구축과 합성곱 신경망 기반 53개 수종의 동정 모델 개발 (Construction of a Bark Dataset for Automatic Tree Identification and Developing a Convolutional Neural Network-based Tree Species Identification Model)

  • 김태경;백규헌;김현석
    • 한국산림과학회지
    • /
    • 제110권2호
    • /
    • pp.155-164
    • /
    • 2021
  • 자연환경에 대한 국민들의 관심 증가로 스마트폰과 같은 휴대용 기기를 이용한 수목 동정의 자동화에 대한 요구가 증가하고 있다. 최근 딥러닝 기술의 발전에 힘입어, 외국에서는 수목 인식 분야에의 적용이 활발하게 이루어지고 있다. 수목의 분류를 위해 꽃, 잎 등 다양한 형질들을 대상으로 연구가 진행되고 있지만, 접근성을 비롯한 여러 장점을 가진 수피의 경우 복잡도가 높고 자료가 부족하여 연구가 제한적이었다. 본 연구에서는 국내에서 흔히 관찰 가능한 수목 54종의 사진자료를 약 7,000 여장 수집 및 공개하였고, 이를 해외의 20 수종에 대한 BarkNet 1.0의 자료와 결합하여 학습에 충분한 수의 사진 수를 가지는 53종을 선정하고, 사진들을 7:3의 비율로 나누어 훈련과 평가에 활용하였다. 분류 모델의 경우, 딥러닝 기법의 일종인 합성곱 신경망을 활용하였는데, 가장 널리 쓰이는 VGGNet (Visual Geometry Group Network) 16층, 19층 모델 두 가지를 학습시키고 성능을 비교하였다. 또한 본 모형의 활용성 및 한계점을 확인하기 위하여 학습에 사용하지 않은 수종과 덩굴식물과 같은 방해 요소가 있는 사진들에 대한 모델의 정확도를 확인하였다. 학습 결과 VGG16과 VGG19는 각각 90.41%와 92.62%의 높은 정확도를 보였으며, 더 복잡도가 높은 모델인 VGG19가 조금 더 나은 성능을 보임을 확인하였다. 학습에 활용되지 않은 수목을 동정한 결과 80% 이상의 경우에서 같은 속 또는 같은 과에 속한 수종으로 예측하는 것으로 드러났다. 반면, 이끼, 만경식물, 옹이 등의 방해 요소가 존재할 경우 방해요소가 자치하는 비중에 따라 정확도가 떨어지는 것이 확인되어 실제 현장에서 이를 보완하기 위한 방법들을 제안하였다.

개발영향과 멸종위기종의 서식적합성을 고려한 보전 우선순위 선정 (Spatial Conservation Prioritization Considering Development Impacts and Habitat Suitability of Endangered Species)

  • 모용원
    • 한국환경생태학회지
    • /
    • 제35권2호
    • /
    • pp.193-203
    • /
    • 2021
  • 인간의 개발로 점차 멸종위기 생물종이 증가하고 있어, 충분한 보호지역의 선제적 확보가 중요한 상황이다. 따라서 본 연구에서는 인간의 개발영향을 고려했을 때 앞으로 보호지역 선정 시 고려해야 할 보전 우선순위지역을 확인하였다. 보전 우선순위 도출은 보전계획 의사결정 지원 소프트웨어인 MARXAN을 이용하여 기존 보호지역 포함 여부와 개발영향 반영여부를 기준으로 총 네 가지의 시나리오로 분석하였다. 개발영향은 개발면적 비율, 인구밀도, 도로망 체계, 교통량을 이용하여 도출하였으며, 생물종 보전 대상 지역은 제 3차 전국자연환경조사 자료의 조류, 포유류, 양서파충류의 출현자료를 이용하여 도출한 서식적합지역을 이용하였다. 이 두 가지 요인을 입력 자료로 기계학습 기반 최적화방법론을 이용하여 보전 우선순위 지역을 도출하였다. 연구결과, 멸종위기 생물종을 보전하는데 중요한 역할을 할 것으로 기대되는 지역이 기존 보호지역과 떨어진 지역에서 다수 나타났으며, 개발영향을 고려했을 때는 보전우선순위 지역이 파편화되어 나타남을 알 수 있었다. 개발영향과 기존보호지역을 모두 고려했을 때에도 기존 보호지역 주변으로 이미 도로개발이 많이 이뤄져 기존 보호지역과는 떨어진 지역에서 우선순위가 높게 나타났다. 따라서 개발영향을 고려하여 멸종위기종 보호하기 위해서는 기존 보호지역 주변 이외의 지역도 검토해볼 필요가 있으며, 파편화되어 나타나는 보전 우선순위지역에 대한 대응방안 모색이 필요함을 알 수 있었다.

일부 보건계열학과 대학생의 4차 산업혁명 인식 및 준비도 연구 (A Study on the Awareness and Preparation of the Forth Industrial Revolution of Some Health Department College Students)

  • 조혜은
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.291-299
    • /
    • 2020
  • 본 연구의 목적은 의료기사를 준비하는 보건계열 대학생 280명을 대상으로 4차 산업혁명에 대한 인식도와 준비도를 조사하여 보건계열 미래형 교육과정 개발의 기초자료로 활용되고자 수행되었다. 자료 수집은 자기기입식 구조화된 설문지를 이용하였고, 4차 산업에 대한 전반적 인식도는 2.74로, 관련 용어 인식은 3D프린팅(3.59)이 높았고 신경망기계학습(2.33) 인식이 가장 낮았다. 전공별로 물리치료학(3.00) 전공 학생의 인식이 높았고 치기공학(2.37) 전공 학생의 인식이 가장 낮았으며 사물인터넷에 대한 전공별 인식도에 차이가 있었다(p=0.024). 4차 산업혁명 관련 준비를 '한다' 54.5%이었고 준비가 어려운 이유로는 '흥미부족'(42.9%)이 높았으며, 교육경험은 50.6%, VR&AR 게임경험은 60.9%에서 '있다'고 응답하였다. 4차 산업혁명 시대에 나타날 변화로 '일자리 감소'(38.7%), 요구되는 역량은 '창의역량'(50.6%)이었다. 따라서 4차 산업혁명 시대를 맞이하는 보건계열 대학생들의 인식도와 준비도를 높일 수 있는 4차 산업혁명 관련 교육과정 개발 및 교수법 적용 등의 변화가 필요하겠다.

PCA 기반 특징 되먹임을 이용한 중요 영역 추출 (Extraction of Important Areas Using Feature Feedback Based on PCA)

  • 이승현;김도연;최상일;정구민
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.461-469
    • /
    • 2020
  • 본 논문에서는 손글씨 숫자 데이터셋, 얼굴 데이터셋의 중요영역 추출을 위한 PCA 기반의 특징되먹임방법을 제안한다. 이전의 LDA 기반의 특징되먹임 방법을 확장하여 PCA 기반 특징되먹임 방법이 제안된다. 제안된 방법에서 데이터에 차원 축소 머신러닝 알고리듬 중 하나인 PCA 기법을 적용하여 데이터를 중요한 특징 차원들로 축소한다. 차원 축소과정에서 도출되는 weight를 통해 축소된 각 차원 축에서의 데이터 중요 지점을 확인한다. 각 차원 축은 축의 고유값의 크기에 따라 전체 데이터에서의 가중치가 다르다. 이에 각 차원 축의 고유값의 크기에 비례하는 가중치를 부여하여 각 차원 축에서의 데이터 중요 지점을 합하는 연산 과정을 거친다. 연산 과정을 통해 얻어진 데이터에 Threshold를 적용하여 데이터의 중요 영역을 구한다. 그 후 도출된 데이터의 중요 영역에 원본데이터로 역매핑을 유도하여 원본 데이터 공간에서 중요영역을 선택한다. MNIST 데이터셋에 대한 실험 결과를 확인하고 기존의 LDA 기반의 특징되먹임 방법을 통한 결과와 비교를 하여 PCA기반 특징되먹임을 기반한 패턴 인식 방법의 유효성과 가능성을 확인한다.