• 제목/요약/키워드: 랜덤포레스트

검색결과 315건 처리시간 0.021초

정지 궤도 기상 위성을 이용한 기계 학습 기반 강우 강도 추정: 한반도 여름철을 대상으로 (Rainfall Intensity Estimation Using Geostationary Satellite Data Based on Machine Learning: A Case Study in the Korean Peninsula in Summer)

  • 신예지;한대현;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_3호
    • /
    • pp.1405-1423
    • /
    • 2021
  • 강우 현상은 물 순환과 에너지 순환의 주요 요소 중 하나이며 강우량 추정은 수자원 확보와 수재해 예측 및 피해 감축에 매우 중요한 역할을 한다. 위성 기반 강우량 추정은 시공간적으로 고해상도인 자료를 통하여 넓은 지역을 연속적으로 감시할 수 있다는 장점이 있다. 본 연구에서는 Himawari-8 Advanced Himawari Imager(AHI) 수증기 채널(6.7 ㎛), 적외 채널(10.8 ㎛)과 기상 레이더 Column Max (CMAX) 합성장을 이용하여 기계학습 기반 정량적 강우량 추정 모델을 개발하였다. 기계학습 기법으로는 랜덤 포레스트(Random Forest, RF)를 사용하였으며 기상 레이더 반사도(dBZ)와 Z-R식으로 변환한 강우강도(mm/hr)를 타겟으로 하는 모델을 구축하여 비교하였다. 레이더 강우강도를 통해 검증하였을 때 임계성공지수(Critical Success Index, CSI)는 0.34, Mean-Absolute-Error (MAE) 4.82 mm/hr였다. GeoKompsat-2(GK-2A) 강우강도 산출물, Precipitation Estimation from Remotely Sensed Information Using Artificial Neural Networks (PERSIANN)-Cloud Classification System (CCS) 산출물과 비교하였을 때 강우 유무 분류에서 CSI 21.73%, 10.81%, 강우강도 정량적 평가에서 MAE 31.33%, 23.49% 높은 성능을 보였다. 강우량 산출물을 지도화 한 결과, 실제 강우강도 분포와 유사한 분포를 모의하여 기존 산출물 대비 높은 정확도의 강우량을 추정했다.

농림위성 활용 수종분류 가능성 평가를 위한 래피드아이 영상 기반 시험 분석 (A Study on Pre-evaluation of Tree Species Classification Possibility of CAS500-4 Using RapidEye Satellite Imageries)

  • 권수경;김경민;임중빈
    • 대한원격탐사학회지
    • /
    • 제37권2호
    • /
    • pp.291-304
    • /
    • 2021
  • 기후변화나 여러 환경문제들로부터 지속 가능한 산림자원 관리 및 모니터링을 위해 임상도의 지속적인 갱신은 필수적이다. 따라서 효율적이고 광역적인 산림 원격탐사의 필요성에 따라 차세대 중형위성 4호의 사업이 확정되어 2023년 발사 예정에 있다. 농림위성(차세대 중형위성 4호)는 5 m급 공간해상도와 Blue, Green, Red, Red Edge, Near Infra Red 총 5개 밴드를 가진다. 본 연구는 농림위성의 발사 및 활용에 앞서 농림위성과 유사한 사양을 가지는 RapidEye를 이용하여 위성 기반 수종분류의 가능성을 모의 평가하기 수행되었다. 본 연구는 춘천 선도산림경영단지를 연구 대상지로 하였으며, RapidEye 위성 영상기반 모의 수종분류는 생육기 영상으로부터 추출한 분광정보와 생육기와 비생육기의 NIR 밴드로부터 추출한 GLCM 질감특성 정보가 활용되었고, 이를 입력데이터로 하여 랜덤 포레스트(Random Forest) 기법을 적용하였다. 본 연구에서는 침엽수종 3종(소나무, 잣나무, 낙엽송), 활엽수종 5종(신갈나무, 굴참나무, 자작나무, 밤나무, 기타활엽수), 침활혼효림 총 9종으로 임상을 분류하였다. 분류 정확도는 임상도와 분류 결과를 대조하여 산출하였으며, 분류 정확도는 분광정보만 사용한 경우 39.41%, 분광정보과 질감정보를 모두 사용한 경우 69.29%의 정확도를 보였으며, 다중시기 분광정보 및 질감정보의 활용을 통해 5 m 해상도의 위성영상으로부터 수종분류의 가능성이 있음을 확인하였다. 향후 식생의 생태적 특성을 더욱 효과적으로 반영한 추가 변수를 대입하여 농림위성 활용 가능성을 제고하고자 한다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

심박변이도를 이용한 적응적 뉴로 퍼지 감정예측 모형에 관한 연구 (Implementing an Adaptive Neuro-Fuzzy Model for Emotion Prediction Based on Heart Rate Variability(HRV))

  • 박성수;이건창
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.239-247
    • /
    • 2019
  • 감정을 정확히 예측하는 것은 환자중심의 의료디바이스 개발 및 감성관련 산업에서 매우 중요한 이슈이다. 감정예측에 관한 많은 연구 중 감정 예측에 심박 변동성과 뉴로-퍼지 접근법을 적용한 연구는 없다. 본 연구는 HRV를 이용한 ANFEP(Adaptive Neuro Fuzzy system for Emotion Prediction)을 제안한다. ANFEP의 핵심 기능은 인공 신경망과 퍼지시스템을 통합해 예측 모델을 학습하는 ANFIS(Adaptive Neuro-Fuzzy Inference System)에 기반한다. 제안 모형의 검증을 위해 50명의 실험자를 대상으로 청각자극으로 감정을 유발하고, 심박변이도를 구하여 ANFEP 모형에 입력하였다. STDRR과 RMSSD를 입력으로 하고 입력변수 당 2개의 소속함수로 하는 ANFEP모형이 가장 좋은 결과를 나타났다. 제안한 감정예측 모형을 선형회귀 분석, 서포트 벡터 회귀, 인공신경망, 랜덤 포레스트와 비교한 결과 본 제안모형이 가장 우수한 성능을 보였다. 연구 결과는 보다 적은 입력으로 신뢰성 높은 감정인식이 가능함을 입증했고, 이를 활용해 보다 정확하고 신뢰성 높은 감정인식 시스템 개발에 대한 연구가 필요하다.

데이터마이닝 기법을 이용한 서울시 지하철역 승차인원 예측 (A study on the number of passengers using the subway stations in Seoul)

  • 조수진;김보경;김나현;송종우
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.111-128
    • /
    • 2019
  • 지하철은 많은 승객들을 원거리까지 안전하고, 신속 정확하게 원하는 지점으로 대량 수송할 수 있는 친환경적인 교통수단이다. 지하철의 공익성을 증대시키기 위해서는 정확한 승객 수요 예측이 이루어져야 한다. 본 연구는 정확한 지하철 수요예측을 위하여, 군집분석을 통해 서울시 1-9호선 지하철역들을 군집화 하였다. 그 후, 전체 역과 각 군집 별 최종 예측 모형을 제시하였다. 군집화 결과, 294개의 역이 3개로 군집화 되었으며 그룹 1은 상공업지구, 그룹 2는 주상복합지구, 그룹 3은 주거지구가 중심이 되는 역들로 나타났다. 그 후 각 군집 별로 다양한 데이터 마이닝 기법을 이용해 지하철 승차인원 예측 모형을 제시하고, 수요 예측에 중요한 영향을 미치는 요인들을 도출하였다. 그리고 최종 모형을 바탕으로 2018년 10월에 개통될 서울시 9호선 3단계 연장역인 8개 신설역의 3개월 수요를 예측하였다. 8개 신설역의 월평균 시간당 평균 승차인원은 약 241에서 452명, 월평균 시간당 최대 승차인원은 약 969에서 1,515명으로 추정되었다. 본 분석의 최종 모형을 활용한 신설역의 지하철 수요 예측은 대중교통 정책 결정을 위한 기초자료로 활용되어 효율적인 지하철 운영 방안 수립에 기여할 수 있을 것이다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

GIS와 기계학습을 이용한 지하수 가능성도 작성 연구 현황 (Status of Groundwater Potential Mapping Research Using GIS and Machine Learning)

  • 이사로
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1277-1290
    • /
    • 2020
  • 지표수와 지하수로 이루어진 수자원은 세계적으로 가장 중요한 천연자원 중 하나로 여겨진다. 지난 세기 이후 급속한 산업화와 급증하는 인구로 인해, 생활용, 산업용, 농업용수 수요가 급증하고 있으며, 이에 대한 지하수 수요도 급증하고 있다. 따라서 지하수에 대한 지속 가능한 개발과 관리를 위해서는 정확한 위치기반의 지하수 가능성도 작성이 필수적이다. 최근에는 기계학습과 지리정보시스템 통합이 지하수 가능성도 작성에 효과적인 방법이 되고 있다. 이러한 통합접근법의 현황 파악을 위해 6년(2015~2020년) 동안 94편의 직접 관련 논문에 대한 체계적 검토를 실시했다. 문헌 검토에 따르면, 매년 발간되는 연구의 수는 시간이 지남에 따라 급격히 증가했다. 전체 연구 분야는 15개국에 걸쳐 있으며, 85%의 연구가 이란, 인도, 중국, 한국, 이라크에 집중되었다. 지하수 산출 가능성 조사에는 20개의 변수가 자주 사용된 것으로 조사되었으며, 이 중 지형고도, 경사, 경사방향, 지형습도지수, 지질, 토지 이용 피복, 하천 밀도, 강과의 거리, 강우량 등이 자주 사용되는 것으로 나타났다. 기계학습 모델에 있어 랜덤 포레스트, 서포트벡터머신, 부스트 회귀트리 등의 방법이 많이 사용되었다. 이러한 문헌 연구는 최적의 결과를 위해 지하수 가능성도를 저비용 대체물이 아닌 현장 작업을 보완하는 도구로 사용해야 한다는 것을 보여준다. 마지막으로, 향후, 지하수 가능성도 작성의 표준화 및 정확성을 개선하기 위해 더 많은 연구가 진행되어야 할 것이다.

양파의 생육시기별 생육요인과 기상요인 간의 관계 탐색 (A Correlation between Growth Factors and Meteorological Factors by Growing Season of Onion)

  • 김재휘;최성천;김준기;서홍석
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.1-14
    • /
    • 2021
  • 양파는 생산량 변동에 따른 가격 변화폭이 커 수급조절 대책이 필요한 대표적인 농산물로 대책의 실효성 증대를 위해서는 정확한 생산량 예측이 요구된다. 양파는 주로 노지에서 재배되기 때문에 기상변화로 인해 생산량의 정확한 추정이 어렵다. 많은 선행연구가 다양하게 시도되었지만 신뢰도 높은 분석결과를 도출하기 위한 양질의 생육 실측자료가 부족한 실정이었다. 선행연구는 기상여건을 통제한 실험설계를 통해 얻어낸 자료를 분석하거나 기상자료와 생육자료 간 지역적 범위가 동일하지 않는 연구가 대다수여서 생육요인과 기상요인 간의 관계를 명확하게 규명하기에는 한계가 있었다. 본 연구는 자연적으로 노출된 환경에서 수집한 생육 실측조사 자료와 함께 실측 대상 지역의 추정 기상자료를 사용하여 생육요인과 기상요인 간 관계를 실증적으로 분석하였다. 양파의 생산량은 구중으로 결정되지만 지상부 생육상황에 따라 구의 생장이 부진할 수 있기 때문에 본 연구에서는 구중뿐만 아니라 지상부 생장과 어떤 기상요인이 중요한지 탐색하였다. 시기별로 생육요인과 통계적으로 유의한 상관관계를 갖는 기상요인을 탐색한 후, 랜덤 포레스트 기법을 이용하여 요인들의 영향력 및 중요도를 분석하였다. 주목할만한 결과로 3월 초에는 일사량이 지상부 생육에 긍정적인 영향을 주었으며, 3월 말에는 강수량과 지상부 생장 간 음의 상관관계에 있어 가뭄에 의한 피해를 언급한 기존 문헌과 상이하였다. 또한 수확기에는 강수량과 일조시간이 지상부와 지하부 생육에 미치는 영향이 유의하게 반대로 나타났다. 본 연구에서 밝혀낸 생육시기별 중요 기상요인은 양파의 생육모형과 생산량 예측모형 개발 연구를 위한 기초자료로 유용하게 활용될 것으로 기대된다.

Extra Tree와 ANN을 활용한 이상 탐지 및 공격 유형 분류 메커니즘 (Anomaly detection and attack type classification mechanism using Extra Tree and ANN)

  • 김민규;한명묵
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.79-85
    • /
    • 2022
  • 이상 탐지는 일반적인 사용자들의 데이터 집합 속에서 비정상적인 데이터 흐름을 파악하여 미리 차단하는 방법이다. 기존에 알려진 방식은 이미 알려진 공격의 시그니처를 활용하여 시그니처 기반으로 공격을 탐지 및 방어하는 방식인데, 이는 오탐율이 낮다는 장점이 있지만 제로 데이 취약점 공격이나 변형된 공격에 대해서는 매우 취약하다는 점이 문제점이다. 하지만 이상 탐지의 경우엔 오탐율이 높다는 단점이 존재하지만 제로 데이 취약점 공격이나 변형된 공격에 대해서도 식별하여 탐지 및 차단할 수 있다는 장점이 있어 관련 연구들이 활발해지고 있는 중이다. 본 연구에서는 이 중 이상 탐지 메커니즘에 대해 다뤘다. 앞서 말한 단점인 높은 오탐율을 보완하며 그와 더불어 이상 탐지와 분류를 동시에 수행하는 새로운 메커니즘을 제안한다. 본 연구에서는 여러 알고리즘의 특성을 고려하여 5가지의 구성으로 실험을 진행하였다. 그 결과로 가장 우수한 정확도를 보이는 모델을 본 연구의 결과로 제안하였다. Extra Tree와 Three layer ANN을 동시에 적용하여 공격 여부를 탐지한 후 공격을 분류된 데이터에 대해서는 Extra Tree를 활용하여 공격 유형을 분류하게 된다. 본 연구에서는 NSL-KDD 데이터 세트에 대해서 검증을 진행하였으며, Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.8%, 99.1%, 98.9%, 98.7%, 97.9%의 결과를 보였다. 본 구성은 다른 모델에 비해 우수한 성능을 보였다.

머신러닝을 사용한 서리 예측 연구 (A study on frost prediction model using machine learning)

  • 김효정;김삼용
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.543-552
    • /
    • 2022
  • 서리는 표면 근처의 공기의 이슬점 온도가 빙점 이하일 때 수증기가 승화, 응축되어 땅이나 물체에 얼게 되는 작은 얼음 결정체이다. 서리가 내리면 농작물이 직접 피해를 입는다. 농작물이 낮은 온도에 접촉하면 조직이 얼어서 세포막이나 엽록체가 딱딱해지고 파괴되거나 건조한 세포가 죽습니다. 2020년 7월, 세계 최대 커피 생산국인 브라질 미나스제라이스 주에 갑작스러운 영하의 날씨와 서리가 내려 지역 커피 나무의 약 30%가 피해를 입었다. 이로 인해 피해로 커피값이 크게 올랐고, 피해가 심각한 농가는 농작물이 회복되기까지 3년이 걸리기 때문에 2024년에야 커피를 생산할 수 있다. 본 논문에서는 심한 서리가 내리는 것을 방지하기 위해 기상청이 제공하는 서리 발생 데이터와 기상관측 데이터를 이용해 서리를 예측하려고 했다. 관측 지점의 고도 및 풍속, 온도, 습도, 강수량, 흐림 등의 기상 요인을 반영하여 모델을 구축하였다. XGB, SVM, Random Forest, MLP 모델을 사용하여 다양한 하이퍼 파라미터를 학습 데이터로 적용하여 각 모델에 가장 적합한 모델을 선택하였다. 마지막으로, 결과는 테스트 데이터에서 정확도(acc)와 중요 성공 지수(CSI)로 평가되었다. XGB는 90.4%의 acc와 64.4%의 CSI로 다른 모델에 비해 최고의 모델이었고, SVM은 89.7%의 acc와 61.2%의 CSI로 그 뒤를 이었다. 랜덤 포레스트와 MLP는 약 89%의 acc와 약 60%의 CSI로 비슷한 성능을 보였다.