• 제목/요약/키워드: Random Forest Algorithm

검색결과 231건 처리시간 0.024초

Calibration of Portable Particulate Mattere-Monitoring Device using Web Query and Machine Learning

  • Loh, Byoung Gook;Choi, Gi Heung
    • Safety and Health at Work
    • /
    • 제10권4호
    • /
    • pp.452-460
    • /
    • 2019
  • Background: Monitoring and control of PM2.5 are being recognized as key to address health issues attributed to PM2.5. Availability of low-cost PM2.5 sensors made it possible to introduce a number of portable PM2.5 monitors based on light scattering to the consumer market at an affordable price. Accuracy of light scatteringe-based PM2.5 monitors significantly depends on the method of calibration. Static calibration curve is used as the most popular calibration method for low-cost PM2.5 sensors particularly because of ease of application. Drawback in this approach is, however, the lack of accuracy. Methods: This study discussed the calibration of a low-cost PM2.5-monitoring device (PMD) to improve the accuracy and reliability for practical use. The proposed method is based on construction of the PM2.5 sensor network using Message Queuing Telemetry Transport (MQTT) protocol and web query of reference measurement data available at government-authorized PM monitoring station (GAMS) in the republic of Korea. Four machine learning (ML) algorithms such as support vector machine, k-nearest neighbors, random forest, and extreme gradient boosting were used as regression models to calibrate the PMD measurements of PM2.5. Performance of each ML algorithm was evaluated using stratified K-fold cross-validation, and a linear regression model was used as a reference. Results: Based on the performance of ML algorithms used, regression of the output of the PMD to PM2.5 concentrations data available from the GAMS through web query was effective. The extreme gradient boosting algorithm showed the best performance with a mean coefficient of determination (R2) of 0.78 and standard error of 5.0 ㎍/㎥, corresponding to 8% increase in R2 and 12% decrease in root mean square error in comparison with the linear regression model. Minimum 100 hours of calibration period was found required to calibrate the PMD to its full capacity. Calibration method proposed poses a limitation on the location of the PMD being in the vicinity of the GAMS. As the number of the PMD participating in the sensor network increases, however, calibrated PMDs can be used as reference devices to nearby PMDs that require calibration, forming a calibration chain through MQTT protocol. Conclusions: Calibration of a low-cost PMD, which is based on construction of PM2.5 sensor network using MQTT protocol and web query of reference measurement data available at a GAMS, significantly improves the accuracy and reliability of a PMD, thereby making practical use of the low-cost PMD possible.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

GOCI 위성영상과 기계학습 기법을 이용한 Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index의 공간 상세화 (Spatial Downscaling of Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index Using GOCI Satellite Image and Machine Learning Technique)

  • 성태준;김영준;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.959-974
    • /
    • 2021
  • Forel-Ule Index (FUI)는 자연에 존재하는 담수 및 해수의 색을 남색부터 고동색까지 21 가지의 등급으로 구분하는 지표이다. FUI는 여러 선행연구에서 수계의 부영양화 지수, 수질인자, 광 특성 등과 연관 지어 분석되었으며, 여러 수질인자의 광학적 정보를 동시에 가지고 있는 새로운 수질 지표로써의 가능성이 제시되었다. 본 연구에서는 500 m의 높은 공간해상도를 가지는 정지궤도 해양위성해색탑재체(Geostationary Ocean Color Imager; GOCI) 관측 자료와 Random Forest (RF) 기계학습 기법을 활용하여 Ocean Colour-Climate Change Initiative(OC-CCI) 기반의 4 km FUI 자료를 공간 상세화 시켰다. 이를 활용하여 우리나라 연안 해역에 대한 수질인자와의 상관관계와 주요 해역에 대한 FUI의 공간적 분포 및 계절별 특성 변화를 분석하였다. 검증 결과 RF 기법으로 추정한 RF FUI는 결정계수(R2)=0.81, 평균 제곱근 오차(Root Mean Square Error; RMSE)=0.7784로, Pitarch의 OC-CCI FUI 알고리즘을 적용하여 계산한 GOCI FUI 추정 정확도(R2=0.72, RMSE=0.9708) 대비 향상된 결과를 보였다. RF FUI는 총 질소(Total Nitrogen), 총 인(Total Phosphorus), 클로로필-a(Chlorophyll-a), 총 부유물질(Total Suspended Solids), 투명도(Secchi Disk Depth)를 포함하는 5가지 수질인자와 각각 0.87, 0.88, 0.97, 0.65, -0.98의 상관계수로 강한 상관성을 보였다. 산출된 FUI의 시간적 패턴 역시 여러 수질인자와의 물리적 관계를 반영하며 유의미한 계절적 패턴의 변화를 보였다. 본 연구의 결과로 한반도 연안 수질 관리에서 고해상도 FUI의 활용 가능성을 제시하였다.

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

Himawari-8 정지궤도 위성 영상을 활용한 딥러닝 기반 산불 탐지의 효율적 방안 제시 (Efficient Deep Learning Approaches for Active Fire Detection Using Himawari-8 Geostationary Satellite Images)

  • 이시현;강유진;성태준;임정호
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.979-995
    • /
    • 2023
  • 산불은 예측이 어려운 재해이기 때문에 실시간 모니터링을 통해 빠르게 대응하는 것이 중요하며, 정지 궤도 위성 영상은 광역을 짧은 시간 간격으로 모니터링할 수 있어 산불 탐지 분야에 활발히 이용되고 있다. 기존의 위성 영상 기반 산불 탐지 알고리즘은 밝기 온도의 통계량 분석을 통한 임계값 기반으로 이상치를 탐지하는 방향으로 진행되어 왔다. 그러나 강도가 약한 산불을 탐지하기 어렵거나, 적절한 임계값 설정의 어려움으로 일반화 성능이 저하되는 한계점이 있어 최근에는 기계학습을 이용한 산불 탐지 알고리즘들이 제시되고 있다. 현재까지는 random forest, VanillaConvolutional neural network (CNN), U-net 구조 등의 비교적 간단한 기법이 적용되고 있다. 따라서, 본 연구에서는 정지궤도 위성인 Advanced Himawari Imager를 이용하여 동아시아와 호주를 대상으로 State of the Art (SOTA)딥러닝 기법을 적용한 산불 탐지 알고리즘을 개발하고자 하였다. SOTA 모델은 EfficientNet과 lion optimizer를 적용하여 개발하고, Vanilla CNN 구조를 사용한 모델과 산불 탐지 결과를 비교하였다. EfficientNet은 동아시아와 호주에서 0.88 및 0.83의 F1-score를 기록함으로써 CNN (동아시아: 0.83, 호주: 0.78)에 비해 뛰어난 성능을 입증하였다. EfficientNet에 불균형 문제 해결을 위한 weighted loss, equal sampling, image augmentation 기법 적용 시, 동아시아와 호주에서 각각 0.92와 0.84의 F1-score를 기록함으로써 적용 전(동아시아: 0.88, 호주: 0.83)에 비하여 성능이 향상되었음을 확인하였다. 본 연구를 통하여 제시된 SOTA 딥러닝 기법의 산불 탐지에의 적용 가능성과 딥러닝 모델의 성능 향상을 위해 고려해야 할 방향은 향후 산불탐지 분야에 대한 딥러닝 적용에 도움이 될 것으로 기대된다.

데이터 마이닝 기법을 활용한 군용 항공기 비행 예측모형 및 비행규칙 도출 연구 (A Study on the Development of Flight Prediction Model and Rules for Military Aircraft Using Data Mining Techniques)

  • 유경열;문영주;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권3호
    • /
    • pp.177-195
    • /
    • 2022
  • Purpose This paper aims to prepare a full operational readiness by establishing an optimal flight plan considering the weather conditions in order to effectively perform the mission and operation of military aircraft. This paper suggests a flight prediction model and rules by analyzing the correlation between flight implementation and cancellation according to weather conditions by using big data collected from historical flight information of military aircraft supplied by Korean manufacturers and meteorological information from the Korea Meteorological Administration. In addition, by deriving flight rules according to weather information, it was possible to discover an efficient flight schedule establishment method in consideration of weather information. Design/methodology/approach This study is an analytic study using data mining techniques based on flight historical data of 44,558 flights of military aircraft accumulated by the Republic of Korea Air Force for a total of 36 months from January 2013 to December 2015 and meteorological information provided by the Korea Meteorological Administration. Four steps were taken to develop optimal flight prediction models and to derive rules for flight implementation and cancellation. First, a total of 10 independent variables and one dependent variable were used to develop the optimal model for flight implementation according to weather condition. Second, optimal flight prediction models were derived using algorithms such as logistics regression, Adaboost, KNN, Random forest and LightGBM, which are data mining techniques. Third, we collected the opinions of military aircraft pilots who have more than 25 years experience and evaluated importance level about independent variables using Python heatmap to develop flight implementation and cancellation rules according to weather conditions. Finally, the decision tree model was constructed, and the flight rules were derived to see how the weather conditions at each airport affect the implementation and cancellation of the flight. Findings Based on historical flight information of military aircraft and weather information of flight zone. We developed flight prediction model using data mining techniques. As a result of optimal flight prediction model development for each airbase, it was confirmed that the LightGBM algorithm had the best prediction rate in terms of recall rate. Each flight rules were checked according to the weather condition, and it was confirmed that precipitation, humidity, and the total cloud had a significant effect on flight cancellation. Whereas, the effect of visibility was found to be relatively insignificant. When a flight schedule was established, the rules will provide some insight to decide flight training more systematically and effectively.

Texture Analysis of Three-Dimensional MRI Images May Differentiate Borderline and Malignant Epithelial Ovarian Tumors

  • Rongping Ye;Shuping Weng;Yueming Li;Chuan Yan;Jianwei Chen;Yuemin Zhu;Liting Wen
    • Korean Journal of Radiology
    • /
    • 제22권1호
    • /
    • pp.106-117
    • /
    • 2021
  • Objective: To explore the value of magnetic resonance imaging (MRI)-based whole tumor texture analysis in differentiating borderline epithelial ovarian tumors (BEOTs) from FIGO stage I/II malignant epithelial ovarian tumors (MEOTs). Materials and Methods: A total of 88 patients with histopathologically confirmed ovarian epithelial tumors after surgical resection, including 30 BEOT and 58 MEOT patients, were divided into a training group (n = 62) and a test group (n = 26). The clinical and conventional MRI features were retrospectively reviewed. The texture features of tumors, based on T2-weighted imaging, diffusion-weighted imaging, and contrast-enhanced T1-weighted imaging, were extracted using MaZda software and the three top weighted texture features were selected by using the Random Forest algorithm. A non-texture logistic regression model in the training group was built to include those clinical and conventional MRI variables with p value < 0.10. Subsequently, a combined model integrating non-texture information and texture features was built for the training group. The model, evaluated using patients in the training group, was then applied to patients in the test group. Finally, receiver operating characteristic (ROC) curves were used to assess the diagnostic performance of the models. Results: The combined model showed superior performance in categorizing BEOTs and MEOTs (sensitivity, 92.5%; specificity, 86.4%; accuracy, 90.3%; area under the ROC curve [AUC], 0.962) than the non-texture model (sensitivity, 78.3%; specificity, 84.6%; accuracy, 82.3%; AUC, 0.818). The AUCs were statistically different (p value = 0.038). In the test group, the AUCs, sensitivity, specificity, and accuracy were 0.840, 73.3%, 90.1%, and 80.8% when the non-texture model was used and 0.896, 75.0%, 94.0%, and 88.5% when the combined model was used. Conclusion: MRI-based texture features combined with clinical and conventional MRI features may assist in differentitating between BEOT and FIGO stage I/II MEOT patients.

매장 문화재 공간 분포 결정을 위한 지하투과레이더 영상 분석 자동화 기법 탐색 (Automated Analyses of Ground-Penetrating Radar Images to Determine Spatial Distribution of Buried Cultural Heritage)

  • 권문희;김승섭
    • 자원환경지질
    • /
    • 제55권5호
    • /
    • pp.551-561
    • /
    • 2022
  • 지구물리탐사기법은 매장 문화재 조사에 필요한 높은 해상도의 지하 구조 영상 생성과 매장 유구의 정확한 위치 결정하는 데 매우 유용하다. 이 연구에서는 경주 신라왕경 중심방의 고해상도 지하투과레이더 영상에서 유구의 규칙적인 배열이나 선형 구조를 자동적으로 구분하기 위하여 영상처리 기법인 영상 특징 추출과 영상분할 기법을 적용하였다. 영상 특징 추출의 대상은 유구의 원형 적심과 선형의 도로 및 담장으로 캐니 윤곽선 검출(Canny edge detection)과 허프 변환(Hough Transform) 알고리듬을 적용하였다. 캐니 윤곽선 검출 알고리듬으로 검출된 윤곽선 이미지에 허프 변환을 적용하여 유구의 위치를 탐사 영상에서 자동 결정하고자 하였으나, 탐사 지역별로 매개변수를 달리해서 적용해야 한다는 제약이 있었다. 영상 분할 기법의 경우 연결요소 분석 알고리듬과 QGIS에서 제공하는 Orfeo Toolbox (OTB)를 이용한 객체기반 영상분석을 적용하였다. 연결 요소 분석 결과에서, 유구에 의한 신호들이 연결된 요소들로 효과적으로 인식되었지만 하나의 유구가 여러 요소로 분할되어 인식되는 경우도 발생함을 확인하였다. 객체기반 영상분석에서는 평균이동(Large-Scale Mean-Shift, LSMS) 영상 분할을 적용하여 각 분할 영역에 대한 화소 정보가 포함된 벡터 레이어를 우선 생성하였고, 유구를 포함하는 영역과 포함하지 않는 영역을 선별하여 훈련 모델을 생성하였다. 이 훈련모델에 기반한 랜덤포레스트 분류기를 이용해 LSMS 영상분할 벡터 레이어에서 유구를 포함하는 영역과 그렇지 않은 영역이 자동 분류 될 수 있음을 확인하였다. 이러한 자동 분류방법을 매장 문화재 지하투과레이더 영상에 적용한다면 유구 발굴 계획에 활용가능한 일관성 있는 결과를 얻을 것으로 기대한다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.