• 제목/요약/키워드: boosting algorithm

검색결과 167건 처리시간 0.03초

거리척도와 앙상블 기법을 활용한 지가 추정 (Estimating Farmland Prices Using Distance Metrics and an Ensemble Technique)

  • 이창로;박기호
    • 지적과 국토정보
    • /
    • 제46권2호
    • /
    • pp.43-55
    • /
    • 2016
  • 본 연구는 사례 기반 학습(instance-based learning)의 논리를 활용하여 지가를 추정하였다. 다양한 사례 기반 학습 기법 중 k-최근린법을 이용하였으며, k-최근린법 적용시 유사성을 측정하는 거리척도는 유클리디안 거리를 비롯해 문헌에 비교적 자주 등장하는 10개의 거리척도를 사용하였다. 본 연구에서는 k-최근린법에 의한 10 종류의 예측값 중 가장 우수한 성능을 보이는 1개의 예측값을 최종 가격으로 선택하는 대신, 이들 예측값들을 병합하는 앙상블(ensemble) 기법의 논리를 적용하여 최종 예측값을 결정하였다. 앙상블 기법 중 일종의 잔차 적합 모형인 경사 부스팅 앨고리듬을 적용하여 최종 가격을 정하였다. 본 연구에서는 이러한 사례 기반 학습과 앙상블 기법의 이점을 실증적으로 제시하기 위해 전라남도 해남군 소재 농지를 사례로 하여 가격을 추정하였으며, k-최근린법에 의한 10 종류의 예측값보다 앙상블 기법에 의한 가격이 보다 정확한 것을 확인할 수 있었다.

Anomalous Trajectory Detection in Surveillance Systems Using Pedestrian and Surrounding Information

  • Doan, Trung Nghia;Kim, Sunwoong;Vo, Le Cuong;Lee, Hyuk-Jae
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권4호
    • /
    • pp.256-266
    • /
    • 2016
  • Concurrently detected and annotated abnormal events can have a significant impact on surveillance systems. By considering the specific domain of pedestrian trajectories, this paper presents two main contributions. First, as introduced in much of the work on trajectory-based anomaly detection in the literature, only information about pedestrian paths, such as direction and speed, is considered. Differing from previous work, this paper proposes a framework that deals with additional types of trajectory-based anomalies. These abnormal events take places when a person enters prohibited areas. Those restricted regions are constructed by an online learning algorithm that uses surrounding information, including detected pedestrians and background scenes. Second, a simple data-boosting technique is introduced to overcome a lack of training data; such a problem particularly challenges all previous work, owing to the significantly low frequency of abnormal events. This technique only requires normal trajectories and fundamental information about scenes to increase the amount of training data for both normal and abnormal trajectories. With the increased amount of training data, the conventional abnormal trajectory classifier is able to achieve better prediction accuracy without falling into the over-fitting problem caused by complex learning models. Finally, the proposed framework (which annotates tracks that enter prohibited areas) and a conventional abnormal trajectory detector (using the data-boosting technique) are integrated to form a united detector. Such a detector deals with different types of anomalous trajectories in a hierarchical order. The experimental results show that all proposed detectors can effectively detect anomalous trajectories in the test phase.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.

중소 전자상거래 판매상의 전략적 의사결정을 위한 비즈니스 인텔리전스 설계: 프로모션 전략을 중심으로 (Business Intelligence Design for Strategic Decision Making for Small and Midium-size E-Commerce Sellers: Focusing on Promotion Strategy)

  • 이성주;이용현;김진현;이강현;신광섭
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.201-222
    • /
    • 2023
  • 온라인 플랫폼을 통한 전자상거래 활성화에 따라 수많은 중소 판매상들은 수익성 향상을 위해 다양한 노력을 기울이고 있다. 이를 위해서는 프로모션이나 이벤트의 범위와 할인 수준, 품목 등에 대한 전략적 의사결정이 매우 중요하다. 본 연구는 중소 전자상거래 판매상들이 효과적인 프로모션 전략을 수립하기 위한 의사결정을 지원하기 위한 도구를 개발하고자 한다. 프로모션의 시행 여부를 판단하기 위해서는 프로모션에 의한 매출 증대 수준을 예측할 수 있어야 한다. 본 연구에서는 다양한 기계학습기법 중 MLP(Multi Layer Perceptron), Gradient Boosting Regression, Random Forest, Linear Regression 모델을 통해 프로모션 시행 후의 매출변화를 예측하기 위한 모델을 개발하였다. 프로모션 데이터가 가진 복잡성과 품목의 특성이 뚜렷한 영향력을 가지는 것으로 확인되었으며, 여러 기법 중 Random Forest 모델과 MLP 모델이 가장 성능이 좋은 것으로 나타났다. 본 연구에서 개발된 방법을 통해 중소 전자상거래 판매상이 시장 변화에 능동적으로 대응하고, 데이터 기반 의사결정을 지원할 수 있을 것이다.

국부 구조 분석과 장면 적응 사전을 이용한 초고해상도 알고리즘 (Super-resolution Algorithm using Local Structure Analysis and Scene Adaptive Dictionary)

  • 최익현;임경원;송병철
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.144-154
    • /
    • 2013
  • 본 논문에서는 상호 보완 관계에 있는 초고해상도 기법과 선명도 증강 기법을 통합하여 전체적인 화질을 향상시키는 새로운 초고해상도 기법을 제안한다. 먼저 학습 과정을 통해 선명도 증강의 세기에 따라 다중의 사전을 구성하고, 고 해상도 영상을 합성할 때 영상의 국부 영역 특성에 따라 서로 다른 사전을 적응적으로 참조하도록 한다. 또한, 추가적인 후처리 과정을 통하여 저해상도 영상에 내재되어 있는 아티팩트가 초고해상도 처리에 의해 증폭되는 현상을 감소시켜 화질을 극대화한다. 모의실험 결과에 따르면 제안한 알고리즘은 객관적 화질 측면에서 비교 대상이 되는 알고리즘들에 비하여 우수함을 보였다. 특히, 영상의 선명도를 나타내는 CPBD 측면에서 bi-cubic 대비 0.3, Song 기법과 Fan 기법 대비 0.1 높게 나타났다. 또한, 주관적 화질 측면에서 영상의 질감 영역 및 경계 영역의 화질이 향상된 결과를 보이는 것을 확인하였다. 제한된 방법은 기존 방법 대비 17% 정도의 메모리만을 필요로 하므로 구현 관점에서도 장점이 있음을 알 수 있다.

공공 기상데이터와 기계학습 모델을 이용한 토양수분 예측 (Prediction of Soil Moisture with Open Source Weather Data and Machine Learning Algorithms)

  • 장영빈;장익훈;최영찬
    • 한국농림기상학회지
    • /
    • 제22권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 토양수분은 농업에서 필수적인 자원으로 이의 변화와 부족을 예측함으로써 관리되어왔다. 최근 현장에서의 적용 용이성과 다양한 지역에 대한 일반화 가능성이 뛰어난 통계 및 기계학습 알고리즘을 활용한 토양수분 예측 연구가 활발히 진행되고 있다. 하지만 국내에서 생성되는 데이터를 이용한 연구들은 부족한 실정이다. 이에 본 연구는 1) 국내 공공기상 데이터만으로 충분한 성능을 내는 토양수분 예측 모델을 만들 수 있는지, 2) 어떠한 기계학습 모델이 국내에서 생산되는 데이터와 토양환경에서 가장 높은 예측 성능을 보이는지, 3) 단일 기계학습 모델을 이용해 다양한 지역에 적용 가능한지를 확인해보려 한다. 본 연구에서 Support Vector Machines (SVM), Random Forest (RF), Extremely Randomized Trees (ET), Gradient Boosting Machines (GBM), and Deep Feedforward Network (DFN) 알고리즘과 종관기상관측 자료, 농업기상관측자료를 활용하여 안동, 보성, 철원, 순천 지역의 토양 수분을 예측하는 모델을 만들었다. 그 결과, GBM을 이용한 모델이 R2 : 0.96, Root Mean Squared Error(RMSE) : 1.8로 가장 낮은 예측 오차를 보였다. 또한 GBM을 사용한 모델이 가장 낮은 지역간 예측 오차 분산을 보여 가장 일반화하기에 적절한 모델로 확인되었다.

교차 프로젝트 결함 예측 성능 향상을 위한 효과적인 하모니 검색 기반 비용 민감 부스팅 최적화 (Effective Harmony Search-Based Optimization of Cost-Sensitive Boosting for Improving the Performance of Cross-Project Defect Prediction)

  • 류덕산;백종문
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권3호
    • /
    • pp.77-90
    • /
    • 2018
  • 소프트웨어 결함 예측(SDP)은 결함이 있는 모듈을 식별하기 위한 연구 분야이다. 충분한 로컬 데이터가 없으면 다른 회사에서 수집한 데이터를 사용하여 분류기를 구축하는 교차 프로젝트 결함 예측(CPDP)을 활용할 수 있다. SDP에 대한 대부분의 기계 학습 알고리즘은 서로 다른 값에 따라 예측 성능에 큰 영향을 미치는 하나 이상의 매개 변수를 사용한다. 본 연구의 목적은 CPDP의 예측 성능 향상을 위해 매개 변수 선택 기법을 제안하는 것이다. Harmony Search 알고리즘을 사용하여, 예측 어려움을 야기하는 클래스 불균형을 해결하는 방법인 비용에 민감한 부스팅의 매개 변수를 조정한다. 분포 특성에 따라 매개 변수 범위와 매개 변수 간의 제한 조건 규칙이 정의되어 하모니 검색 알고리즘에 적용된다. 제안된 접근법은 15개의 대상 프로젝트를 대상으로 3개의 CPDP 모델과 내부프로젝트 결함 예측(WPDP) 모델을 비교한다. 실험 결과는 제안된 방법이 클래스 불균형의 맥락에서 다른 CPDP 방법보다 성능이 우수하다는 것을 보여준다. 이전의 연구에서는 탐지 확률이 낮거나 오보 가능성이 높았으나 우리의 기법은 높은 PD와 낮은 PF를 제공하면서 높은 전체 성능을 보였다. 또한 WPDP와 비슷한 성능을 제공하였다.

앙상블 머신러닝 모형을 이용한 하천 녹조발생 예측모형의 입력변수 특성에 따른 성능 영향 (Effect of input variable characteristics on the performance of an ensemble machine learning model for algal bloom prediction)

  • 강병구;박정수
    • 상하수도학회지
    • /
    • 제35권6호
    • /
    • pp.417-424
    • /
    • 2021
  • Algal bloom is an ongoing issue in the management of freshwater systems for drinking water supply, and the chlorophyll-a concentration is commonly used to represent the status of algal bloom. Thus, the prediction of chlorophyll-a concentration is essential for the proper management of water quality. However, the chlorophyll-a concentration is affected by various water quality and environmental factors, so the prediction of its concentration is not an easy task. In recent years, many advanced machine learning algorithms have increasingly been used for the development of surrogate models to prediction the chlorophyll-a concentration in freshwater systems such as rivers or reservoirs. This study used a light gradient boosting machine(LightGBM), a gradient boosting decision tree algorithm, to develop an ensemble machine learning model to predict chlorophyll-a concentration. The field water quality data observed at Daecheong Lake, obtained from the real-time water information system in Korea, were used for the development of the model. The data include temperature, pH, electric conductivity, dissolved oxygen, total organic carbon, total nitrogen, total phosphorus, and chlorophyll-a. First, a LightGBM model was developed to predict the chlorophyll-a concentration by using the other seven items as independent input variables. Second, the time-lagged values of all the input variables were added as input variables to understand the effect of time lag of input variables on model performance. The time lag (i) ranges from 1 to 50 days. The model performance was evaluated using three indices, root mean squared error-observation standard deviation ration (RSR), Nash-Sutcliffe coefficient of efficiency (NSE) and mean absolute error (MAE). The model showed the best performance by adding a dataset with a one-day time lag (i=1) where RSR, NSE, and MAE were 0.359, 0.871 and 1.510, respectively. The improvement of model performance was observed when a dataset with a time lag up of about 15 days (i=15) was added.

The Coverage Area for Extended Delivery Service in Eastern Economic Corridor (EEC): A Case of Thailand Post Co., Ltd

  • AMCHANG, Chompoonut
    • 유통과학연구
    • /
    • 제18권4호
    • /
    • pp.39-50
    • /
    • 2020
  • Purpose: This paper aimed to study the current locations of post offices to analyze service coverage area for parcel delivery in the Eastern Economics Corridor (EEC), which must be considered in the last mile to extend delivery service for e-commerce growth. Thailand Post was the case study in this paper. Research design, data and methodology: To involve solving the delivery service area under the last mile condition, the authors proposed a network analysis to determine service radius by employing a Geographic Information System (GIS). Furthermore, this paper applied Dijkstra's algorithm as a network analysis tool from GIS for analyzing the last mile service coverage area in a new economics zone. At the same time, the authors suggested an approach as a solution to locate last mile delivery center in EEC. Results: The results of the study pointed out that Thailand Post should consider more last mile delivery centers in EEC to support its express service in urban areas as well as improve the efficiency of service coverage for parcel delivery and create more advantages against competitors. Conclusions: This paper proposes a network analysis to extend the last mile service for parcel delivery by following Dijkstra's algorithm from GIS and a solution approach to add more last mile delivery centers. The results of the research will contribute to boosting customer satisfaction for last mile delivery service and enabling easy accessibility to a service center in EEC.

연기의 색 정보, 형태학적 및 동적 특징 기반의 실시간 연기 검출 (Real-time Smoke Detection Based on Colour Information, Morphological and Dynamic Features of the Smoke)

  • 김현태;박장식
    • 한국전자통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.21-26
    • /
    • 2015
  • 본 논문에서는 고화질 IP 카메라로부터 입력되는 영상으로부터 실시간으로 연기를 검출할 수 있는 시스템을 제안한다. 실시간 처리를 위해 FFmpeg 라이브러리를 이용하여 비디오 파일을 오픈하는 것처럼 IP 카메라로부터 전송되는 RTSP 스트림을 직접 오픈한다. 연기 검출을 위해 연기 후보 영역에 대해 연기의 색정보 및 형태학적 특성은 물론, 연기의 동적 특성까지 고려한다. 최종적으로 다양한 연기의 특성들을 효율적으로 결합하기 위해 부스팅 알고리즘으로 Adaboost 알고리즘을 사용한다. 실험 결과를 통하여 제안하는 방법이 연기를 검출하는 데 효과적인 것을 보인다.