• 제목/요약/키워드: Ensemble Techniques

검색결과 177건 처리시간 0.03초

A Comparative Study of Phishing Websites Classification Based on Classifier Ensemble

  • Tama, Bayu Adhi;Rhee, Kyung-Hyune
    • 한국멀티미디어학회논문지
    • /
    • 제21권5호
    • /
    • pp.617-625
    • /
    • 2018
  • Phishing website has become a crucial concern in cyber security applications. It is performed by fraudulently deceiving users with the aim of obtaining their sensitive information such as bank account information, credit card, username, and password. The threat has led to huge losses to online retailers, e-business platform, financial institutions, and to name but a few. One way to build anti-phishing detection mechanism is to construct classification algorithm based on machine learning techniques. The objective of this paper is to compare different classifier ensemble approaches, i.e. random forest, rotation forest, gradient boosted machine, and extreme gradient boosting against single classifiers, i.e. decision tree, classification and regression tree, and credal decision tree in the case of website phishing. Area under ROC curve (AUC) is employed as a performance metric, whilst statistical tests are used as baseline indicator of significance evaluation among classifiers. The paper contributes the existing literature on making a benchmark of classifier ensembles for web phishing detection.

Harvest Forecasting Improvement Using Federated Learning and Ensemble Model

  • Ohnmar Khin;Jin Gwang Koh;Sung Keun Lee
    • 스마트미디어저널
    • /
    • 제12권10호
    • /
    • pp.9-18
    • /
    • 2023
  • Harvest forecasting is the great demand of multiple aspects like temperature, rain, environment, and their relations. The existing study investigates the climate conditions and aids the cultivators to know the harvest yields before planting in farms. The proposed study uses federated learning. In addition, the additional widespread techniques such as bagging classifier, extra tees classifier, linear discriminant analysis classifier, quadratic discriminant analysis classifier, stochastic gradient boosting classifier, blending models, random forest regressor, and AdaBoost are utilized together. These presented nine algorithms achieved exemplary satisfactory accuracies. The powerful contributions of proposed algorithms can create exact harvest forecasting. Ultimately, we intend to compare our study with the earlier research's results.

앙상블 기법을 활용한 온라인 음식 상품 리뷰 감성 분석 (Sentiment analysis of online food product review using ensemble technique)

  • 김한민;박경보
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.115-122
    • /
    • 2019
  • 온라인 마켓에서 소비자는 다양한 상품을 접하고 이에 대한 의견을 자유롭게 기술한다. 소비자의 상품 리뷰가 다른 소비자와 온라인 마켓의 성공에 큰 영향을 주는 만큼 온라인 마켓은 판매 상품에 대한 소비자의 감성을 정확하게 분석할 필요가 있다. 데이터 분석 기법 중 하나인 텍스트 마이닝은 상품에 대한 소비자 리뷰를 분석하여 상품을 효율적으로 관리할 수 있게 해준다. 선행 연구들은 데이터 도메인과 사이즈에 따라 분석 결과의 정확도가 다르게 나타남에도 불구하고 특정 도메인과 2만개 미만의 데이터를 분석해왔다. 또한, 분석의 정확도를 향상 시킬 수 있는 추가 요인에 대한 연구는 거의 수행하지 않았다. 본 연구는 앙상블 기법을 활용하여 기존 연구에서 주로 다루지 않은 음식 상품 도메인의 72,530개 리뷰 데이터를 분석하였다. 또한, 분석 정확도 향상과 관련하여 요약 리뷰의 영향력을 살펴보았다. 연구 결과, 본 연구는 기존 연구와 다르게 부스팅 앙상블 기법이 가장 높은 분석 정확도를 보인다는 사실을 발견하였다. 또한, 요약 리뷰는 분석의 정확도 향상에 기여하는 것으로 나타났다.

시공 중 흙막이 벽체 수평변위 예측을 위한 앙상블 모델 개발 (Development of an Ensemble Prediction Model for Lateral Deformation of Retaining Wall Under Construction)

  • 서승환;정문경
    • 한국지반공학회논문집
    • /
    • 제39권4호
    • /
    • pp.5-17
    • /
    • 2023
  • 도심지 지하굴착 공사가 대형화되면서 공사 중 안전사고에 대한 위험요인이 더욱 증가하고 있다. 이에 따라 공사현장의 위험요소를 모니터링하고 사전에 예측할 수 있는 기술이 필요하다. 굴착으로 인한 흙막이 벽체의 변형을 예측하는 방법에는 크게 경험식과 수치해석 두 가지 방법으로 분류할 수 있으며, 최근에는 인공지능 기술의 발달과 함께 머신러닝 기법을 활용한 예측 모델이 한 가지 방법으로 자리 잡고 있다. 본 연구에서는 예측력과 효율성이 우수한 부스팅 계열 알고리즘 및 앙상블 모델을 이용하여 시공 중 흙막이 벽체 변형을 예측하는 모델을 구축하였다. 지하흙막이 공사의 설계-시공-유지관리 과정에서 도출되는 자료들을 복합적으로 활용하여 데이터베이스를 구축하고, 이 자료를 토대로 학습모델을 만들고 성능을 평가하였다. 모델 성능 평가 결과, 높은 정확도로 흙막이 벽체 변형을 예측할 수 있었으며, 지반계측 자료를 학습에 활용함으로써 실제 시공과정의 특성이 반영된 예측결과를 제시할 수 있었다. 본 연구에서 구축한 예측 모델을 활용하여 시공 중 흙막이 벽체의 안정성 평가 및 모니터링에 활용할 수 있을 것으로 기대된다.

Upper Bounds for the Performance of Turbo-Like Codes and Low Density Parity Check Codes

  • Chung, Kyu-Hyuk;Heo, Jun
    • Journal of Communications and Networks
    • /
    • 제10권1호
    • /
    • pp.5-9
    • /
    • 2008
  • Researchers have investigated many upper bound techniques applicable to error probabilities on the maximum likelihood (ML) decoding performance of turbo-like codes and low density parity check (LDPC) codes in recent years for a long codeword block size. This is because it is trivial for a short codeword block size. Previous research efforts, such as the simple bound technique [20] recently proposed, developed upper bounds for LDPC codes and turbo-like codes using ensemble codes or the uniformly interleaved assumption. This assumption bounds the performance averaged over all ensemble codes or all interleavers. Another previous research effort [21] obtained the upper bound of turbo-like code with a particular interleaver using a truncated union bound which requires information of the minimum Hamming distance and the number of codewords with the minimum Hamming distance. However, it gives the reliable bound only in the region of the error floor where the minimum Hamming distance is dominant, i.e., in the region of high signal-to-noise ratios. Therefore, currently an upper bound on ML decoding performance for turbo-like code with a particular interleaver and LDPC code with a particular parity check matrix cannot be calculated because of heavy complexity so that only average bounds for ensemble codes can be obtained using a uniform interleaver assumption. In this paper, we propose a new bound technique on ML decoding performance for turbo-like code with a particular interleaver and LDPC code with a particular parity check matrix using ML estimated weight distributions and we also show that the practical iterative decoding performance is approximately suboptimal in ML sense because the simulation performance of iterative decoding is worse than the proposed upper bound and no wonder, even worse than ML decoding performance. In order to show this point, we compare the simulation results with the proposed upper bound and previous bounds. The proposed bound technique is based on the simple bound with an approximate weight distribution including several exact smallest distance terms, not with the ensemble distribution or the uniform interleaver assumption. This technique also shows a tighter upper bound than any other previous bound techniques for turbo-like code with a particular interleaver and LDPC code with a particular parity check matrix.

데이터 증강 및 앙상블 기법을 이용한 딥러닝 기반 GPR 공동 탐지 모델 성능 향상 연구 (Improving the Performance of Deep-Learning-Based Ground-Penetrating Radar Cavity Detection Model using Data Augmentation and Ensemble Techniques)

  • 최용욱;서상진;장한길로;윤대웅
    • 지구물리와물리탐사
    • /
    • 제26권4호
    • /
    • pp.211-228
    • /
    • 2023
  • 방조제의 모니터링에는 지구물리학적 비파괴 검사인 GPR (Ground Penetrating Radar) 탐사가 주로 이용된다. GPR 반응은 상황에 따라 복잡한 양상을 보이므로 자료의 처리와 해석은 전문가의 주관적 판단에 의존하며, 이는 오 탐지의 가능성을 불러옴과 동시에 시간이 오래 걸린다는 단점이 있다. 따라서 딥 러닝을 이용하여 GPR 탐사자료의 공동을 탐지하는 다양한 연구들이 수행되고 있다. 딥 러닝 기반 방법은 데이터 기반 방법으로써 풍부한 자료가 필요하나 GPR 탐사의 경우 비용 등의 이유로 학습에 이용할 현장 자료가 부족하다. 따라서 본 논문에서는 데이터 증강 전략을 이용하여 딥 러닝 기반 방조제 GPR 탐사자료 공동 탐지 모델을 개발하였다. 다년간 동일한 방조제에서 탐사 자료를 사용하여 데이터 세트를 구축하였으며, 컴퓨터 비전 분야의 객체 탐지 모델 중 YOLO (You Look Only Once) 모델을 이용하였다. 데이터 증강 전략을 비교 및 분석함으로써 최적의 데이터 증강 전략을 도출하였고, 초기 모델 개발 후 앵커 박스 클러스터링, 전이 학습, 자체 앙상블, 모델 앙상블 기법을 단계적으로 적용하여 최종 모델 도출 후 성능을 평가하였다.

임펠러 출구에서의 비정상 유동 측정 기법 (Measurement Techniques on Unsteady Flow at Impeller Exit)

  • 신유환;김광호
    • 유체기계공업학회:학술대회논문집
    • /
    • 유체기계공업학회 1998년도 유체기계 연구개발 발표회 논문집
    • /
    • pp.123-128
    • /
    • 1998
  • This study presents the measurement techniques on the periodic fluctuating flow such as the discharge flow of a centrifugal impeller in unstable operating region. During rotating stall, the flow at the exit of a centrifugal compressor impeller fluctuates periodically with lower frequency than that of the blade passing. To observe the blade-to-blade flow characteristics during rotating stall, the phases of all the sampled data sets should be adjusted to those of the reference signals with two processes, in these processes, DPLEAT (Double Phase-Locked Ensemble Averaging Technique) can be used. From these measurement and data processing techniques, the characteristics not only on the blade-to-blade flow with high frequency, but also on the periodic rotating stall flow with low frequency at the centrifugal impeller exit can be clearly observed.

  • PDF

임펠러 출구에서의 비정상 유동 측정 기법 (Measurement Techniques on Unsteady Flow at Impeller Exit)

  • 신유환;김광호
    • 한국유체기계학회 논문집
    • /
    • 제2권1호
    • /
    • pp.81-87
    • /
    • 1999
  • This study presents the measurement techniques on the periodic fluctuating flow such as the discharge flow of a centrifugal impeller in an unstable operating region. During rotating stall, the flow at the exit of a centrifugal compressor impeller fluctuates periodically with a lower frequency than that of the blade passing. To observe the blade-to-blade flow characteristics during the rotating stall, the phases of all the sampled data sets should be adjusted to those of the reference signals with two processes, in these processes, DPLEAT (Double Phase-Locked Ensemble Averaging Technique) can be used. From these measurements and data processing techniques, the characteristics illustrated a blade-to-blade flow with high frequency, but also a periodic rotating stall flow with a low frequency at the centrifugal impeller exit which was clearly observed.

  • PDF

Comparing the Performance of 17 Machine Learning Models in Predicting Human Population Growth of Countries

  • Otoom, Mohammad Mahmood
    • International Journal of Computer Science & Network Security
    • /
    • 제21권1호
    • /
    • pp.220-225
    • /
    • 2021
  • Human population growth rate is an important parameter for real-world planning. Common approaches rely upon fixed parameters like human population, mortality rate, fertility rate, which is collected historically to determine the region's population growth rate. Literature does not provide a solution for areas with no historical knowledge. In such areas, machine learning can solve the problem, but a multitude of machine learning algorithm makes it difficult to determine the best approach. Further, the missing feature is a common real-world problem. Thus, it is essential to compare and select the machine learning techniques which provide the best and most robust in the presence of missing features. This study compares 17 machine learning techniques (base learners and ensemble learners) performance in predicting the human population growth rate of the country. Among the 17 machine learning techniques, random forest outperformed all the other techniques both in predictive performance and robustness towards missing features. Thus, the study successfully demonstrates and compares machine learning techniques to predict the human population growth rate in settings where historical data and feature information is not available. Further, the study provides the best machine learning algorithm for performing population growth rate prediction.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.