• Title/Summary/Keyword: 앙상블 방법

Search Result 293, Processing Time 0.033 seconds

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.27-35
    • /
    • 2021
  • In this paper, we propose a new stacking ensemble framework for deep learning models which reflects the distribution of label embeddings. Our ensemble framework consists of two phases: training the baseline deep learning classifier, and training the sub-classifiers based on the clustering results of label embeddings. Our framework aims to divide a multi-class classification problem into small sub-problems based on the clustering results. The clustering is conducted on the label embeddings obtained from the weight of the last layer of the baseline classifier. After clustering, sub-classifiers are constructed to classify the sub-classes in each cluster. From the experimental results, we found that the label embeddings well reflect the relationships between classification labels, and our ensemble framework can improve the classification performance on a CIFAR 100 dataset.

A Korean Named Entity Recognizer using Weighted Voting based Ensemble Technique (가중 투표 기반의 앙상블 기법을 이용한 한국어 개체명 인식기)

  • Kwon, Sunjae;Heo, Yoonseok;Lee, Kyunchul;Lim, Jisu;Choi, Hojeong;Seo, Jungyun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.333-336
    • /
    • 2016
  • 본 연구에서는 개체명 인식의 성능을 향상시키기 위해, 가중 투표 방법을 이용하여 개체명 인식 모델을 앙상블 하는 방법을 제안한다. 각 모델은 Conditional Random Fields의 변형 알고리즘을 사용하여 학습하고, 모델들의 가중치는 다목적 함수 최적화 기법인 NSGA-II 알고리즘으로 학습한다. 실험 결과 제안 시스템은 $F_1Score$ 기준으로 87.62%의 성능을 보여, 단독 모델 중 가장 높은 성능을 보인 방법보다 2.15%p 성능이 향상되었다.

  • PDF

A Study for Improving the Performance of Data Mining Using Ensemble Techniques (앙상블기법을 이용한 다양한 데이터마이닝 성능향상 연구)

  • Jung, Yon-Hae;Eo, Soo-Heang;Moon, Ho-Seok;Cho, Hyung-Jun
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.4
    • /
    • pp.561-574
    • /
    • 2010
  • We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and missclassificate error were used as criteria for comparison.

Surface Reconstruction Using Statistical Techniques (통계 기법을 이용한 곡면 복원)

  • Yoon, Min-Cheol;Lee, Yun-Jin;Lee, Seung-Yong;Ivrissimtzis, Ioannis;Seide1, Hans-Peter
    • Journal of the Korea Computer Graphics Society
    • /
    • v.11 no.2
    • /
    • pp.47-55
    • /
    • 2005
  • 곡면 복원이나 곡면 복원과 질은 관련이 있는 노말 추정을 하는 대부분의 방법은 결정론적인 알고리즘을 사용한다. 결정론적 알고리즘은 속도가 빠르고, 오차가 크지 않은 입력에 대해서는 좋은 질의 곡면 복원을 할 수 있다. 그러나 결정론적 방법의 특성상 이상치나 노이즈를 가진 데이터에 대해서는 안정된 복원 결과를 얻을 수 없다. 본 논문에서는 앙상블이라고 불리는 통계적인 방법을 사용해서 곡면 복원과 노말 추정을 하는 기존의 알고리즘을 개선한다. 앙상블 기법은 먼저 입력 점 집합을 무작위로 샘플링해서 점 집합의 부분집합을 만든다. 그리고 나서 만들어진 부분 집합에 독립적으로 결정론적인 알고리즘을 적용하여 결과를 얻어낸다. 마지막으로, 각각의 서로 다른 결과를 결합하여 더 우수한 최종결과를 얻어낸다. 널리 쓰이는 노말 추정 기법[11]과 Multi-level Partitions of Unity implicit [18]를 사용해서 앙상블이 효과적으로 노이즈가 많은 데이터를 처리할 수 있는 것을 보여준다.

  • PDF

A Korean Named Entity Recognizer using Weighted Voting based Ensemble Technique (가중 투표 기반의 앙상블 기법을 이용한 한국어 개체명 인식기)

  • Kwon, Sunjae;Heo, Yoonseok;Lee, Kyunchul;Lim, Jisu;Choi, Hojeong;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.333-336
    • /
    • 2016
  • 본 연구에서는 개체명 인식의 성능을 향상시키기 위해, 가중 투표 방법을 이용하여 개체명 인식 모델을 앙상블 하는 방법을 제안한다. 각 모델은 Conditional Random Fields의 변형 알고리즘을 사용하여 학습하고, 모델들의 가중치는 다목적 함수 최적화 기법인 NSGA-II 알고리즘으로 학습한다. 실험 결과 제안 시스템은 $F_1Score$기준으로 87.62%의 성능을 보여, 단독 모델 중 가장 높은 성능을 보인 방법보다 2.15%p 성능이 향상되었다.

  • PDF

Development of Flood Discharge Ensemble Member Generation Method Based on the Clark Model (Clark 모형 기반 홍수유출 앙상블 멤버 생성기법 개발)

  • Youn, Sunghyun;Ku, Jung Mo;Kang, Minseok;Kim, Gildo;Yoo, Chulsang
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.550-550
    • /
    • 2016
  • 본 연구에서는 Clark 모형을 기반으로 한 홍수유출 앙상블 멤버 생성기법을 개발하였다. Clark 모형의 매개변수인 집중시간과 저류상수는 불확실성을 가진다. 본 연구에서는 집중시간과 저류상수가 가지고 있는 불확실성을 해결하기 위하여 적절한 확률분포를 선정하였다. 집중시간에 적절한 확률분포는 집중시간이 가지고 있는 특성과 확률분포가 가지고 있는 특성을 비교 및 분석하여 선정하였다. 선정된 확률분포는 감마분포와 대수정규분포이다. 저류상수에 적절한 확률분포는 저류 상수와 집중시간의 관계를 분석하여 선정하였다. 선정된 확률분포는 집중시간에서 선정한 확률분포와 동일하다. 본 연구에서는 이지호 등(2013)의 연구에서 집중시간과 저류상수 사이에 뚜렷한 관계를 확인하고 이에 적합한 이변량 확률분포를 선정하였다. 선정된 이변량 확률분포는 이변량 감마분포와 이변량 대수정규분포이다. 이변량 감마분포는 집중시간과 저류상수에 적용 가능한 Smith, Adelfang and Tubb's(SAT) 이변량 감마분포를 선정하였다. SAT 이변량 감마분포와 이변량 대수정규분포의 적합도 검정방법은 K-S 검정을 이용하였다. 본 연구에서는 SAT 이변량 감마분포와 이변량 대수정규분포로 Random Number Generation 실시하였다. 생성된 집중시간과 저류상수의 앙상블 멤버는 Clark 모형을 이용하여 홍수유출 앙상블 멤버를 생성한다. 제안된 홍수유출 앙상블 멤버 생성기법은 방림 유역을 대상 검토하였다.

  • PDF

Improvement of precipitation ensemble forecast by blending radar and numerical model based precipitation (레이더 강수량 및 수치예보 자료를 활용한 앙상블 강우예측정보 개선 방안)

  • Urnachimeg, Sumiya;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.60-60
    • /
    • 2020
  • 기후변화 및 지구온난화로 인한 자연재해 규모가 점차 대형화, 다양화되고 있어 이로 인한 피해도 증대되고 있다. 특히, 다양한 시설과 인구밀도가 높은 도심 지역은 집중호우, 태풍, 홍수 등 자연재해에 취약하여 인적·물적 피해 위험성이 매우 높다. 방재 시설확보 및 개선을 통한 더 높은 안정성 및 기상예보를 통한 대응, 대책을 통한 피해 저감이 이루어지고 있다. 그러나 일반적으로 제공되는 단일 수치모형 기반의 결정론적 기상예측정보는 기상 상태, 선행시간, 모형 매개변수 등으로 인한 불확실성이 매우 크며 이에 대한 정보가 제공되지 않다. 이러한 문제점을 보완하기 위해 앙상블 수치모델 정보와 기상레이더 자료 기반의 단기 예측정보가 활용이 가능하다. 그러나, 앙상블 수치모델의 불확실성, 기상레이더 기반 예측정보의 짧은 예측 선행시간으로 인해 수문학적 모형에 입력자료로 활용은 어려운 실점이다. 본 연구에서는 지점 관측자료의 시간적 연속성, 기상레이더 자료의 공간적 연속성, 앙상블 예측정보의 선행시간 정보를 융합하여 기상예측정보에 대한 불확실성 개선 및 선행시간에 따른 정확도를 높일 방법을 제안하였다. 기상청에서 제공하는 앙상블 예측자료인 LENS 자료, 레이더 강수량, ASOS 관측자료 기반으로 분석이 수행되었으며 분석결과는 예측강수량을 활용하는 분야에 긍정적 영향을 미칠 것으로 기대된다.

  • PDF

Improving an Ensemble Model by Optimizing Bootstrap Sampling (부트스트랩 샘플링 최적화를 통한 앙상블 모형의 성능 개선)

  • Min, Sung-Hwan
    • Journal of Internet Computing and Services
    • /
    • v.17 no.2
    • /
    • pp.49-57
    • /
    • 2016
  • Ensemble classification involves combining multiple classifiers to obtain more accurate predictions than those obtained using individual models. Ensemble learning techniques are known to be very useful for improving prediction accuracy. Bagging is one of the most popular ensemble learning techniques. Bagging has been known to be successful in increasing the accuracy of prediction of the individual classifiers. Bagging draws bootstrap samples from the training sample, applies the classifier to each bootstrap sample, and then combines the predictions of these classifiers to get the final classification result. Bootstrap samples are simple random samples selected from the original training data, so not all bootstrap samples are equally informative, due to the randomness. In this study, we proposed a new method for improving the performance of the standard bagging ensemble by optimizing bootstrap samples. A genetic algorithm is used to optimize bootstrap samples of the ensemble for improving prediction accuracy of the ensemble model. The proposed model is applied to a bankruptcy prediction problem using a real dataset from Korean companies. The experimental results showed the effectiveness of the proposed model.

Generation of runoff ensemble members using the shot noise process based rainfall-runoff model (Shot Noise Process 기반 강우-유출 모형을 이용한 유출 앙상블 멤버 생성)

  • Kang, Minseok;Cho, Eunsaem;Yoo, Chulsang
    • Journal of Korea Water Resources Association
    • /
    • v.52 no.9
    • /
    • pp.603-613
    • /
    • 2019
  • This study proposes a method to generate runoff ensemble members using a rainfall-runoff model based on the shot noise process (hereafter the rainfall-runoff model). The proposed method was applied to generate runoff ensemble members for three drainage basins of Daerim 2, Guro 1 and the Jungdong, whose results were then compared with the observed. The parameters of the rainfall-runoff model were estimated using the empirical formulas like the Kerby, Kraven II and Russel, also the concept of modified rational formula. Gamma and exponential distributions were used to generate random numbers of the parameters of the rainfall-runoff model. Especially, the gamma distribution is found to be useful to generate various random numbers depending on the pre-assigned relationship between mean and standard deviation. Comparison between the generated runoff ensemble members and the observed shows that those runoff ensemble members generated using the gamma distribution with its standard deviation twice of the mean properly cover the observed runoff.

Development of ensemble weighting technique for sequential forecasted rainfall to extend forecast precedence time (예측 선행시간 확장을 위한 순차적 예측강우 가중평균 앙상블 생성기법 개발)

  • Na, Wooyoung;Kang, Minseok;Kim, Gildo;Lee, Hyunwook;Yoo, Chulsang
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.59-59
    • /
    • 2019
  • 최근 기후변화로 인해 대류성 집중호우가 빈번하게 발생하고 있으며, 이러한 강우 특성은 산지지역에 위치한 소하천유역에 상당한 피해를 야기한다. 대류성 집중호우는 규모가 작고 속도가 빠르기 때문에 중규모 이상의 유역에서 부분적으로 상이한 강우특성을 보인다. 아울러 이러한 호우패턴의 변화는 일시적인 현상이 아닌 하나의 기상 특성으로 자리를 잡아가고 있기 때문에 이에 대한 대책마련이 더욱 필요한 실정이다. 돌발홍수 예경보시스템에 예측강우 자료는 예측 선행시간의 한계를 가진다. 즉, 예측강우 자료자체가 가지는 편의와 불확실성으로 인해 예측 선행시간이 3시간을 초과하면 신뢰도가 급격히 하락하게 된다. 이를 해결하기 위해 우리나라에서는 지상관측치와의 편의를 보정하거나 예측강우자료 자체의 품질을 개선하려는 노력을 지속하고 있다. 본 연구에서는 예측 선행시간을 확장하고자 순차적으로 생산되는 예측강우를 가중평균하여 앙상블 예측치를 모의하는 기법을 개발하였다. 각 선행시간별 예측강우자료를 앙상블 멤버로 인식하여 이들의 공분산 구조를 파악하고, 분산과 공분산 수치를 이용하여 가중치를 결정하였다. 1, 2, 3시간 예측 선행시간에 대한 확장 가능성을 확인하고자 하였고, 최적의 앙상블 멤버 개수를 결정하여 적용 및 평가하였다. 본 연구에서는 2016년과 2017년에 발생한 주요 호우사상을 선정하고, 우리나라 전역에 걸쳐 예측강우 앙상블 생성 방법론을 적용하였다. 그 결과, 가중평균 앙상블의 예측치가 예측강우장 1개, 단순평균 앙상블 예측치에 비해 좋은 품질의 예측 성능을 보였으며, 예측치의 분산 또한 감소하여 예측에 대한 불확실성이 줄어듦을 확인하였다.

  • PDF