• Title/Summary/Keyword: Over-Sampling

검색결과 1,276건 처리시간 0.027초

Heterogeneous Ensemble of Classifiers from Under-Sampled and Over-Sampled Data for Imbalanced Data

  • Kang, Dae-Ki;Han, Min-gyu
    • International journal of advanced smart convergence
    • /
    • 제8권1호
    • /
    • pp.75-81
    • /
    • 2019
  • Data imbalance problem is common and causes serious problem in machine learning process. Sampling is one of the effective methods for solving data imbalance problem. Over-sampling increases the number of instances, so when over-sampling is applied in imbalanced data, it is applied to minority instances. Under-sampling reduces instances, which usually is performed on majority data. We apply under-sampling and over-sampling to imbalanced data and generate sampled data sets. From the generated data sets from sampling and original data set, we construct a heterogeneous ensemble of classifiers. We apply five different algorithms to the heterogeneous ensemble. Experimental results on an intrusion detection dataset as an imbalanced datasets show that our approach shows effective results.

Regression Estimators with Unequal Selection Probabilities on Two Successive Occasions

  • Kim, Kyu-Seong
    • Journal of the Korean Statistical Society
    • /
    • 제25권1호
    • /
    • pp.25-37
    • /
    • 1996
  • In this paper, we propose regression estimators based on a partial replacement sampling scheme over two successive occasions and derive the minimum variances of them. PPSWR, RHC, $\pi$PS and PPSWOR schemes are considered to select unequal probability samples on two occasions. Simulation results over four populations are given for comparison of composite estimators and regression estimators.

  • PDF

Atmospheric Bioaerosol, Bacillus sp., at an Altitude of 3,500 m over the Noto Peninsula: Direct Sampling via Aircraft

  • Kobayashi, Fumihisa;Morosawa, Shinji;Maki, Teruya;Kakikawa, Makiko;Yamada, Maromu;Tobo, Yutaka;Hon, Chun-Sang;Matsuki, Atsushi;Iwasaka, Yasunobu
    • Asian Journal of Atmospheric Environment
    • /
    • 제5권3호
    • /
    • pp.164-171
    • /
    • 2011
  • This work focuses on the analysis of bioaerosols in the atmosphere at higher altitudes over Noto Peninsula, Japan. We carried out direct sampling via aircraft, separated cultures, and identified present isolates. Atmospheric bioaerosols at higher altitudes were collected using a Cessna 404 aircraft for an hour at an altitude of 3,500 m over the Noto Peninsula. The aircraft-based direct sampling system was devised to improve upon the system of balloon-based sampling. In order to examine pre-existing microorganism contamination on the surface of the aircraft body, bioaerosol sampling was carried out just before takeoff using the same method as atmospheric sampling. Identification was carried out by a homology search for 16S or 18S rDNA isolate sequences in DNA databases (GenBank). Isolate sampling just before takeoff revealed Stretpomyces sp., Micrococcus sp., and Cladosporium sp. One additional strain, Bacillus sp., was isolated from the sample after bioaerosol collection at high altitude. As the microorganism contamination on the aircraft body before takeoff differed from that while in the air, the presence of additional, higher atmosphere-based microorganisms was confirmed. It was found that Bacillus sp. was floating at an altitude of 3,500 m over Noto Peninsula.

표본점단위(標本點單位)에 대(對)하여 (On the sampling unit)

  • 김갑덕
    • 한국산림과학회지
    • /
    • 제4권1호
    • /
    • pp.26-29
    • /
    • 1965
  • 1) 본시험(本試驗)은 area sampling의 Form과 unit의 크기를 결정(決定)짓고져 행(行)하여진 실험(實驗)이다. 2) unit가 작은 것은 큰것에 비(比)해 과대추정치(過大推定値)를 주었다. 3) incular sample plot는 타(他)에 비(比)하여 과대추정치(過大推定値)를 준다. 4) area sampling에 있어서는 rectangular plot $0.06ha(20m{\times}30m)$가 가장 경제적(經濟的) unit가 된다. 또 circular plot를 사용(使用)할 때는 0.10 ha, square plot를 사용(使用)할 때는 0.08ha 보다 큰 unit를 사용(使用)해야만 population mean과 유의차(有意差)없어 추정(推定)할 수 있다.

  • PDF

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

계급불균형자료의 분류: 훈련표본 구성방법에 따른 효과 (Classification of Class-Imbalanced Data: Effect of Over-sampling and Under-sampling of Training Data)

  • 김지현;정종빈
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.445-457
    • /
    • 2004
  • 두 계급의 분류문제에서 두 계급의 관측 개체수가 심하게 불균형을 이룬 자료를 분석할 때, 흔히 인위적으로 두 계급의 크기를 비슷하게 해준 다음 분석한다. 본 연구에서는 이런 훈련표본 구성방법의 타당성에 대해 알아보았다. 또한 훈련표본의 구성방법이 부스팅에 미치는 효과에 대해서도 알아보았다. 12개의 실제 자료에 대한 실험 결과 나무모형으로 부스팅 기법을 적용할 때는 훈련표본을 그대로 둔 채 분석하는 것이 좋다는 결론을 얻었다.

시계열 계속 표본조사에서 불균등확률 추출법 연구 (A study on unequal probability sampling over two successive occasions in time series)

  • 박홍래;이계오
    • 응용통계연구
    • /
    • 제6권1호
    • /
    • pp.145-162
    • /
    • 1993
  • 본 논문에서는 반복적 계속 표본조사에서 일부의 표본을 교체하는 2회 계속조사의 표본 추 출법들을 요약하고 앞 조사시기의 관찰값을 확률측도로 이용한 RHC(Rao-Hartley-Cochran) 유형의 불균등 확률추출법을 제안하였다. 제안된 추출법과 기존의 확률추출법의 비교를 위 하여 둘째 조사시기의 모평균 추정량과 그의 분산을 유도하였으며, 제안된 추출법의 상대 효율은 이론적인 측면과 수치적 시뮬레이션 방법으로 비교 분석되었다. 시뮬레이션 비교를 위하여 한 특별한 시계열 모형을 가정하고 이를 사용하여 인위적인 모집단을 생성하였으며 이 모집단에서 각 추출법에 해당되는 표본을 컴퓨터로 추출하여 각각의 추정치를 계산하여 비교한 결과에서 RHC 유형의 새로 제안된 추출법의 분산과 편차가 일반적으로 적음을 보 였다.

  • PDF

자체 제작한 자기공명영상 고주파 차폐체의 유용성 평가 (Evaluation of the Utility of Self Produced MRI Radiofrequency Shielding Material)

  • 이진회;이보우
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.89-94
    • /
    • 2020
  • 자기공명영상 고주파를 차단할 수 있는 금속물질 중 자장에 영향을 받지 않으며 가격이 저렴하고 주위에서 쉽게 구할 수 있는 알루미늄 호일을 이용하여 차폐체를 제작하였다. Phantom 실험 결과 over-sampling 기법을 적용한 경우 적용 전보다 aliasing artifact가 약 94% 감소하였고, 알루미늄 차폐체를 적용한 경우도 적용 전 보다 약 92% 감소하였다. 그리고 scan time도 over-sampling 기법의 경우 적용 전보다 약 3배이상 증가한 반면, 알루미늄 차폐체의 경우는 적용 전과 변화가 없는 것으로 나타났다. 따라서 알루미늄 호일을 이용한 차폐체도 기존의 흡수재 및 차폐체들과 마찬가지로 scan time의 증가 없이 aliasing artifact를 효율적으로 제거할 수 있는 것을 확인하였다.

불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법 (A Deep Learning Based Over-Sampling Scheme for Imbalanced Data Classification)

  • 손민재;정승원;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권7호
    • /
    • pp.311-316
    • /
    • 2019
  • 분류 문제는 주어진 입력 데이터에 대해 해당 데이터의 클래스를 예측하는 문제로, 자주 쓰이는 방법 중의 하나는 주어진 데이터셋을 사용하여 기계학습 알고리즘을 학습시키는 것이다. 이런 경우 분류하고자 하는 클래스에 따른 데이터의 분포가 균일한 데이터셋이 이상적이지만, 불균형한 분포를 가지고 경우 제대로 분류하지 못하는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 Generative Adversarial Networks(GAN)에서 파생된 생성 모델로, 데이터의 특징을 학습하여 실제 데이터와 유사한 데이터를 생성할 수 있다. 따라서 CGAN이 데이터 수가 적은 클래스의 데이터를 학습하고 생성함으로써 불균형한 클래스 비율을 맞추어 줄 수 있으며, 그에 따라 분류 성능을 높일 수 있다. 실제 수집된 데이터를 이용한 실험을 통해 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.