• 제목/요약/키워드: 클래스 불균형 분류

검색결과 56건 처리시간 0.025초

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법 (Gender Prediction and Precision Inference Method based on the naive Bayesian)

  • 권태원;이의종;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.

Attention layer를 활용한 이미지 기반 피부암 분류 시스템 (Image-Based Skin Cancer Classification System Using Attention Layer)

  • 이규원;우성희
    • 실천공학교육논문지
    • /
    • 제16권1_spc호
    • /
    • pp.59-64
    • /
    • 2024
  • 고령화가 심화되면서 암 발병률이 증가하고 있다. 피부 암은 외적으로 보이지만 사람들이 알아채지 못하거나 가볍게 간과하는 경우가 많다. 이에 초기 발견 시기를 놓쳐 말기의 경우 생존율이 7.5~11%로 사망에 이를 수 있다. 하지만 피부 암을 진단함에 있어 육안으로 진단하는 것이 아닌 정밀검사, 세포 검사 등 시간과 비용이 많이 든다는 단점이 있다. 따라서 본 연구에서는 이러한 단점을 해결하기 위해 Attention CNN 모델 기반 피부암 분류 시스템을 제안한다. 이 시스템은 전문의로 하여금 피부 암을 초기에 발견하여 신속한 조치를 취할 수 있도록 하는데 큰 도움을 줄 수 있다. 피부암 종류에 따른 이미지 데이터 불균형 문제에서 분포 비율이 낮은 데이터에는 Over Sampling 기법을, 분포 비율이 높은 데이터에는 Under Sampling 기법을 적용하여 완화하고 Attention layer가 없는 모델과 있는 모델을 비교하여 Attention layer가 없는 사전학습 모델에 추가한 피부암 분류 모델을 제안한다. 또한, 특정 클래스에 대하여 데이터 증강 기법을 강화하여 데이터 불균형 문제를 해결할 계획이다.

유전 알고리즘 기반의 비정상 행위 탐지를 위한 특징선택 (Feature Selection for Anomaly Detection Based on Genetic Algorithm)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.1-7
    • /
    • 2018
  • 데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.

축소된 앙상블에 의한 부정행위 적발 모형 (Ensemble Size Reduction in Fraud Detection System)

  • 송영미;지원철;한완규
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 International Conference
    • /
    • pp.597-602
    • /
    • 2007
  • 데이터 마이닝 분야에서 앙상블 모형의 유용성은 널리 인정되고 있다. 앙상블을 구성하는 단위모형들 사이의 다양성이 보장되는 경우, 최종 모형의 정확성 및 안정성이 향상되기 때문이다. 하지만, 얼마나 많은 단위 모형들이 어떤 방식으로 결합되어야 하는가에 대해서는 아직도 더 많은 연구가 필요하다. 본 연구에서는 신용카드 부정사용 유형 중 하나인 현금불법융통 문제에 대해 앙상블 모형의 유용성을 검증하고자 한다. 부정행위 적발 모형은 전형적인 분류 문제의 한 유형이나, 클래스간 불균형이 매우 심하다는 특징이 있다. 따라서, 현금불법융통 문제에 적합한 다양성(Diversity) 척도를 개발하여 최소한의 단위모형들로 앙상블 모형을 구성하는 방안을 제시하였다. 축소된 앙상블 모형이 많은 수의 모형을 결합한 앙상블 모형과 거의 같은 정확성 및 안정성을 보임을 국내 신용카드사의 실제 자료를 사용하여 입증하였다.

  • PDF

소리 데이터를 이용한 불량 모터 분류에 관한 연구 (A Study on the Classification of Fault Motors using Sound Data)

  • 장일식;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.885-896
    • /
    • 2022
  • 제조에서의 모터 불량은 향후 A/S 및 신뢰성에 중요한 역활을 한다. 모터의 불량 구분은 소리, 전류, 진동등의 측정을 통해 검출한다. 본 논문에서 사용한 데이터는 자동차 사이드미러 모터 기어박스의 소리를 사용하였다. 모터 소리는 3가지의 클래스로 구성되어 있다. 소리 데이터는 멜스펙트로그램을 통한 변환 과정을 거쳐 네트워크 모델에 입력된다. 본 논문에서는 불량 모터 구분 성능을 올리기 위한 데이터 증강, 클래스 불균형에 따는 다양한 데이터 재샘플링, 재가중치 조절, 손실함수의 변경, 표현 학습과 클래스 구분의 두 단계 분리 방법 등 다양한 방법을 적용하였으며, 추가적으로 커리큘럼 러닝 방법, 자기 스페이스 학습 방법 등을 Bidirectional LSTM Attention, Convolutional Recurrent Neural Network, Multi-Head Attention, Bidirectional Temporal Convolution Network, Convolution Neural Network 등 총 5가지 네트워크 모델을 통하여 비교하고, 모터 소리 구분에 최적의 구성을 찾을 수 있었다.

딥러닝 기반 분류기법을 활용한 비상급수 예측 가능성 검토 (Predictability of emergency water supply using machine learning-based classification techniques)

  • 오영록;전경수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.303-303
    • /
    • 2022
  • 기후변화로 인해 기상이변 현상의 발생 빈도가 잦아지며 가뭄 방생 빈도 또한 증가하는 추세이다. 이에 따라 가뭄 피해를 경감하는 선제적 가뭄대응체계 구축과 가뭄이 발생한 이후에 피해를 최소화하기 위한 연구가 필요하다. 본 연구에서는 가뭄피해 여부를 이진분류 방법으로 접근하여 예측 가능성을 검토하였다. 가뭄피해 여부는 비상급수(제한급수,운반급수) 자료를 이용하여 비상급수가 시행된 경우를 가뭄피해 발생으로 보고, 비상급수가 시행되지 않은 경우를 피해 없는 사례로 구분하였다. 기상 상황 변수로는 강수량, 기온, 상대습도 등을 이용하였다. 또한 지역별 연간 총 급수량 대비 저수량을 이용하여 지역별 현 상황을 고려하고자 하였다. 의사결정나무를 이용하여 분석한 결과 불균형 클래스 문제의 정확도에 주로 이용되는 오차행렬의 정확도가 0.95 이상으로 나타났으며, F1-Score는 약 0.5 로 나타났다. 이는 예측 결과 전체를 대상으로 했을 경우 95 %의 확률로 가뭄피해 여부를 구분할 수 있는 것을 나타내며, 가뭄 피해만을 대상으로 했을 경우 50 %의 정확도를 타나낸다. 그러나 본 연구에서는 비상급수를 유발하는 충분한 환경적 변수를 고려하지 않았고, 다양한 딥러닝 모형을 분석하지 않았다. 따라서 비상급수를 유발하는 요인을 충분히 고려하고 딥러닝 기법을 고도화 한다면 모형의 정확도 개선을 기대할 수 있을 것으로 판단된다.

  • PDF

이수식 TBM 데이터와 랜덤포레스트를 이용한 일축압축강도 분류 예측에 관한 연구 (A Study on the Prediction of Uniaxial Compressive Strength Classification Using Slurry TBM Data and Random Forest)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.547-560
    • /
    • 2023
  • 최근 국내외에서 기계학습 기법으로 TBM 굴진 데이터와 지반데이터를 분석하는 지반 분류예측 연구가 증가하고 있다. 본 연구에서는 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 의사결정트리 기반 랜덤포레스트 모델을 3곳의 이수식 TBM 현장에서 획득한 기계 데이터와 지반 데이터에 적용하여 일축압축강도에 대한 다중 분류예측 연구를 하였다. 일축압축강도의 다중 분류 예측을 위해서 학습과 테스트 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 의사 결정 트리를 기반으로 한 랜덤 포레스트를 사용하여 일축압축강도 분류 학습을 수행한 결과, 다중 분류 예측 모델의 정확도는 학습 세트와 테스트 세트에서 각각 0.983 및 0.982로 모두 높게 나타났다. 다만, 클래스 간 데이터 분포의 불균형으로 인하여 클래스 4에서는 재현율이 낮게 평가되었다. 다양한 현장에서 획득한 일축압축강도의 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

효율적인 병원보건관리를 위한 태아건강분류 모델 (Design of Fetal Health Classification Model for Hospital Operation Management)

  • 전제란
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.263-268
    • /
    • 2021
  • 본 연구에서는 병원에서 실질적인 태아분만 시스템에 관리를 위한 태아건강분류모델을 설계하는 것을 목적으로 한다. 출산 중 사망자 수는 2017년을 기준으로 295,000명인 산모 사망률과 유사하다. 이러한 사망의 94%는 환경에 의해 발생하므로 대부분 예방할 수 있다. 따라서 본 논문에서는 랜덤 포레스트(Random Forest)를 이용하여 Cardiotocograms(CTG) 검사에서 추출한 2개의 데이터(태아의 심박수, 태아의 움직임, 자궁 수축 등)로 태아의 건강을 예측하는 모델을 제안하였다. 본 연구에서 제안된 모델은 태아분만 보건운영 시스템을 안정적으로 관리하기 위해 태아분만에 대한 데이터의 분포가 불균형한 이상 데이터를 갖는 항목을 찾아 표준편차의 상한 및 하한의 임계값을 설정하여 이상값을 제거하여 정확도를 높혔다. 또한 태아의 건강상태를 나타내는 클래스의 비율이 불규칙함으로, 데이터 리샘플링을 이용하여 소수의 클래스를 복제하여 클래스의 균형을 맞추었다. 그 결과 정확도가 4~5% 향상되어 97.75%로 나타났다. 이에 예측 모델을 통해 발생 할 수 있는 태아의 사망과 병을 사전에 정확히 예측하여 우선적으로 관리함으로써 효율적인 태아 보건운영과 태아 사망 및 병 예방에 기여할 수 있을 것이라고 기대한다.

무인기 기반 RGB 영상 활용 U-Net을 이용한 수수 재배지 분할 (Sorghum Field Segmentation with U-Net from UAV RGB)

  • 박기수;유찬석;강예성;김은리;정종찬;박진기
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.521-535
    • /
    • 2023
  • 논·밭 전환 시 수수(sorghum bicolor L. Moench)는 뛰어난 내습성으로 콩과 함께 안정적인 생산이 가능하여 국내 식량작물의 자급률 향상과 쌀 수급 불균형 문제를 해결할 수 있을 것으로 기대되는 작물이다. 그러나 수량 추정을 위한 재배면적과 같은 기본적인 통계조사는 많은 인력을 투입하여도 오래 걸리는 전통적인 조사 방식으로 인해 잘 이루어 지지 않고 있다. 이에 따라 본 연구에서는 무인기 기반 RGB 영상에 U-Net을 적용하여 수수 재배지 비파괴적 분할가능성을 확인하였다. 2022년에 7월 28일, 8월 13일, 8월 25일에 각각 영상이 취득되었다. 각 영상취득 날짜에서 512 × 512 영상크기로 훈련데이터셋 6,000장과 검증데이터셋 1,000장으로 나누어 학습을 진행하였으며 수수 농경지(sorghum), 벼와 콩 농경지(others)와 비 농경지(background)로 구성된 세 개 클래스와 수수 농경지와 배경(others+background)으로 구성된 두 개 클래스 기반으로 분류모델을 개발하였다. 모든 취득 날짜에서 세 개 클래스 기반 모델에서는 수수 재배지 분류 정확도가 0.91 이상으로 나타났지만 8월 데이터셋의 others 클래스에서 학습 혼동이 일어났다. 대조적으로 두 개 클래스 기반 모델에서는 8월 데이터셋의 안정적인 학습과 함께 모든 클래스에서 0.95 이상의 정확도를 나타내었다. 결과적으로 8월에 두개클래스 기반 모델을 현장에 재현하는 것이 수수 재배지 분류를 통한 재배면적 산출에 유리할 것으로 판단된다.