• 제목/요약/키워드: 불균형데이터 처리

검색결과 120건 처리시간 0.026초

당뇨병성 망막증 분류를 위한 ResNet50 모델 기반 다중 전처리 기법 (Diabetic Retinopathy Classification with ResNet50 Model Based Multi-Preprocessing)

  • 목다현;변규린;김주찬;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.621-623
    • /
    • 2023
  • 본 연구는 당뇨병성 망막증의 자동 분류를 위해 딥러닝 모델을 활용한다. CLAHE 를 사용한 전처리로 이미지의 대비를 향상시켰으며, ResNet50 모델을 기반으로 한 전이학습을 통해 모델의 성능을 향상했다. 또한, 데이터의 불균형을 고려하여 정확도 뿐만 아니라 민감도와 특이도를 평가함으로써 모델의 분류 성능을 종합적으로 평가하였다. 실험 결과, 제안한 방법은 당뇨병성 망막증 분류 작업에서 높은 정확도를 달성하였으나, 양성 클래스의 식별에서 일부 한계가 있었다. 이에 데이터의 품질 개선과 불균형 데이터 처리에 초점을 맞춘 향후 연구 방향을 제시하였다.

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)

  • 박세찬;김덕엽;서강복;이우진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.489-498
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 인공지능을 통해 섬유 방사 공정에 들어가는 비용을 줄이고 품질을 최적화하려고 시도 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 수집 및 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정한 변수에만 변화를 준 데이터만을 우선으로 수집하여 데이터 불균형이 발생하며, 물성 측정 환경의 차이로 인해 동일 방사 조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 인공지능 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터 특성을 고려한 이상치 처리 기법과 데이터 증강 기법을 제안한다. 그리고 이를 기존 이상치 처리 기법 및 데이터 증강 기법과 비교하여 제안한 기법이 방사 공정 데이터에 더 적합함을 보인다. 또 원본 데이터와 제안한 기법들로 처리된 데이터를 다양한 모델에 적용하여 비교함을 통해 제안한 기법들을 사용한 모델들이 그렇지 않은 모델들에 비해 인장 강신도 예측 모델의 성능이 개선됨을 보인다.

불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법 (Oversampling-Based Ensemble Learning Methods for Imbalanced Data)

  • 김경민;장하영;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권10호
    • /
    • pp.549-554
    • /
    • 2014
  • 필기체 낱글자 인식을 위해서 사용되는 데이터는 일반적으로 다수의 사용자들로부터 수집된 자연언어 문장들을 이용하기 때문에 해당 언어의 언어적 특성에 따라서 낱글자의 종류별 개수 차이가 매우 큰 특징이 있다. 일반적인 기계학습 문제에서 학습데이터의 불균형 문제는 성능을 저하시키는 중요한 요인으로 작용하지만, 필기체 인식에서는 데이터 자체의 높은 분산과 비슷한 모양의 낱글자 등이 성능 저하의 주요인이라 생각하기 때문에 이를 크게 고려하지 않고 있다. 본 논문에서는 이러한 데이터의 불균형 문제를 고려하여 필기체 인식기의 성능을 향상시킬 수 있는 과표본화 기반의 앙상블 학습 기법을 제안한다. 제안한 방법은 데이터의 불균형 문제를 고려하지 않은 방법보다 전체적으로 향상된 성능을 보일 뿐만 아니라 데이터의 개수가 부족한 낱글자들의 분류성능에 있어서도 향상된 결과를 보여준다.

임계값 설정을 통한 근치적 위절제술 후 합병증 발생 예측 모델의 성능 평가 (Performance of a Model to Predict Complication Occurance after Radical Gastrectomy according to Thresholds)

  • 임수연;최자윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.687-689
    • /
    • 2024
  • 위암은 전 세계적인 주요 건강문제이며, 근치적 위절제술은 위암의 표준치료이다. 근치적 위절제술 후 치료목표는 합병증 발생을 낮춰 병전 상태로 빠르게 회복하는 데 있다. 따라서, 근치적 위절제술 후 합병증 발생 여부를 선별하여 예측할 수 있는 성능이 좋은 모델을 개발하는 것은 위암환자의 회복에 매우 중요하다. 랜덤포레스트 모델은 여러 개의 결정트리를 활용한 배깅 방식의 대표적인 알고리즘으로 의료 데이터를 기반으로 한 예측에 있어 뛰어난 성능을 보여 주었다. 그러나 실제 데이터는 불균형이 빈번하게 발생하여 모델의 예측 성능에 영향을 미치므로, 최적의 분류 임계값을 설정하여 다수 클래스에 대한 편향을 줄이는 것이 중요하다. 따라서, 본 연구는 최근 10년 간 일개 대학병원의 전자의무기록 데이터를 활용하여 근치적 위절제술 후 합병증 발생을 예측하는 랜덤포레스트 모델을 개발하고, 임계값 설정을 통해 불균형 데이터에 대한 모델의 성능을 평가하고자 한다.

CDBSMOTE : 클래스와 밀도기반의 합성 소수 오버샘플링 기술 (CDBSMOTE : Class and Density Based Synthetic Minority Oversampling Technique)

  • 배경환;이경현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.629-632
    • /
    • 2021
  • 머신러닝의 성능 저하에 크게 영향을 미치는 데이터 불균형은 데이터를 증강하거나 제거하여 해결할 수 있다. 본 논문에서는 지도학습에서 쓰이는 정답 데이터를 기반으로 새로운 데이터 증강기법인 CDBSMOTE을 제안한다. CDBSMOTE을 사용하면 임의의 값을 사용하지 않고, 기존의 데이터 증강기법의 문제점이었던 과적합을 최소화하며 지도학습 데이터를 효과적으로 증강시킬 수 있다.

불균형한 입력을 효과적으로 처리하는 유연한 혼합형 라우터 설계 (Design of Flexible Hybrid Router to Process Unbalanced Input Effectively)

  • 정라미;김성천
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.648-650
    • /
    • 2000
  • 라우터의 기본적인 목적은 안정적으로 다량의 데이터를 전송하는 것이다. 현재 e양한 메시지를 효과적으로 처리하기 위한 여러 혼합형 라우터가 개발되고 있다. 이는 단순히 한가지 방식만 고수하는 것이 아니라 기존의 여러 기법을 혼합된 방식을 적용하는 것이다. 이러한 혼합형 기법은 기존의 단일 방식의 단점을 보완할 수 있어야 하며, 그에 따른 오버헤드를 감수할 수 있어야 한다. 이러한 목적으로 웜홀 스위칭(wormhole switching)과 파이프라인드 서킷 스위칭(Pipelined Circuit Switching)을 동시에 구현하기 위해 혼합형 라우터 구조가 제안되었다. 이 라우터는 두 스위칭 기법을 동시에 지원하여 다양한 메시지를 효과적으로 처리할 수 있는 특성이 있다. 그러나 이 구조는 각 스위칭 방식에 해당하는 내부 연결망을 독립적으로 구성함으로써 입력으로 들어오는 스위칭 비율이 불균형일 때 내부 자원을 효율적으로 사용할 수 없는 단점이 있다. 따라서 본 논문에서는 라우터의 내부 연결망을 공유하여 사용하는 새로운 혼합형 라우터를 제안하였다. 제안한 구조는 웜홀과 파이프라인드 서킷 스위칭을 지원하는 라우터로, 메시지를 전송할 때 내부 연결망을 서로 공유함으로써, 입력 메시지의 비율이 불균형할 때 효과적으로 자원을 이용할 수 있게 하였다. 시뮬레이션을 통하여 기존의 혼합형 라우터를 사용하는 것보다 더 높은 성능을 보인다는 것을 증명하였다.

  • PDF

실시간 공간 빅데이터 스트림 분산 처리를 위한 부하 균형화 방법 (Load Balancing for Distributed Processing of Real-time Spatial Big Data Stream)

  • 윤수식;이재길
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1209-1218
    • /
    • 2017
  • 최근 스마트 자동차, 스마트폰과 같은 다양한 소스로부터 공간 빅데이터 스트림을 수집하는 것이 매우 용이해졌다. 공간 데이터 스트림은 편중되고 동적으로 변화하는 분포를 지니기 때문에 전체 부하가 분산 클러스터 내의 작업자들에게 효율적으로 분배되지 않을 경우 전체 시스템의 성능이 저하된다. 본 연구에서는 공간 데이터 스트림에 특화된 부하 균형화 알고리즘인 적응적 공간 키 그룹핑(ASKG)을 제안한다. ASKG의 핵심 아이디어는 공간 데이터 스트림의 최근 분포를 학습하고 이를 기반으로 향후 유입되는 데이터 스트림이 각 작업자에게 고르게 분배되도록 하는 새로운 그룹핑 스키마를 제안하는 것이다. 이를 공간 분포의 변화에 맞춰 주기적으로 반복함으로서 적응적으로 부하 불균형을 해결할 수 있다. 실제 데이터셋에 대해 작업자의 수, 입력 속도, 공간 질의 처리 시간을 변화시키며 성능을 평가한 결과, 대안 알고리즘 대비 제안 방법이 부하 불균형, 처리량, 지연 시간에서 높은 개선효과를 보였다.

불균형 범주 분류를 위한 동적 샘플링 스케줄러 (Dynamic Sampling Scheduler for Unbalanced Data Classification)

  • 성수진;박원주;이용태;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-226
    • /
    • 2021
  • 우리는 범주 불균형 분류 문제를 해결하기 위해 학습 과정 중 범주 크기 기반 배치 샘플링 방법 전환을 위한 스케줄링 방법을 제안한다. 범주별 샘플링 확률로 범주 크기의 역수(LWRS-Reciporcal)와 범주 비율의 반수(LWRS-Ratio)를 적용하여 각각 실험을 진행하였고, LWRS-Reciporcal 방법이 F1 성능 개선에 더 효과적인 것을 확인하였다. 더하여 고정된 샘플링 확률값으로 인해 발생할 수 있는 또 다른 편향 문제를 완화하기 위해 학습 과정 중 샘플링 방법을 전환하는 스케줄링 방법을 설계하였다. 결과적으로 검증 성능의 갱신 유무로 샘플링 방법을 전환하였을 때 naver shopping 데이터셋과 KLUE-TC에 대하여 f1 score와 accuracy의 성능 합이 베이스라인보다 각각 0.7%, 0.8% 향상된 가장 이상적인 성능을 보임을 확인하였다.

  • PDF

MarSel : 대용량 SNP 일배체형 데이터에 대한 연관불균형기반의 tagSNP 선택 시스템 (MarSel : LD based tagSNP Selection System for Large-scale SNP Haplotype Dataset)

  • 김상준;여상수;김성권
    • 정보처리학회논문지A
    • /
    • 제13A권1호
    • /
    • pp.79-86
    • /
    • 2006
  • 최근 인간의 다양성과 SNP과의 연관연구에 드는 비용을 줄이기 위해서, 최소의 tagSNP을 선택하는 문제를 해결하기 위한 연구가 이루어지고 있다. 일반적으로 많은 수의 SNP들을 여러 블록으로 분할하여 각 블록 내에서 tagSNP을 선택하는 접근방법이 사용되고 있다. 본 논문에서 구현된 MarSel은 기존의 블록분할 접근 방법의 문제로 볼 수 있는 생물학적 의미의 부족을 해결하고자, 연관불균형(Linkage Disequilibrium, LD)의 개념을 도입한 시스템이다. 기존의 접근방법에서는 생물학적으로 재조합(recombination)이 일어나지 않는 연속된 구간에서도 여러 블록으로 나누어지는 문제가 생겼던 반면, MarSel에서는 연관불균형 계수 |D'|에 의해서 연속된 구간이 하나의 블록으로 유지된 상태에서 tagSNP을 선택하게 된다. 또한 MarSel에서는 각 블록 내에서 tagSNP을 선택 할 때에 엔트로피(entropy) 기반의 최적해 알고리즘을 이용함으로써 최소한의 tagSNP 선택을 보장하게 되며, 기존의 구현된 시스템들보다 더 많은 양의 데이터를 효율적으로 처리할 수 있도록 구현되었기 때문에 염색체 레벨의 연관 연구도 가능하게 해준다.