• 제목/요약/키워드: 불균형데이터 처리

검색결과 115건 처리시간 0.029초

대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교 (Performance comparison between Decision tree model and TabNet for loan repayment prediction)

  • 한수진 ;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가 (Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster)

  • 장용일;이충호;이재동;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

인물 개체 분할을 위한 맥락-의존적 비디오 데이터 보강 (Context-Dependent Video Data Augmentation for Human Instance Segmentation)

  • 전현진;이종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권5호
    • /
    • pp.217-228
    • /
    • 2023
  • 비디오 개체 분할은 비디오를 구성하는 영상 프레임 각각에 대해 관심 개체 분할을 수행해야 할 뿐만 아니라, 해당 비디오를 구성하는 프레임 시퀀스 전체에 걸쳐 개체들에 대한 정확한 트래킹을 요구하기 때문에 난이도가 높은 기술이다. 특히 드라마 비디오에서 인물 개체 분할은 다양한 장소와 시간대에서 상호 작용하는 복수의 주요 등장인물들에 대한 정확한 트래킹을 요구하는 특징을 가지고 있다. 또한, 드라마 비디오 인물 개체분할은 주연 인물들과 조연 혹은 보조 출연 인물들 간의 등장 빈도에 상당한 차이가 있어 일종의 클래스 불균형 문제도 있다. 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오들의 시-공간적 맥락을 충분히 고려해서 목표 인물이 삽입되어야 할 배경 클립 내의 위치를 결정함으로써, 보다 더 현실적인 보강 비디오들을 생성한다. 따라서 본 논문에서 제안하는 새로운 비디오 데이터 보강 기법인 CDVA는 비디오 개체 분할을 위한 심층 신경망 모델의 성능을 효과적으로 향상시킬 수 있다. 본 논문에서는 MHIS 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 유용성과 효과를 입증한다.

딥러닝 모델과 비침습적 데이터를 활용한 수술 중 저혈압 예측에 관한 연구 (A Study on Intraoperative Hypotension Prediction using Deep Learning Model and Non-Invasive Data)

  • 김동원;신유정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.509-512
    • /
    • 2022
  • 수술 중 저혈압 예측은 환자의 안전과 직결되는 중요한 과제이다. 그러나 인간이 저혈압을 예측하는 것은 많은 경험과 노하우를 필요로 하며, 현재 연구되고 있는 예측 기술은 단일 정보를 활용하여 복합적인 원인을 반영하지 못하거나, 침습적으로 데이터를 획득하여 환자에게 불편함을 준다. 비침습적으로 수집한 데이터를 통한 저혈압 발생 예측에 대한 연구는 꾸준히 진행되어 왔으나, 기존 딥러닝을 이용한 접근방법으로는 정확도가 낮다. 본 논문에서는 그 원인을 1)데이터 전처리 2)데이터 불균형 3)기존 모델의 한계로 구분하고, 이를 해결 가능한 방안을 제시한다. 실험 결과 CNN*CNN에서 Focal Loss를 사용할 때, 가장 높은 성능을 내는 것을 확인했다.

자율주행 트랙터 환경에서 쓰러진 사람에 대한 데이터 증강 (Dataset Augmentation on Fallen Person Objects in a Autonomous Driving Tractor Environment)

  • 백화평;안한세;채희성;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.553-556
    • /
    • 2023
  • 데이터 증강은 데이터 불균형 문제를 해결하기 위해 일반화 성능을 향상시킨다. 이는 과적합 문제를 해결하고 정확도를 높이는 데 도움을 준다. 과적합을 해결하기 위해서 본 논문에서는 분할 마스크 라벨링을 자동화하여 효율성을 높이고, RoI를 활용한 분할 Copy-Paste 데이터 증강 기법을 제안한다. 본 논문의 제안 방법을 적용한 결과 YOLOv8 모델에서 기존의 분할, 박스 Copy-Paste 데이터 증강 기법과 비교해서 쓰러진 사람 객체에 대한 정확도가 10.2% 증가함으로써 제안한 방법이 일반화 성능을 높이는 데 효과가 있음을 확인하였다.

딥러닝기반 감정인식에서 데이터 불균형이 미치는 영향 분석 (Effect Analysis of Data Imbalance for Emotion Recognition Based on Deep Learning)

  • 노하진;임유진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권8호
    • /
    • pp.235-242
    • /
    • 2023
  • 최근 들어 영유아를 대상으로 한 비대면 상담이 증가함에 따라 감정인식 보조 도구로 CNN기반 딥러닝 모델을 많이 사용하고 있다. 하지만 대부분의 감정인식 모델은 성인 데이터 위주로 학습되어 있어 영유아 및 청소년을 대상으로 적용하기에는 성능상의 제약이 있다. 본 논문에서는 이러한 성능제약의 원인을 분석하기 위하여 XAI 기법 중 하나인 LIME 기법을 통해 성인 대비 영유아와 청소년의 감정인식을 위한 얼굴 표정의 특징을 분석한다. 뿐만 아니라 남녀 집단에도 동일한 실험을 수행함으로써 성별 간 얼굴 표정의 특징을 분석한다. 그 결과로 연령대별 실험 결과와 성별별 실험 결과를 CNN 모델의 사전 훈련 데이터셋의 데이터 분포를 바탕으로 설명하고 균형 있는 학습 데이터의 중요성을 강조한다.

Solar-CTP : 태양 에너지 수집형 무선 센서 네트워크를 위한 향상된 CTP (Solar-CTP : An Enhanced CTP for Solar-powered Wireless Sensor Networks)

  • 정석현;강민재;고정현;노동건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.329-330
    • /
    • 2019
  • 무선 센서 네트워크(WSN)는 배터리 자원의 제약으로 인해 수명이 짧다는 문제와 많은 이웃 노드와 통신하는 노드의 에너지 소비가 증가하는 에너지 불균형 문제를 가지고 있다. 이를 해결하고자, 최근에는 태양 에너지 수집형 노드를 사용하여 에너지를 지속적으로 수집함으로써 배터리 자원 제약 문제를 해결하려는 연구들이 활발히 진행되고 있다. 기존의 배터리 기반의 WSN을 위하여 제안된 유명한 데이터 수집 기법인 CTP(Collection Tree Protocol)도 이와 같은 에너지 제약 및 에너지 사용 불균형 문제는 고려하지 않고 설계되었다. 따라서 정전 노드 발생 및 루프 발생과 같은 네트워크의 안정성이 심각하게 저하되는 문제를 내포하고 있었다. 이를 해결하고자, 본 논문에서는 태양 에너지 수집형 노드로 구성된 WSN을 위한 향상된 CTP 기법(Solar-CTP)을 제안한다. 제안된 Solar-CTP기법에서는 수집 에너지 및 사용 에너지양 예측을 통해 노드 동작 모드를 결정한다. 성능 검증을 통해 기존 CTP에 비해 Solar-CTP의 정전 노드의 수가 매우 적고, 싱크의 데이터 수집량이 많아진 것을 확인하였다.

그래프 임베딩 기반의 이더리움 피싱 스캠 탐지 연구 (Ethereum Phishing Scam Detection Based on Graph Embedding)

  • 정유영;김경태;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.266-268
    • /
    • 2022
  • 최근 블록체인 기술이 부상하면서 이를 이용한 암호화폐가 범죄의 대상이 되고 있다. 특히 피싱 스캠은 이더리움 사이버 범죄의 과반수 이상을 차지하며 주요 보안 위협원으로 여겨지고 있다. 따라서 효과적인 피싱 스캠 탐지 방법이 시급하다. 그러나 전체 노드에서 라벨링된 피싱 주소의 부족으로 인한 데이터 불균형으로 인하여 지도학습에 충분한 데이터 제공이 어려운 상황이다. 이를 해결하기 위해 본 논문에서는 이더리움 트랜잭션 네트워크를 고려한 효율적인 네트워크 임베딩 기법인 trans2vec 과 준지도 학습 모델 tri-training 을 함께 사용하여 라벨링된 데이터뿐만 아니라 라벨링되지 않은 데이터도 최대한 활용하는 피싱 스캠 탐지 방법을 제안한다.

청각 피드백이 적용된 좌우 불균형 개선을 위한 밸런스 인솔 개발 및 검증 (The Development and Verification of Balance Insole for Improving the Muscle Imbalance of Left and Right Leg Using based Sound Feedback)

  • 강승록;윤영환;유창호;나재욱;홍철운;권대규
    • 재활복지공학회논문지
    • /
    • 제11권2호
    • /
    • pp.115-124
    • /
    • 2017
  • 본 연구에서는 하지의 좌우 불균형 검출을 위한 밸런스 측정 인솔을 개발하고 불균형을 개선하기 위한 청각 피드백 기술에 대한 검증을 하고자 하였다. 밸런스 인솔은 실시간 압력 감지 범위가 64 단계이며 발바닥 압력분포를 고려해 8개 부위에 FSR 센서를 탑재한 FPCB로 구성되었다. 피험자는 하지의 좌우 근력차이가 20% 이상 차이가 나는 피험자 20명을 선출하였다. 피험자들은 경사 0, 5, 10%와 속도 3, 4, 5km/h 로 15분 간 트레드밀 위에서 보행을 하였다. 또한 보행 시 나타나는 좌우 불균형을 평가 및 청각 피드백에 따른 개선효과를 검증하기 위해 측정된 족압 센서 데이터와 실시간 근육생리신호 데이터를 비교분석하였다. 실험 결과, 보행경사와 속도가 증가할수록 하지 좌우의 근력 불균형을 보유한 피험자들은 75.7%~140.9%까지 증가하는 반면 청각 피드백을 제공 시 10% 이내로 감소하는 결과를 보였다. 본 연구에서 개발 인솔 시스템을 이용한 보행환경에 따른 인체 좌우 불균형 발생시 FSR 신호 감도 결과와 인체생리신호 간 유효한 결과를 보였다. 향후 밸런스 피드백 보행 시 하지 좌우 불균형 개선 효과 경향을 보여 향후 족부 영역별 FSR 센서 민감도, 불균형 검출 및 개선을 위한 역치점 처리 알고리즘 개발에 대한 연구가 필요하다고 사료된다.