• 제목/요약/키워드: 불균형데이터 처리

검색결과 115건 처리시간 0.031초

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

다중클래스 한국어 감성분석에서 클래스 불균형과 손실 스파이크 문제 해결을 위한 기법 (Methods For Resolving Challenges In Multi-class Korean Sentiment Analysis)

  • 박제윤;양기수;박예원;이문기;이상원;임수연;조재훈;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2020
  • 오픈 도메인 대화에서 텍스트에 나타난 태도나 성향과 같은 화자의 주관적인 감정정보를 분석하는 것은 사용자들에게서 풍부한 응답을 이끌어 내고 동시에 제공하는 목적으로 사용될 수 있다. 하지만 한국어 감성분석에서 기존의 대부분의 연구들은 긍정과 부정 두개의 클래스 분류만을 다루고 있고 이는 현실 화자의 감정 정보를 정확하게 분석하기에는 어려움이 있다. 또한 최근에 오픈한 다중클래스로된 한국어 대화 감성분석 데이터셋은 중립 클래스가 전체 데이터셋의 절반을 차지하고 일부 클래스는 사용하기에 매우 적은, 다시 말해 클래스 간의 데이터 불균형 문제가 있어 다루기 굉장히 까다롭다. 이 논문에서 우리는 일곱개의 클래스가 존재하는 한국어 대화에서 세션들을 효율적으로 분류하는 기법들에 대해 논의한다. 우리는 극심한 클래스 불균형에도 불구하고 76.56 micro F1을 기록하였다.

  • PDF

이미지 기반 축산물 불량 탐지에서의 희소 클래스 처리 전략 (Sparse Class Processing Strategy in Image-based Livestock Defect Detection)

  • 이범호;조예성;이문용
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1720-1728
    • /
    • 2022
  • 인공지능 기술의 발전으로 산업 4.0시대가 열렸고 축산업에서도 ICT 기술이 접목된 스마트 농장의 구현이 큰 관심을 받고 있다. 그중에서도 컴퓨터 비전 기반 인공지능 기술을 접목한 축산물 및 축산 가공품의 품질 관리 기술은 스마트 축산의 핵심 기술에 해당한다. 그러나 인공지능 모형 훈련을 위한 축산물 이미지 데이터 수의 부족과 특정 범주(class)에 대한 데이터 불균형은 관련 연구 및 기술 개발에 큰 장해물이 되고 있다. 이러한 문제들을 해결하기 위해, 본 연구에서는 오버샘플링과 적대적 사례 생성기법의 활용을 제안한다. 제안되는 방법은 성공적인 불량 탐지 (Defect detection) 관점을 기반으로 하며, 이는 부족한 데이터 레이블을 효과적으로 활용하는데 필요한 방법이다. 최종적으로 실험을 통해 제안된 방법의 타당성을 확인하고 활용 전략을 검토한다.

MQTT 기반 유아 신체활동 에듀테크 플랫폼 구현 (MQTT-based physical activity edutech for infants Platform Implementation)

  • 허지혜;김규린;박우정;신대현;김범중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.937-939
    • /
    • 2022
  • 최근 에듀테크 산업은 코로나 19와 4차 산업사회의 발달로 교육의 디지털 트랜스포메이션이 진행되고 있다. 그러나 기존 에듀테크 기술들은 코로나 19로 인해 예기치 못한 환경에서의 교육 불균형과 영유아들의 언어적, 신체적 발달에 대한 방향을 제시하고 있지 못하다. 이에 본 논문에서는 MQTT 기반 유아 신체활동 에듀테크 플랫폼을 제안한다. 제안하는 플랫폼의 적용된 기술은 MQTT와 아두이노 센서를 활용하여 학습 동기를 유발하고 자발적인 참여를 유도한다. 성능평가는 제안하는 플랫폼의 주요 기능인 센서 데이터 처리 정확도를 분석하기 위해 QoS(Quality of Service)레벨별 데이터 처리율과 초당 처리량을 분석한다. 부하 테스트 성능평가를 통해 QoS2 레벨이 요청된 데이터 처리를 모두 정상적으로 완료하여 제안하는 플랫폼의 데이터의 신뢰성을 보장하기 위해 QoS 레벨 2를 적용하고자 한다.

VAE(Variational AutoEncoder) 기반 머신러닝 모델을 활용한 체중 라이프로그 이상탐지에 관한 연구 (Study on Lifelog Anomaly Detection using VAE-based Machine Learning Model)

  • 김지용;박민서
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.91-98
    • /
    • 2022
  • 웨어러블 기기를 통해 지속적으로 수집되는 라이프로그 데이터는 많은 이상값을 포함할 수 있으므로 데이터품질을 향상시키기 위해서는 이상값을 찾아 제거하는 것이 필요하다. 일반적으로 이상치의 개수가 정상 데이터의 개수보다 적기 때문에 클래스 불균형 문제가 발생한다. 이러한 불균형 문제를 해결하기 위해 Variational AutoEncoder를 outlier에 적용하는 방법을 제안한다. 제안된 방법으로 이상치 데이터를 전처리한 후, 다수의 머신러닝 모델(분류)을 통해 검증한다. 체중 데이터를 이용한 검증 결과, 모든 분류 모델에서 성능이 향상됨을 확인하였다. 실험 결과를 바탕으로 라이프로그 체중 데이터 분석 시 본 연구에서 제안한 이상치 처리 방법을 이용하여 데이터를 전처리한 후 성능이 가장 좋은 LightGBM 모델을 적용할 것을 제안한다.

Solar-CTP : 모바일 싱크 기반 태양 에너지 수집형 무선 센서 네트워크를 위한 향상된 CTP (Solar-CTP : An Enhanced CTP for Solar-Powered Wireless Sensor Networks Using a Mobile Sink)

  • 정석현;강민재;노동건
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권4호
    • /
    • pp.77-82
    • /
    • 2020
  • 무선 센서 네트워크(WSN)는 제한된 배터리 자원으로 인해 수명이 짧다는 근본적인 문제뿐 아니라, 고정된 위치의 싱크로 인한 싱크 주변 노드의 에너지 소비가 비정상적으로 증가하는 에너지 불균형 문제도 가지고 있다. 이를 해결하고자, 최근에는 태양 에너지 수집형 노드를 사용하여 에너지를 지속적으로 수집함으로써 배터리 자원 제약 문제를 해결하고, 또한 모바일 싱크를 활용하여 고정된 싱크 노드 근처의 에너지 불균형 문제를 해결하려는 연구들이 활발히 진행되고 있다. 기존의 고정된 싱크 및 배터리 기반의 WSN을 위하여 제안된 유명한 데이터 수집 기법인 CTP(Collection Tree Protocol)도 이와 같은 에너지 제약 및 에너지 사용 불균형 문제는 고려하지 않고 설계되었는데, 따라서 정전 노드 발생 및 트리 구조의 루프화와 같은 네트워크의 안정성(Reliablilty)이 심각하게 저하되는 문제를 내포하고 있었다. 이를 해결하고자, 본 논문에서는 모바일 싱크와 태양에너지 수집형 노드로 구성된 WSN을 위한 향상된 CTP 기법(Solar-CTP)을 제안한다. 제안된 Solar-CTP기법에서는 수집 에너지 및 사용 에너지양 예측을 통해 노드 동작 모드를 결정한다. 아울러 싱크의 주기적인 이동으로 싱크 주변 노드의 에너지 불균형 문제를 해결한다. 성능검증을 통해 기존 CTP에 비해 Solar-CTP의 정전 노드의 수가 줄어들고, 싱크의 데이터 수집량이 향상된 것을 확인하였다.

데이터 증강 기법의 앙상블을 통한 레이블 불균형 해 소: 설명 가능한 신용평가 모델을 중심으로 (Mitigiating Data Imbalance via Ensembled Data Augmentation: An Explainable Credit Scoring Models)

  • 정지영;이소연;용예린;김민준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.483-486
    • /
    • 2023
  • 최근 금융 분야는 예측 모델의 복잡성으로 인한 블랙박스 문제와 금융 규제에 대한 관심이 높아지고 있다. 이에 따라 금융 업계는 신뢰성과 투명성을 강조하며, 특히 신용평가 분야에서 설명 가능한 모델 연구가 활발히 진행되고 있다. 또한, 해당 분야에서 소수 클래스에 대해 충분히 학습하지 못하고 다수 클래스에 과적합 될 수 있는 데이터 불균형 문제 역시 강조되고 있다. 이는 제 2종 오류(Type 2 Error)를 최소화해야 하는 상황에서 더욱 부각되며, 대출 상환 능력이 낮은 고객을 최대한 식별해야 하는 개인 신용평가 문제에서 매우 중요한 화두로 떠오르고 있다. 본 논문에서는 어텐션 메커니즘을 활용하여 모델의 설명 가능성을 개선하고, 분석 결과를 해석하는 데 도움이 되고자 한다. 더 나아가, SMOTE, GAN, ADASYN 등 총 다섯 가지 데이터 증강 기법을 실험하여, 이를 앙상블 하였을 때 소수 클래스 레이블에 대한 분류 정확도를 크게 개선할 수 있음을 확인하였다.

무선 센서 네트워크에서의 에너지 효율적인 불균형 클러스터링 알고리즘 (An Energy Efficient Unequal Clustering Algorithm for Wireless Sensor Networks)

  • 이성주;김성천
    • 정보처리학회논문지C
    • /
    • 제16C권6호
    • /
    • pp.783-790
    • /
    • 2009
  • 무선 센서 네트워크의 필요성이 증가함에 따라 관련된 연구 또한 활발히 진행되고 있다. 특히, 에너지 제약적인 무선 센서 네트워크의 생존 시간을 증가시키고자 하는 클러스터링 기법들이 많이 연구되고 있다. 대표적인 LEACH와는 달리, 최근의 클러스터링 기법들은 다중 홉으로 데이터를 전송하기 때문에 데이터 병목 현상 문제가 발생한다. 불균형 클러스터링(unequal clustering) 기법들은 라우팅 경로를 증가시켜 데이터 병목 현상 문제를 해결하였다. 불균형 클러스터링 기법들의 대부분은 BS(Base Station)와의 거리만을 고려하여 클러스터의 크기를 결정하였기 때문에, 클러스터 헤드의 에너지 소모가 커지는 문제점이 있다. 본 논문에서는 클러스터 헤드의 에너지 소모를 최소화하고, 데이터 병목 현상 문제도 해결할 수 있는 불균형 클러스터링 알고리즘을 제안하였다. 기본 아이디어는 적절한 클러스터 헤드를 선출한 이후, BS와의 거리와 노드의 에너지 상태, 이웃 노드의 수를 고려하여 클러스터의 크기를 결정하고, 동시에 클러스터 헤드의 전송기능을 분담하는 노드를 선정하는 것이다. 이처럼 클러스터 헤드의 에너지 소모를 최소화함으로써 클러스터링의 반복횟수를 감소시킬 수 있었으며, 더불어 전체 네트워크의 에너지 소모도 감소시킬 수 있었다.

Conditional GAN을 활용한 오버샘플링 기법 (Oversampling scheme using Conditional GAN)

  • 손민재;정승원;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.609-612
    • /
    • 2018
  • 기계학습 분야에서 분류 문제를 해결하기 위해 다양한 알고리즘들이 연구되고 있다. 하지만 기존에 연구된 분류 알고리즘 대부분은 각 클래스에 속한 데이터 수가 거의 같다는 가정하에 학습을 진행하기 때문에 각 클래스의 데이터 수가 불균형한 경우 분류 정확도가 다소 떨어지는 현상을 보인다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 데이터 수가 적은 클래스에 속한 데이터 특징을 학습하고 실제 데이터와 유사한 데이터를 생성한다. 이를 통해 클래스별 데이터의 수를 맞춰 분류 알고리즘의 분류 정확도를 높인다. 실제 수집된 데이터를 이용하여 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

비디오 데이터 보강을 이용한 인물 개체 분할 (Human Instance Segmentation using Video Data Augmentation)

  • 전현진;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.532-534
    • /
    • 2022
  • 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 비디오 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오의 시공간적 맥락을 충분히 고려해서 부족한 인물 클래스의 훈련 비디오 데이터들을 추가 생성함으로써, 비디오 개체 분할 신경망 모델의 성능을 효과적으로 개선시킬 수 있다. 본 논문에서는 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 우수성을 입증한다.