• 제목/요약/키워드: 데이터 불균형 문제

검색결과 211건 처리시간 0.025초

무선 센서 네트워크에서의 에너지 효율적인 불균형 클러스터링 알고리즘 (An Energy Efficient Unequal Clustering Algorithm for Wireless Sensor Networks)

  • 이성주;김성천
    • 정보처리학회논문지C
    • /
    • 제16C권6호
    • /
    • pp.783-790
    • /
    • 2009
  • 무선 센서 네트워크의 필요성이 증가함에 따라 관련된 연구 또한 활발히 진행되고 있다. 특히, 에너지 제약적인 무선 센서 네트워크의 생존 시간을 증가시키고자 하는 클러스터링 기법들이 많이 연구되고 있다. 대표적인 LEACH와는 달리, 최근의 클러스터링 기법들은 다중 홉으로 데이터를 전송하기 때문에 데이터 병목 현상 문제가 발생한다. 불균형 클러스터링(unequal clustering) 기법들은 라우팅 경로를 증가시켜 데이터 병목 현상 문제를 해결하였다. 불균형 클러스터링 기법들의 대부분은 BS(Base Station)와의 거리만을 고려하여 클러스터의 크기를 결정하였기 때문에, 클러스터 헤드의 에너지 소모가 커지는 문제점이 있다. 본 논문에서는 클러스터 헤드의 에너지 소모를 최소화하고, 데이터 병목 현상 문제도 해결할 수 있는 불균형 클러스터링 알고리즘을 제안하였다. 기본 아이디어는 적절한 클러스터 헤드를 선출한 이후, BS와의 거리와 노드의 에너지 상태, 이웃 노드의 수를 고려하여 클러스터의 크기를 결정하고, 동시에 클러스터 헤드의 전송기능을 분담하는 노드를 선정하는 것이다. 이처럼 클러스터 헤드의 에너지 소모를 최소화함으로써 클러스터링의 반복횟수를 감소시킬 수 있었으며, 더불어 전체 네트워크의 에너지 소모도 감소시킬 수 있었다.

An Efficient Cluster Management Scheme Using Wireless Power Transfer for Mobile Sink Based Solar-Powered Wireless Sensor Networks

  • Son, Youngjae;Kang, Minjae;Noh, Dong Kun
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.105-111
    • /
    • 2020
  • 태양 에너지 수집형 무선 센서 네트워크(SP-WSN)는 지속적으로 에너지를 수집할 수 있어 배터리 기반 센서 네트워크의 에너지 제약 문제를 완화할 수 있다. 하지만 고정된 싱크를 사용한다면, 싱크 주변에 위치한 노드들의 에너지 소비가 상대적으로 증가하는 문제, 즉 에너지 사용 불균형 문제는 해결하지 못한다. 따라서 최근의 연구에서는 SP-WSN에 모바일 싱크를 사용하여 에너지 불균형 문제에 접근하고 있다. 한편, 무선 전력 전송 기술 발전에 따라 WSN에서 모바일 싱크가 데이터 수집뿐 아니라 무선 전력 전송을 통한 에너지 충전의 역할도 할 수 있다. 본 논문에서는 무선 전력 전송이 가능한 모바일 싱크와 효율적인 클러스터링 기법(클러스터 헤드 선출 포함)을 이용하여 SP-WSN의 에너지 불균형 문제를 최소화하는 기법을 제안한다. 제안 기법은 클러스터 헤드를 무선 전력 전송을 사용하여 충전시키고, 효과적인 헤드 선출을 통해 헤드 주변 노드의 에너지 핫스팟을 완화시켜, 결과적으로 모바일 싱크로 수집되는 데이터양을 증가시킨다.

Logistic Regression을 이용한 이탈고객예측모형 (Churn Prediction Model using Logistic Regression)

  • 정한나;박혜진;김남형;전치혁;이재욱
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2008년도 추계학술대회 및 정기총회
    • /
    • pp.324-328
    • /
    • 2008
  • 금융산업에서 고객의 이탈비율은 기대수익에 영향을 미친다는 점에서 예측이 필요한 부분이며 최근 들어 정확한 예측을 통한 비용관리가 이루어지면서 고객 이탈을 예측하는 것이 중요한 문제로 떠오르고 있다. 그러나 보험 고객 데이터가 대용량이고 불균형한 출력 값을 갖는 특성으로 인해 기존의 방법으로 예측 모델을 만드는 것이 적합하지 않다. 본 연구에서는 대용량 데이터를 처리하는 데 효과적으로 알려져 있는 Trust-region Newton method를 적용한 로지스틱 회귀분석을 통해 이탈고객을 예측하는 것을 주된 연구로 하며, 불균형한 데이터에서의 예측정확도를 높이기 위해 Oversampling, Clustering, Boosting 등을 이용하여 고객 데이터에 적합한 이탈 고객 예측 모형을 제시하고자 한다.

  • PDF

Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델 (Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;유지훈;신동규;신동일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.65-72
    • /
    • 2021
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.

Hybrid Feature Selection과 Data Balancing을 통한 네트워크 침입 탐지 모델 (Network intrusion detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.526-529
    • /
    • 2020
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 평가를 위해 Accuracy, Precision, Recall, F1 Score 지표를 사용하였다. 본 논문에서 제안된 모델은 Random Forest 및 기본 심층 신경망 모델과 비교해 F1 Score를 기준으로 7~9%의 성능 향상을 이루었다.

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

수송문제의 최적해 (Optimal Solution for Transportation Problems)

  • 이상운
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.93-102
    • /
    • 2013
  • 본 논문은 수송 문제의 최적 해를 찾는 방법을 제안하였다. 수송 문제는 공급량과 요구량이 동일한 균형 수송과 공급량과 요구량이 다른 불균형 문제로 구분된다. 수송문제의 최적 해를 얻는 대표적인 TSM은 먼저, 불균형 수송 문제인 경우 가상의 행이나 열을 추가하여 균형 수송 문제로 변환시킨다. 다음으로 NCM, LCM, VAM 등 다양한 방법을 적용하여 초기 해를 구한다. 마지막으로 초기 해가 최적 해인지 검증하는 MODI를 적용한다. 따라서 최적 해를 구하는 과정이 복잡하다. 제안된 방법은 불균형을 균형 수송 문제로 변환하는 과정을 거치지 않고 직접 적용한다. 또한, 초기 해가 최적해인지 검증하는 과정도 수행하지 않는다. 제안된 방법은 첫 번째로, 행에 대해 공급량을 비용 오름차순으로 요구량을 만족하도록 배정한다. 두 번째로, 각 열에 대해 배정된 량이 요구량을 초과하는 순으로 배정량을 조정한다. 배정량 조정 방법은 다음 수행 순위 열의 비용과의 차이인 손실비용이 가장 큰 셀에 우선 배정하고 나머지 셀에 대해서는 배정량을 조정한다. 조정된 배정량은 요구량을 만족하지 못하는 수행 순위 오름차순 셀들에 추가된다. 모든 열에 대해 배정량이 조정되면 마지막으로 행의 최소 비용에 미 배정되었거나 열의 최대 비용에 배정된 경우 배정량을 상호 교환하는 방법으로 추가 조정한다. 불균형 배송 2개와 균형 배송 13개 데이터에 제안된 방법을 적용한 결과 모두 최적 해를 구하는데 성공하였다. 또한, 기존의 방법들이 최적해를 구하지 못한 4개 데이터에 대해서 추가로 최적 해를 구하였다. 따라서 제안된 방법은 수송 문제에 대해 일반화된 단일 방법으로 적용할 수 있을 것이다.

주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 X선 영상 생성 기법 (Generation of High-Resolution Chest X-rays using Multi-scale Conditional Generative Adversarial Network with Attention)

  • 안경진;장영걸;하성민;전병환;홍영택;심학준;장혁재
    • 방송공학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 의료분야에서 질환별 유병률 차이로 인한 데이터 수적 불균형은 흔하게 발생되는 문제로 인공지능 학습 성능을 저하시켜 개발의 어려움을 초래한다. 최근 이러한 데이터 수적 불균형문제를 해결하기 위한 한 방법으로 적대적 생성 신경망(GAN) 기술이 도입되었고 다양한 분야에 성공적으로 적용되어왔다. 그러나 수적 불균형에 의해 저하된 성능 문제를 해결하는데 있어서 기존 연구들의 영상 해상도가 아직 충분하지 않고 영상 내 구조가 전역적으로 일관성 있게 모델링 되지 않아 좋은 결과를 얻기 어렵다. 본 논문에서는, 흉부 X선 영상 데이터의 수적 불균형문제를 해결하기 위하여 고해상도 영상을 생성할 수 있는 주목 메커니즘 기반 멀티 스케일 조건부 적대적 생성 네트워크를 제안한다. 해당 네트워크는 질환제어 조건변수에 의해 하나의 네트워크만으로 다양한 질환 영상을 생성할 수 있어 각 클래스별로 학습을 하는 비효율성을 줄였고, 자기 주목 메커니즘을 통해 영상 내 장거리 종속성 문제를 해결하였다.

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류 (Emotion and Speech Act classification in Dialogue using Multitask Learning)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF