• Title/Summary/Keyword: 데이터 불균형 문제

Search Result 211, Processing Time 0.037 seconds

An Energy Efficient Unequal Clustering Algorithm for Wireless Sensor Networks (무선 센서 네트워크에서의 에너지 효율적인 불균형 클러스터링 알고리즘)

  • Lee, Sung-Ju;Kim, Sung-Chun
    • The KIPS Transactions:PartC
    • /
    • v.16C no.6
    • /
    • pp.783-790
    • /
    • 2009
  • The necessity of wireless sensor networks is increasing in the recent years. So many researches are studied in wireless sensor networks. The clustering algorithm provides an effective way to prolong the lifetime of the wireless sensor networks. The one-hop routing of LEACH algorithm is an inefficient way in the energy consumption of cluster-head, because it transmits a data to the BS(Base Station) with one-hop. On the other hand, other clustering algorithms transmit data to the BS with multi-hop, because the multi-hop transmission is an effective way. But the multi-hop routing of other clustering algorithms which transmits data to BS with multi-hop have a data bottleneck state problem. The unequal clustering algorithm solved a data bottleneck state problem by increasing the routing path. Most of the unequal clustering algorithms partition the nodes into clusters of unequal size, and clusters closer to the BS have small-size the those farther away from the BS. However, the energy consumption of cluster-head in unequal clustering algorithm is more increased than other clustering algorithms. In the thesis, I propose an energy efficient unequal clustering algorithm which decreases the energy consumption of cluster-head and solves the data bottleneck state problem. The basic idea is divided a three part. First of all I provide that the election of appropriate cluster-head. Next, I offer that the decision of cluster-size which consider the distance from the BS, the energy state of node and the number of neighborhood node. Finally, I provide that the election of assistant node which the transmit function substituted for cluster-head. As a result, the energy consumption of cluster-head is minimized, and the energy consumption of total network is minimized.

An Efficient Cluster Management Scheme Using Wireless Power Transfer for Mobile Sink Based Solar-Powered Wireless Sensor Networks

  • Son, Youngjae;Kang, Minjae;Noh, Dong Kun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.2
    • /
    • pp.105-111
    • /
    • 2020
  • In this paper, we propose a scheme that minimizes the energy imbalance problem of solar-powered wireless sensor network (SP-WSN) using both a mobile sink capable of wireless power transfer and an efficient clustering scheme (including cluster head election). The proposed scheme charges the cluster head using wireless power transfer from a mobile sink and mitigates the energy hotspot of the nodes nearby the head. SP-WSNs can continuously harvest energy, alleviating the energy constraints of battery-based WSN. However, if a fixed sink is used, the energy imbalance problem, which is energy consumption rate of nodes located near the sink is relatively increased, cannot be solved. Thus, recent research approaches the energy imbalance problem by using a mobile sink in SP-WSN. Meanwhile, with the development of wireless power transmission technology, a mobile sink may play a role of energy charging through wireless power transmission as well as data gathering in a WSN. Simulation results demonstrate that increase the amount of collected data by the sink using the proposed scheme.

Churn Prediction Model using Logistic Regression (Logistic Regression을 이용한 이탈고객예측모형)

  • Jeong, Han-Na;Park, Hye-Jin;Kim, Nam-Hyeong;Jeon, Chi-Hyeok;Lee, Jae-Uk
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.324-328
    • /
    • 2008
  • 금융산업에서 고객의 이탈비율은 기대수익에 영향을 미친다는 점에서 예측이 필요한 부분이며 최근 들어 정확한 예측을 통한 비용관리가 이루어지면서 고객 이탈을 예측하는 것이 중요한 문제로 떠오르고 있다. 그러나 보험 고객 데이터가 대용량이고 불균형한 출력 값을 갖는 특성으로 인해 기존의 방법으로 예측 모델을 만드는 것이 적합하지 않다. 본 연구에서는 대용량 데이터를 처리하는 데 효과적으로 알려져 있는 Trust-region Newton method를 적용한 로지스틱 회귀분석을 통해 이탈고객을 예측하는 것을 주된 연구로 하며, 불균형한 데이터에서의 예측정확도를 높이기 위해 Oversampling, Clustering, Boosting 등을 이용하여 고객 데이터에 적합한 이탈 고객 예측 모형을 제시하고자 한다.

  • PDF

Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing (Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델)

  • Min, Byeongjun;Ryu, Jihun;Shin, Dongkyoo;Shin, Dongil
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.2
    • /
    • pp.65-72
    • /
    • 2021
  • Recently, attacks on the network environment have been rapidly escalating and intelligent. Thus, the signature-based network intrusion detection system is becoming clear about its limitations. To solve these problems, research on machine learning-based intrusion detection systems is being conducted in many ways, but two problems are encountered to use machine learning for intrusion detection. The first is to find important features associated with learning for real-time detection, and the second is the imbalance of data used in learning. This problem is fatal because the performance of machine learning algorithms is data-dependent. In this paper, we propose the HSF-DNN, a network intrusion detection model based on a deep neural network to solve the problems presented above. The proposed HFS-DNN was learned through the NSL-KDD data set and performs performance comparisons with existing classification models. Experiments have confirmed that the proposed Hybrid Feature Selection algorithm does not degrade performance, and in an experiment between learning models that solved the imbalance problem, the model proposed in this paper showed the best performance.

Network intrusion detection Model through Hybrid Feature Selection and Data Balancing (Hybrid Feature Selection과 Data Balancing을 통한 네트워크 침입 탐지 모델)

  • Min, Byeongjun;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.526-529
    • /
    • 2020
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 평가를 위해 Accuracy, Precision, Recall, F1 Score 지표를 사용하였다. 본 논문에서 제안된 모델은 Random Forest 및 기본 심층 신경망 모델과 비교해 F1 Score를 기준으로 7~9%의 성능 향상을 이루었다.

A Study on Pre-processing for the Classification of Rare Classes (희소 클래스 분류 문제 해결을 위한 전처리 연구)

  • Ryu, Kyungjoon;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

Optimal Solution for Transportation Problems (수송문제의 최적해)

  • Lee, Sang-Un
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.2
    • /
    • pp.93-102
    • /
    • 2013
  • This paper proposes an algorithm designed to obtain the optimal solution for transportation problem. The transportation problem could be classified into balanced transportation where supply meets demand, and unbalanced transportation where supply and demand do not converge. The archetypal TSM (Transportation Simplex Method) for this optimal solution firstly converts the unbalanced problem into the balanced problem by adding dummy columns or rows. Then it obtains an initial solution through employment of various methods, including NCM, LCM, VAM, etc. Lastly, it verifies whether or not the initial solution is optimal by employing MODI. The abovementioned algorithm therefore carries out a handful of complicated steps to acquire the optimal solution. The proposed algorithm, on the other hand, skips the conversion stage for unbalanced transportation problem. It does not verify initial solution, either. The suggested algorithm firstly allocates resources so that supply meets demand, in the descending order of its loss cost. Secondly, it optimizes any surplus quantity (the amount by which the initially allocated quantity exceeds demand) in such a way that the loss cost could be minimized Once the above reallocation is terminated, an additional arrangement is carried out by transferring the allocated quantity in columns with the maximum cost to the rows with the minimum transportation cost. Upon application to 2 unbalanced transportation data and 13 balanced transportation data, the proposed algorithm has successfully obtained the optimal solution. Additionally, it generated the optimal solution for 4 data, whose solution the existing methods have failed to obtain. Consequently, the suggested algorithm could be universally applied to the transportation problem.

Generation of High-Resolution Chest X-rays using Multi-scale Conditional Generative Adversarial Network with Attention (주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 X선 영상 생성 기법)

  • Ann, Kyeongjin;Jang, Yeonggul;Ha, Seongmin;Jeon, Byunghwan;Hong, Youngtaek;Shim, Hackjoon;Chang, Hyuk-Jae
    • Journal of Broadcast Engineering
    • /
    • v.25 no.1
    • /
    • pp.1-12
    • /
    • 2020
  • In the medical field, numerical imbalance of data due to differences in disease prevalence is a common problem. It reduces the performance of a artificial intelligence network, leading to difficulties in learning a network with good performance. Recently, generative adversarial network (GAN) technology has been introduced as a way to address this problem, and its ability has been demonstrated by successful applications in various fields. However, it is still difficult to achieve good results in solving problems with performance degraded by numerical imbalances because the image resolution of the previous studies is not yet good enough and the structure in the image is modeled locally. In this paper, we propose a multi-scale conditional generative adversarial network based on attention mechanism, which can produce high resolution images to solve the numerical imbalance problem of chest X-ray image data. The network was able to produce images for various diseases by controlling condition variables with only one network. It's efficient and effective in that the network don't need to be learned independently for all disease classes and solves the problem of long distance dependency in image generation with self-attention mechanism.

A Clustering-based Undersampling Method to Prevent Information Loss from Text Data (텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법)

  • Jong-Hwi Kim;Saim Shin;Jin Yea Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

Emotion and Speech Act classification in Dialogue using Multitask Learning (대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류)

  • Shin, Chang-Uk;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF