• Title/Summary/Keyword: 불균형데이터 처리

Search Result 120, Processing Time 0.029 seconds

Cluster Head Re-Selection Algorithm for Equal Cluster Formation in Wireless Sensor Networks (센서 네트워크에서 균등한 클러스터 형성을 위한 클러스터헤드 재선출 기법)

  • Nam, Choon-Sung;Ku, Yong-Ki;Yoon, Jong-Wan;Shin, Dong-Ryeol
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.05a
    • /
    • pp.182-185
    • /
    • 2009
  • 무선 센서 네트워크의 목적은 특정 지역에 뿌려져 있는 센서 노드를 통해서 센서 정보를 수집하는 것이다. 지역 내 센서 노드는 환경 값을 측정, 수집, 처리하여 싱크 노드로 전송된다. 이러한 과정은 센서네트워크를 구성하는 센서 노드의 제한된 능력 때문에 센서 노드의 저전력 동작 기법을 고려해야 한다. 인접한 센서 노드는 유사한 데이터를 가지기 때문에, 로컬 클러스터를 형성하고 클러스터 헤드로 데이터 가공 처리하는 클러스터링 기법이 저전력 동작 기법에 효과적이다. 또한 제한된 전송 범위에 따라 다중 홉 방식의 클러스터 형성 기법요구 된다. 클러스터 형성 시 클러스터 내 멤버 노드의 개수는 균형적인 클러스터 형성에 영향을 주기 때문에 클러스터를 균등하게 분할하는 방법이 필요하다. 이에 본 논문은 클러스터 헤드의 재선정을 통해 불균형하게 형성된 클러스터를 균등한 클러스터로 형성할 수 있는 방법을 제안한다.

  • PDF

Development of a Stock Volatility Detection Model Using Artificial Intelligence (인공지능 기반 주식시장 변동성 이상탐지모델 개발)

  • HyunJung Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.576-579
    • /
    • 2024
  • 경제 위기 대비를 위해 인공지능을 활용한 주식시장 변동성 이상을 탐지하는 목적을 가지고 있다. 글로벌 이슈와 경제 위기 대비를 위해 주식시장 변동성 예측의 중요성이 부각되고 있으며, 기존의 주식시장 변동성 지수인 VIX 의 한계로 인해 더 복잡한 모델 및 인공지능을 활용한 연구에 관심이 집중되고 있다. 기존의 주식시장 변동성 예측에 관한 연구들은 통계적인 방법을 사용했으며 인공지능을 이용한 연구 또한 대부분 이상치 구간을 표시하여 예측을 목표로 하고 있으나 이러한 접근법은 라벨이 있는 데이터 수집 어려움, 클래스 불균형 문제가 있다. 본 연구는 인공지능을 활용한 주식시장 변동성 탐지에 기여하고 지도 학습 방식 대신 비지도 학습 기반의 이상탐지모델을 사용하여 주식시장 변동성을 예측하는 새로운 방법론을 제안한다. 본 연구에서 개발한 인공지능 모델은 IsolationForest 모델을 활용하며, 시계열 데이터를 전처리한 후 정상성을 확보하는 등의 과정을 거친다. 실험 결과로 인공지능 모델이 주요 경제이슈를 이상치로 검출하는 성능을 확인하였으며 재현율 약 93.6%, 정밀도 100%로 높은 성능을 달성했다.

A Load Balancing Method Using Ring Network Structure in the Grid Database (그리드 데이터베이스에서 링 기반 연결 구조를 이용한 부하 분산 기법)

  • Jang Yong-Il;Shin Soong-Sun;Park Soon-Young;Bae Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.9
    • /
    • pp.1107-1117
    • /
    • 2006
  • In this paper, a load balancing method using ring network structure in the Grid database is proposed. In the Grid database, generally, data is replicated for performance and availability. And, user's request is transferred to node and processed in that node which has target data. But, in such environment, a decline of performance can be occurred because unbalanced workload. A traditional research is proposed to solve unbalanced load problem. However, the Grid database has a number of systems and user's request always changes dynamically. Therefore, a traditional research can not be applied. The proposed method connects each node which has a same replicated data through ing network structure. If workload is overflowed in some node, user's request is transferred to a linked node which has a target data. And, this node stops another request processing until workload is decreased. Then, it changes the link structure through sending a message to a previous node, to stop request forwarding from a previous node. This paper shows a proposed method increases performance than existing research through performance evaluation and is more suitable for a complex and dynamic environment.

  • PDF

Object classification for domestic waste based on Convolutional neural networks (심층 신경망 기반의 생활폐기물 자동 분류)

  • Nam, Junyoung;Lee, Christine;Patankar, Asif Ashraf;Wang, Hanxiang;Li, Yanfen;Moon, Hyeonjoon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.11a
    • /
    • pp.83-86
    • /
    • 2019
  • 도시화 과정에서 도시의 생활폐기물 문제가 빠르게 증가되고 있고, 효과적이지 못한 생활폐기물 관리는 도시의 오염을 악화시키고 물리적인 환경오염과 경제적인 부분에서 극심한 문제들을 야기시킬 수 있다. 게다가 부피가 커서 관리하기 힘든 대형 생활폐기물들이 증가하여 도시 발전에도 방해가 된다. 생활폐기물을 처리하는데 있어 대형 생활폐기물 품목에 대해서는 요금을 청구하여 처리한다. 다양한 유형의 대형 생활폐기물을 수동으로 분류하는 것은 시간과 비용이 많이 든다. 그 결과 대형 생활폐기물을 자동으로 분류하는 시스템을 도입하는 것이 중요하다. 본 논문에서는 대형 생활폐기물 분류를 위한 시스템을 제안하며, 이 논문의 4 가지로 분류된다. 1) 높은 정확도와 강 분류(roust classification) 수행에 적합한 Convolution Neural Network(CNN) 모델 중 VGG-19, Inception-V3, ResNet50 의 정확도와 속도를 비교한다. 제안된 20 개의 클래스의 대형 생활폐기물의 데이터 셋(data set)에 대해 가장 높은 분류의 정확도는 86.19%이다. 2) 불균형 데이터 문제를 처리하기 Class Weight VGG-19(CW-VGG-19)와 Extreme Gradient Boosting VGG-19 두 가지 방법을 사용하였다. 3) 20 개의 클래스를 포함하는 데이터 셋을 수동으로 수집 및 검증하였으며 각 클래스의 컬러 이미지 수는 500 개 이상이다. 4) 딥 러닝(Deep Learning) 기반 모바일 애플리케이션을 개발하였다.

  • PDF

Ethereum Phishing Scam Detection based on Graph Embedding and Semi-Supervised Learning (그래프 임베딩 및 준지도 기반의 이더리움 피싱 스캠 탐지)

  • Yoo-Young Cheong;Gyoung-Tae Kim;Dong-Hyuk Im
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.12 no.5
    • /
    • pp.165-170
    • /
    • 2023
  • With the recent rise of blockchain technology, cryptocurrency platforms using it are increasing, and currency transactions are being actively conducted. However, crimes that abuse the characteristics of cryptocurrency are also increasing, which is a problem. In particular, phishing scams account for more than a majority of Ethereum cybercrime and are considered a major security threat. Therefore, effective phishing scams detection methods are urgently needed. However, it is difficult to provide sufficient data for supervised learning due to the problem of data imbalance caused by the lack of phishing addresses labeled in the Ethereum participating account address. To address this, this paper proposes a phishing scams detection method that uses both Trans2vec, an effective graph embedding techique considering Ethereum transaction networks, and semi-supervised learning model Tri-training to make the most of not only labeled data but also unlabeled data.

Improvement of early prediction performance of under-performing students using anomaly data (이상 데이터를 활용한 성과부진학생의 조기예측성능 향상)

  • Hwang, Chul-Hyun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.11
    • /
    • pp.1608-1614
    • /
    • 2022
  • As competition between universities intensifies due to the recent decrease in the number of students, it is recognized as an essential task of universities to predict students who are underperforming at an early stage and to make various efforts to prevent dropouts. For this, a high-performance model that accurately predicts student performance is essential. This paper proposes a method to improve prediction performance by removing or amplifying abnormal data in a classification prediction model for identifying underperforming students. Existing anomaly data processing methods have mainly focused on deleting or ignoring data, but this paper presents a criterion to distinguish noise from change indicators, and contributes to improving the performance of predictive models by deleting or amplifying data. In an experiment using open learning performance data for verification of the proposed method, we found a number of cases in which the proposed method can improve classification performance compared to the existing method.

Effective Harmony Search-Based Optimization of Cost-Sensitive Boosting for Improving the Performance of Cross-Project Defect Prediction (교차 프로젝트 결함 예측 성능 향상을 위한 효과적인 하모니 검색 기반 비용 민감 부스팅 최적화)

  • Ryu, Duksan;Baik, Jongmoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.3
    • /
    • pp.77-90
    • /
    • 2018
  • Software Defect Prediction (SDP) is a field of study that identifies defective modules. With insufficient local data, a company can exploit Cross-Project Defect Prediction (CPDP), a way to build a classifier using dataset collected from other companies. Most machine learning algorithms for SDP have used more than one parameter that significantly affects prediction performance depending on different values. The objective of this study is to propose a parameter selection technique to enhance the performance of CPDP. Using a Harmony Search algorithm (HS), our approach tunes parameters of cost-sensitive boosting, a method to tackle class imbalance causing the difficulty of prediction. According to distributional characteristics, parameter ranges and constraint rules between parameters are defined and applied to HS. The proposed approach is compared with three CPDP methods and a Within-Project Defect Prediction (WPDP) method over fifteen target projects. The experimental results indicate that the proposed model outperforms the other CPDP methods in the context of class imbalance. Unlike the previous researches showing high probability of false alarm or low probability of detection, our approach provides acceptable high PD and low PF while providing high overall performance. It also provides similar performance compared with WPDP.

Online Hard Example Mining for Training One-Stage Object Detectors (단-단계 물체 탐지기 학습을 위한 고난도 예들의 온라인 마이닝)

  • Kim, Incheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.5
    • /
    • pp.195-204
    • /
    • 2018
  • In this paper, we propose both a new loss function and an online hard example mining scheme for improving the performance of single-stage object detectors which use deep convolutional neural networks. The proposed loss function and the online hard example mining scheme can not only overcome the problem of imbalance between the number of annotated objects and the number of background examples, but also improve the localization accuracy of each object. Therefore, the loss function and the mining scheme can provide intrinsically fast single-stage detectors with detection performance higher than or similar to that of two-stage detectors. In experiments conducted with the PASCAL VOC 2007 benchmark dataset, we show that the proposed loss function and the online hard example mining scheme can improve the performance of single-stage object detectors.

Autoencoder Based N-Segmentation Frequency Domain Anomaly Detection for Optimization of Facility Defect Identification (설비 결함 식별 최적화를 위한 오토인코더 기반 N 분할 주파수 영역 이상 탐지)

  • Kichang Park;Yongkwan Lee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.3
    • /
    • pp.130-139
    • /
    • 2024
  • Artificial intelligence models are being used to detect facility anomalies using physics data such as vibration, current, and temperature for predictive maintenance in the manufacturing industry. Since the types of facility anomalies, such as facility defects and failures, anomaly detection methods using autoencoder-based unsupervised learning models have been mainly applied. Normal or abnormal facility conditions can be effectively classified using the reconstruction error of the autoencoder, but there is a limit to identifying facility anomalies specifically. When facility anomalies such as unbalance, misalignment, and looseness occur, the facility vibration frequency shows a pattern different from the normal state in a specific frequency range. This paper presents an N-segmentation anomaly detection method that performs anomaly detection by dividing the entire vibration frequency range into N regions. Experiments on nine kinds of anomaly data with different frequencies and amplitudes using vibration data from a compressor showed better performance when N-segmentation was applied. The proposed method helps materialize them after detecting facility anomalies.

Learning Text Chunking Using Maximum Entropy Models (최대 엔트로피 모델을 이용한 텍스트 단위화 학습)

  • Park, Seong-Bae;Zhang, Byoung-Tak
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF