• 제목/요약/키워드: Imbalance data

검색결과 478건 처리시간 0.028초

Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델 (Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;유지훈;신동규;신동일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.65-72
    • /
    • 2021
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.

공공기술 사업화를 위한 CTGAN 기반 데이터 불균형 해소 (Resolving CTGAN-based data imbalance for commercialization of public technology)

  • 황철현
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.64-69
    • /
    • 2022
  • 공공기술 사업화는 정부가 주도하는 과학기술의 혁신과 R&D 성과를 민간에 이전하는 것으로 경제 성장을 주도하는 핵심 성과로 인식되고 있다. 따라서 기술 이전을 활성화시키기 위해 성공 요인을 식별하거나 사업화 가능성이 높은 공공기술과 수요기업을 매칭하는 다양한 기계학습의 방법들이 연구되고 있다. 하지만 공공기술 사업화 데이터는 표 형태로 구성되어 있고, 성공-실패 비율이 큰 차이를 보이는 불균형 상태이기 때문에 기계학습 성능이 높지 않는 문제점을 가지고 있다. 이 논문에서는 표 형태로 구성된 공공기술 데이터에서 불균형을 해소하기 위해 CTGAN을 활용하는 방법을 제시한다. 또한 제시된 방법의 효과를 검증하기 위해 실제 공공기술 사업화 데이터를 활용하여 통계적 접근방법인 SMOTE와 비교 실험을 수행하였다. 다수의 실험 사례에서 CTGAN은 공공기술 사업화 성공사례를 안정적으로 예측하는 것을 확인하였다.

정적 기립 자세에서 족저압 분포와 척추 정렬과의 상관관계 연구 (The Correlation of Foot Pressure with Spinal Alignment in Static Standing)

  • 임재헌;고효은
    • PNF and Movement
    • /
    • 제12권1호
    • /
    • pp.13-17
    • /
    • 2014
  • Purpose: To determine the normative data for the correlation of spinal, pelvic parameters with foot pressure in the young subjects. Methods: The subjects of this study were 39 patients in healthy adults. The Formetric-III was used to measure of spinal alignment. The pedoscan was used to measure of foot pressure. The correlation of trunk imbalance, trunk inclination, lateral deviation with foot pressure. The foot pressure measurement was consisted of maximal/mean pressure, weight contribution. Result: There was a negative correlation of trunk inclination with Max_R. There was a negative correlation of trunk inclination with Max_R. There was a positive correlation of trunk imbalance with Max_L. There was a positive correlation of lumbar lordosis with Mean_R_front, Lt. posterior weight distribution. There was a negative correlation of lumbar lordosis with Lt., Rt. in distribution There was a negative correlation of pelvic tilt with Mean_R_front, Lt. posterior weight distribution. There was a positive correlation of pelvic tilting with Rt. weight distribution, Lt. posterior weight distribution. There was a negative correlation of pelvic torsion with Lt. weight distribution, Rt. posterior weight distribution. There was a negative correlation of pelvic rotation with Lt. weight distribution, Lt. posterior weight distribution. Conclusion: The data obtained from the study may be used for future studies related to correlation of the spinal, pelvic deviation with foot pressure.

A comparison of traditional and quantitative analysis of acid-base and electrolyte imbalance in 87 cats

  • Chun, Daseul;Yu, DoHyeon
    • 대한수의학회지
    • /
    • 제61권4호
    • /
    • pp.40.1-40.6
    • /
    • 2021
  • Acid-base disorder is a common problem in veterinary emergency and critical care. Traditional methods, as well as the Stewart method based on strong ion difference concepts and the Fencl-Stewart method, can be used to analyze the underlying causes. On the other hand, there are insufficient comparative study data on these methods in cats. From 2018 to 2020, 327 acid-base analysis data were collected from 69 sick and 18 healthy cats. The three most well-known methods (traditional method, Stewart method, and Fencl-Stewart method) were used to analyze the acid-base status. The frequency of acid-base imbalances and the degree of variation according to the disease were also evaluated. In the traditional acid-base analysis, 5/69 (7.2%) cats showed a normal acid-base status, and 23.2% and 40.6% of the simple and mixed disorders, respectively. The Fencl-Stewart method showed changes in both the acidotic and alkalotic processes in 64/69 (92.8%), whereas all cats showed an abnormal status in the Fencl-Stewart method (semiquantitative approach). The frequencies of the different acid-base imbalances were identified according to the analysis method. These findings can assist in analyzing the underlying causes of acid-base imbalance and developing the appropriate treatment.

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

실시간 공간 빅데이터 스트림 분산 처리를 위한 부하 균형화 방법 (Load Balancing for Distributed Processing of Real-time Spatial Big Data Stream)

  • 윤수식;이재길
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1209-1218
    • /
    • 2017
  • 최근 스마트 자동차, 스마트폰과 같은 다양한 소스로부터 공간 빅데이터 스트림을 수집하는 것이 매우 용이해졌다. 공간 데이터 스트림은 편중되고 동적으로 변화하는 분포를 지니기 때문에 전체 부하가 분산 클러스터 내의 작업자들에게 효율적으로 분배되지 않을 경우 전체 시스템의 성능이 저하된다. 본 연구에서는 공간 데이터 스트림에 특화된 부하 균형화 알고리즘인 적응적 공간 키 그룹핑(ASKG)을 제안한다. ASKG의 핵심 아이디어는 공간 데이터 스트림의 최근 분포를 학습하고 이를 기반으로 향후 유입되는 데이터 스트림이 각 작업자에게 고르게 분배되도록 하는 새로운 그룹핑 스키마를 제안하는 것이다. 이를 공간 분포의 변화에 맞춰 주기적으로 반복함으로서 적응적으로 부하 불균형을 해결할 수 있다. 실제 데이터셋에 대해 작업자의 수, 입력 속도, 공간 질의 처리 시간을 변화시키며 성능을 평가한 결과, 대안 알고리즘 대비 제안 방법이 부하 불균형, 처리량, 지연 시간에서 높은 개선효과를 보였다.

분류 알고리즘 기반 주문 불균형 정보의 단기 주가 예측 성과 (Classification Algorithm-based Prediction Performance of Order Imbalance Information on Short-Term Stock Price)

  • 김선웅
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.157-177
    • /
    • 2022
  • 투자자들은 증권회사가 제공하는 시세표인 Limit Order Book 정보를 통해 국내외 투자자들이 제출하는 주문 정보를 실시간으로 파악하면서 거래에 참여하고 있다. Limit Order Book에 실시간으로 공개되고 있는 주문 정보가 주가 예측에서 유용성이 있을까? 본 연구는 장 중 투자자들의 매수와 매도 주문이 어느 한쪽으로 쏠리면서 주문 불균형이 나타나는 경우 미래 주가 등락의 예측 변수로서 유의성이 있는지를 분석하는 것이다. 분류 알고리즘을 이용하여 주문 불균형 정보의 당일 종가 등락에 대한 예측 정확도를 높이고, 예측 결과를 이용한 데이트레이딩 전략을 제안하며 실증분석을 통해 투자 성과를 분석한다. 자료는 2004년 1월 19일부터 2022년 6월 30일까지의 4,564일 동안의 코스피200 주가지수선물 5 분 봉 주가를 분석하였다. 실증분석 결과는 다음과 같다. 첫째, 총매수 주문량과 총매도 주문량의 불균형 정도로 측정하는 주문 불균형지수와 주가는 유의적 상관성을 보인다. 둘째, 주문 불균형 정보는 당일 종가까지의 미래 주가 등락에 대해서도 유의적인 영향력이 나타났다. 셋째, 주문 불균형 정보를 이용한 당일 종가 등락의 예측 정확도는 Support Vector Machines 알고리즘이 54.1%로 가장 높게 나타났다. 넷째, 하루 중 이른 시점에서 측정한 주문 불균형지수가 늦은 시점에서 측정한 주문 불균형지수보다 예측 정확성이 더 높았다. 다섯째, 종가 등락 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 비교모형의 투자 성과보다 높게 나타났다. 여섯째, 분류 알고리즘을 이용한 투자 성과는 K-Nearest Neighbor 알고리즘을 제외하면 모두 비교모형보다 총수익 평균이 높게 나타났다. 일곱째, Logistic Regression, Random Forest, Support Vector Machines, XGBoost 알고리즘의 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 수익성과 위험성을 동시에 평가하는 샤프비율에서도 비교모형보다 높은 결과를 보여주었다. 본 연구는 Limit Order Book 정보 중 총매수 주문량과 총매도 주문량 정보의 경제적 가치가 존재함을 밝혔다는 점에서 기존의 연구와 학술적 차별점을 갖는다. 본 연구의 실증분석 결과는 시장 참여자들에게 투자 전략적 측면에서 함의가 있다고 판단된다. 향후 연구에서는 최근 활발히 연구가 진행되고 있는 딥러닝 모형 등으로의 확장을 통해 주가 예측의 정확도를 높임으로써 데이트레이딩 투자전략의 성과를 개선할 필요가 있다.

네트워크 공격 탐지 성능향상을 위한 딥러닝을 이용한 트래픽 데이터 생성 연구 (Traffic Data Generation Technique for Improving Network Attack Detection Using Deep Learning)

  • 이우호;함재균;정현미;정기문
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.1-7
    • /
    • 2019
  • 네트워크 공격을 탐지하기 위하여 기계학습을 이용한 다양한 연구가 최근 급격히 증가하고 있다. 이러한 기계학습 방법은 많은 데이터에 의존적이며 연구를 위해 다양한 실험 데이터가 공개되어 사용되고 있다. 하지만 실험 데이터 및 실제 환경에서 수집되는 데이터는 class간의 수량이 불균형하다는 문제점을 가지고 있다. 본 연구에서는 기계 학습을 이용한 침입탐지시스템의 한계점 중 학습데이터의 class간 불균형으로 인한 분류 성능 저하를 해결하기 위한 방법을 제안한다. 이를 위해 네트워크 트래픽 데이터를 처리하고 seqGAN를 이용하여 부족한 데이터를 생성하였다. 제안된 방법은 NSL-KDD, UNSW-NB15 데이터 셋을 대상으로 Text-CNN을 이용하여 분류하는 테스트를 실행한 결과 정밀도가 향상되는 것을 확인할 수 있었다.

소리 데이터를 이용한 불량 모터 분류에 관한 연구 (A Study on the Classification of Fault Motors using Sound Data)

  • 장일식;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.885-896
    • /
    • 2022
  • 제조에서의 모터 불량은 향후 A/S 및 신뢰성에 중요한 역활을 한다. 모터의 불량 구분은 소리, 전류, 진동등의 측정을 통해 검출한다. 본 논문에서 사용한 데이터는 자동차 사이드미러 모터 기어박스의 소리를 사용하였다. 모터 소리는 3가지의 클래스로 구성되어 있다. 소리 데이터는 멜스펙트로그램을 통한 변환 과정을 거쳐 네트워크 모델에 입력된다. 본 논문에서는 불량 모터 구분 성능을 올리기 위한 데이터 증강, 클래스 불균형에 따는 다양한 데이터 재샘플링, 재가중치 조절, 손실함수의 변경, 표현 학습과 클래스 구분의 두 단계 분리 방법 등 다양한 방법을 적용하였으며, 추가적으로 커리큘럼 러닝 방법, 자기 스페이스 학습 방법 등을 Bidirectional LSTM Attention, Convolutional Recurrent Neural Network, Multi-Head Attention, Bidirectional Temporal Convolution Network, Convolution Neural Network 등 총 5가지 네트워크 모델을 통하여 비교하고, 모터 소리 구분에 최적의 구성을 찾을 수 있었다.

Attention layer를 활용한 이미지 기반 피부암 분류 시스템 (Image-Based Skin Cancer Classification System Using Attention Layer)

  • 이규원;우성희
    • 실천공학교육논문지
    • /
    • 제16권1_spc호
    • /
    • pp.59-64
    • /
    • 2024
  • 고령화가 심화되면서 암 발병률이 증가하고 있다. 피부 암은 외적으로 보이지만 사람들이 알아채지 못하거나 가볍게 간과하는 경우가 많다. 이에 초기 발견 시기를 놓쳐 말기의 경우 생존율이 7.5~11%로 사망에 이를 수 있다. 하지만 피부 암을 진단함에 있어 육안으로 진단하는 것이 아닌 정밀검사, 세포 검사 등 시간과 비용이 많이 든다는 단점이 있다. 따라서 본 연구에서는 이러한 단점을 해결하기 위해 Attention CNN 모델 기반 피부암 분류 시스템을 제안한다. 이 시스템은 전문의로 하여금 피부 암을 초기에 발견하여 신속한 조치를 취할 수 있도록 하는데 큰 도움을 줄 수 있다. 피부암 종류에 따른 이미지 데이터 불균형 문제에서 분포 비율이 낮은 데이터에는 Over Sampling 기법을, 분포 비율이 높은 데이터에는 Under Sampling 기법을 적용하여 완화하고 Attention layer가 없는 모델과 있는 모델을 비교하여 Attention layer가 없는 사전학습 모델에 추가한 피부암 분류 모델을 제안한다. 또한, 특정 클래스에 대하여 데이터 증강 기법을 강화하여 데이터 불균형 문제를 해결할 계획이다.