• Title/Summary/Keyword: Imbalance data

검색결과 475건 처리시간 0.024초

혼성 표본 추출과 적층 딥 네트워크에 기반한 은행 텔레마케팅 고객 예측 방법 (A Method of Bank Telemarketing Customer Prediction based on Hybrid Sampling and Stacked Deep Networks)

  • 이현진
    • 디지털산업정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.197-206
    • /
    • 2019
  • Telemarketing has been used in finance due to the reduction of offline channels. In order to select telemarketing target customers, various machine learning techniques have emerged to maximize the effect of minimum cost. However, there are problems that the class imbalance, which the number of marketing success customers is smaller than the number of failed customers, and the recall rate is lower than accuracy. In this paper, we propose a method that solve the imbalanced class problem and increase the recall rate to improve the efficiency. The hybrid sampling method is applied to balance the data in the class, and the stacked deep network is applied to improve the recall and precision as well as the accuracy. The proposed method is applied to actual bank telemarketing data. As a result of the comparison experiment, the accuracy, the recall, and the precision is improved higher than that of the conventional methods.

LIME을 활용한 준지도 학습 기반 이상 탐지 모델: 반도체 공정을 중심으로 (Anomaly Detection Model Based on Semi-Supervised Learning Using LIME: Focusing on Semiconductor Process)

  • 안강민;신주은;백동현
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.86-98
    • /
    • 2022
  • Recently, many studies have been conducted to improve quality by applying machine learning models to semiconductor manufacturing process data. However, in the semiconductor manufacturing process, the ratio of good products is much higher than that of defective products, so the problem of data imbalance is serious in terms of machine learning. In addition, since the number of features of data used in machine learning is very large, it is very important to perform machine learning by extracting only important features from among them to increase accuracy and utilization. This study proposes an anomaly detection methodology that can learn excellently despite data imbalance and high-dimensional characteristics of semiconductor process data. The anomaly detection methodology applies the LIME algorithm after applying the SMOTE method and the RFECV method. The proposed methodology analyzes the classification result of the anomaly classification model, detects the cause of the anomaly, and derives a semiconductor process requiring action. The proposed methodology confirmed applicability and feasibility through application of cases.

랜덤포레스트를 이용한 기상 환경에 따른 이상기온 분류 (Classification Abnormal temperatures based on Meteorological Environment using Random forests)

  • 김윤수;송광윤;장인홍
    • 통합자연과학논문집
    • /
    • 제17권1호
    • /
    • pp.1-12
    • /
    • 2024
  • Many abnormal climate events are occurring around the world. The cause of abnormal climate is related to temperature. Factors that affect temperature include excessive emissions of carbon and greenhouse gases from a global perspective, and air circulation from a local perspective. Due to the air circulation, many abnormal climate phenomena such as abnormally high temperature and abnormally low temperature are occurring in certain areas, which can cause very serious human damage. Therefore, the problem of abnormal temperature should not be approached only as a case of climate change, but should be studied as a new category of climate crisis. In this study, we proposed a model for the classification of abnormal temperature using random forests based on various meteorological data such as longitudinal observations, yellow dust, ultraviolet radiation from 2018 to 2022 for each region in Korea. Here, the meteorological data had an imbalance problem, so the imbalance problem was solved by oversampling. As a result, we found that the variables affecting abnormal temperature are different in different regions. In particular, the central and southern regions are influenced by high pressure (Mainland China, Siberian high pressure, and North Pacific high pressure) due to their regional characteristics, so pressure-related variables had a significant impact on the classification of abnormal temperature. This suggests that a regional approach can be taken to predict abnormal temperatures from the surrounding meteorological environment. In addition, in the event of an abnormal temperature, it seems that it is possible to take preventive measures in advance according to regional characteristics.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)

  • 박세찬;김덕엽;서강복;이우진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.489-498
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 인공지능을 통해 섬유 방사 공정에 들어가는 비용을 줄이고 품질을 최적화하려고 시도 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 수집 및 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정한 변수에만 변화를 준 데이터만을 우선으로 수집하여 데이터 불균형이 발생하며, 물성 측정 환경의 차이로 인해 동일 방사 조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 인공지능 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터 특성을 고려한 이상치 처리 기법과 데이터 증강 기법을 제안한다. 그리고 이를 기존 이상치 처리 기법 및 데이터 증강 기법과 비교하여 제안한 기법이 방사 공정 데이터에 더 적합함을 보인다. 또 원본 데이터와 제안한 기법들로 처리된 데이터를 다양한 모델에 적용하여 비교함을 통해 제안한 기법들을 사용한 모델들이 그렇지 않은 모델들에 비해 인장 강신도 예측 모델의 성능이 개선됨을 보인다.

Detecting Malicious Social Robots with Generative Adversarial Networks

  • Wu, Bin;Liu, Le;Dai, Zhengge;Wang, Xiujuan;Zheng, Kangfeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권11호
    • /
    • pp.5594-5615
    • /
    • 2019
  • Malicious social robots, which are disseminators of malicious information on social networks, seriously affect information security and network environments. The detection of malicious social robots is a hot topic and a significant concern for researchers. A method based on classification has been widely used for social robot detection. However, this method of classification is limited by an unbalanced data set in which legitimate, negative samples outnumber malicious robots (positive samples), which leads to unsatisfactory detection results. This paper proposes the use of generative adversarial networks (GANs) to extend the unbalanced data sets before training classifiers to improve the detection of social robots. Five popular oversampling algorithms were compared in the experiments, and the effects of imbalance degree and the expansion ratio of the original data on oversampling were studied. The experimental results showed that the proposed method achieved better detection performance compared with other algorithms in terms of the F1 measure. The GAN method also performed well when the imbalance degree was smaller than 15%.

중년여성의 12주간 아헹가 요가 수련이 하체 불균형에 미치는 영향 (Effects of Iyengar Yoga Practice for 12 weeks on Lower Body Imbalance in Middle-aged Women)

  • 박윤하;김동희
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.431-440
    • /
    • 2017
  • 본 연구는 아헹가 요가 프로그램이 중년여성의 하체불균형에 미치는 영향을 분석하는데 그 목적이 있다. 연구의 대상자는 35-60세 사이의 중년여성으로서 요가 수련의 경험이 없으며 다른 운동 훈련에 참가 하지 않고, X-RAY검사와 간스테드 테크닉(Gonsted Technique) 분석을 통하여 골반불균형이면서 하지 길이의 차이가 있는 중년여성 24명을 선정하여 12주 동안, 주3회, 1일 90분 동안 수련하였다. 통계방법은 대응 t-검정을 실시하여 수련 전과 후를 비교하였고, 유의 수준은 0.05로 설정하였다. 이 연구의 결과는 첫째, 아헹가 요가는 골반 불균형을 교정하는데 통계적으로 유의한 결과를 나타냈다. 즉 골반 불균형 개선에서 좌 우 엉덩뼈 높이(p < 0.001), 좌 우 엉덩뼈 넓이 (p < 0.001), 좌 우 엉덩뼈 길이 ((p < 0.001), 좌 우 엉치뼈넓이 (p < 0.001)에서 수련 전보다 수련 후 그 차이가 감소하는 유의한 변화를 보여주었다. 둘째, 하지 길이의 변화에서는 아헹가 요가 수련 전 보다 수련 후에 좌 우 하지 길이 차이 (p < 0.001)가 현저하게 감소하였으며 통계적으로 유의한 효과를 나타내었다. 이상의 연구 결과에서 아헹가 요가 수련이 중년여성의 신체불균형을 교정하는데 매우 효과가 크다는 것을 알 수 있었다.

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

대퇴부 위치 기반 효과적인 보행 불균형 측정 방법 (Effective Gait Imbalance Judgment Method based on Thigh Location)

  • 김서준;김유현;심현민;이상민
    • 전기학회논문지
    • /
    • 제63권4호
    • /
    • pp.541-545
    • /
    • 2014
  • In this paper, the angle of the thighs that appear during walking condition to balance estimation to the left and right leg was occurred during normal walking. Get over to the limitations of gait analysis using image processing or foot pressure that was used a lot in the previous, the angle of the thigh were used for estimation of asymmetric gait. We implemented heathy five adult male to test targeting and gait and obtained cycle data from 10 times. For this research, Thigh-Angle measurement device were developed, and attached to in a position of $20^{\circ}$ for flexion and $15^{\circ}$ for extension to measure the angle of the thigh. Also, in order to verify the reliability of estimation of asymmetric gait using thigh-angle, it was compared with the result of asymmetric gait estimation using foot pressure. The results of this paper, using the thigh angle is the average of 16.84% higher than using pressure to accuracy of determine the gait imbalance.

일부 병원종사자의 식행동과 주관적 중대 구강병과의 연관성 (The associations between dietary behavior and subjective measurements of serious dental diseases in nursing home staff)

  • 심연수;안소연;박소영
    • 한국치위생학회지
    • /
    • 제13권3호
    • /
    • pp.377-385
    • /
    • 2013
  • Objectives : The objective of this study is to determine the associations between dietary behaviour and subjective measurements of dental caries and periodontal disease in a cohort of nursing home staff. Methods : A self-reported survey was carried out in 280 nursing home staff in Jeollabukdo Province, Korea. The collected data were analyzed using SPSS Version 19.0 program. Multiple regression analysis was conducted to examine the effects of dietary behavior and food intake on subjective measurements of the two serious dental diseases. Results : The irregular meal tended to increase dietary imbalance and periodontal diseases in the nursing staff. For example, it had influences on the imbalance of sugar, vegetable, and safood intake. Conclusions : It is important to take regular meal because irregular eating behavior tended to increase dietary imbalance and periodontal diseases in the nursing staff.

무릎 근력의 불균형이 백 스쿼트 동작에 미치는 영향 (The Effect of Knee Muscle Imbalance on Motion of Back Squat)

  • 손지훈
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.463-471
    • /
    • 2019
  • 본 연구는 무릎 근력의 불균형이 백 스쿼트 시 인체 움직임의 제한 요인으로 작용하는지를 확인하는 것에 목적이 있다. 백 스쿼트 유경험자로 최근 2년간 부상이 없는 서울시 소재 S대학교 학생 8명을 연구 대상자로 선정하였다. Cybex 770으로 무릎관절의 등속성 근력을 측정한 후, 동측 주작용근과 대항근의 근력 불균형 정도와 좌 우 같은 근 군의 결손율에 따라 그룹을 나눈 후, 개인별 몸무게의 25%, 50%, 100%, 125%의 중량과 같은 바벨을 백 스쿼트로 들게 하였다. 무릎 굽힘 각도, 신체중심의 수직 변위, V-COP의 측정 구간 내 평균 위치로부터 매 순간 V-COP 까지의 거리 합 변인들에 대한 집단별 차이를 검증하기 위해 독립표본 T 검정을 실시하였다. 125%BW 조건에서 무릎관절 근력의 동측 불균형은 쭈그려 앉는 자세의 제한 요인으로, 좌 우측 폄 근력의 불균형은 평형성 유지의 제한 요인으로 작용하였다. 근력의 불균형이 인체 움직임의 제한 요인으로 작용할 수 있음을 확인하였으므로, 차후 임상에서는 근력 불균형에 대한 검사법과 함께 교정 및 재활 운동 방법 또한 발전시켜 나갈 필요가 있다.