• 제목/요약/키워드: Imbalanced data

검색결과 151건 처리시간 0.025초

알레르기성 질환자의 우울증 유무에 따른 영양 상태 연구: 국민건강영양조사 데이터를 이용하여 (A Study of the Nutritional Status According to the State of Depression of Allergic Disease Patients: Based on the Korea National Health and Nutrition Examination Survey)

  • 오수연
    • 대한영양사협회학술지
    • /
    • 제28권4호
    • /
    • pp.227-246
    • /
    • 2022
  • This study was conducted on the nutritional status of 1,805 patients with allergic diseases (atopic dermatitis, allergic rhinitis, and asthma) aged 19 to 64 years according to their state of depression, based on the data from the Korea National Health and Nutrition Examination Survey (KNHANES). The Patient Health Questionnaire-9 (PHQ-9) was used to diagnose depression. Subjects with a score of 10 or more were categorized into the depression group (n=152) and the rest into the non-depression group (n=1,653). The results of this study were as follows: The proportion of women (75.7%) was higher than that of men (24.3%) in the depressed group (P<0.01). In terms of energy intake per 1,000 kcal, both men and women in the depressed group showed a lower energy intake than the non-depressed group and this intake was less than the estimated energy requirement (EER). The nutrient intakes of protein, calcium, phosphorus, iron, vitamin A, thiamine, riboflavin, niacin, folic acid, and vitamin C were below the estimated average requirement (EAR). Also, the intakes of fiber and potassium were less than the adequate intake (AI) (P<0.001). In the lifestyle parameters, the ratio of eating alone at lunch was 54.1%:33.1%, indicating that more than half of the depression group ate alone. In conclusion, it was observed that the nutritional status of allergic disease patients was imbalanced. The nutritional imbalance was due to insufficient energy intake and inadequate intake of nutrients, which was below the average requirements of vitamins and minerals and this was more evident in the depression group than in the non-depression group.

XGBoost를 활용한 고속도로 콘크리트 포장 파손 예측 (Predicting Highway Concrete Pavement Damage using XGBoost)

  • 이용준;선종완
    • 한국건설관리학회논문집
    • /
    • 제21권6호
    • /
    • pp.46-55
    • /
    • 2020
  • 도로연장의 지속적인 증가와 공용기간이 상당히 경과한 노후 노선이 늘어남에 따라 도로포장에 대한 유지관리비용은 점차 증가하고 있어, 예방적 유지관리를 통해 비용을 최소화 하는 방안에 대한 필요성이 제기되고 있다. 예방적 유지관리를 위해서는 도로포장의 정확한 파손 예측을 통한 전략적 유지관리 계획 수립이 필요하다. 이에 본 연구에서는 고속도로 콘크리트 포장 파손 예측 모델 개발을 위해 머신러닝 분류기반 모델 중 성능이 우수한 XGBoost 기법을 사용하였다. 먼저 데이터 샘플링을 통해 데이터 불균형 문제를 해결하고 샘플링된 데이터들에 XGBoost 기법을 활용하여 예측모델을 개발하고. F1 소코어를 통해 성능을 평가하였다. 분석 결과 오버 샘플링 기법이 가장 좋은 성능 결과를 보였으며, 도로파손에 영향을 주는 주요 변수로 공용년수, ESAL, 최저 평균 최저기온 -2도 이하 일수 순으로 산정되었다. 향후 더 많은 데이터 축적 및 세밀한 데이터 전처리 작업을 통해 예측모델의 성능이 향상된다면 보다 정확한 유지보수 필요 구간의 예측이 가능해질 것으로 판단되므로 장래 고속도로 포장 유지보수 예산의 추정에 중요한 기초정보로 활용될 수 있을 것이라 기대된다.

여자 중학생의 체형분류에 관한 연구 - 교복패턴개발을 중심으로 - (A study on the classification of body types for female junior high school students - Focused on the development of school uniforms -)

  • 신장희
    • 한국의상디자인학회지
    • /
    • 제22권3호
    • /
    • pp.99-110
    • /
    • 2020
  • In terms of junior high school girls' growth patterns during early adolescence, are unlike childhood when relatively balanced growth patterns are found and high school years in which the normal adult body type is nearly reached, growth patterns displayed are imbalanced and rapid. In fact, diverse size changes by body part growth occur significantly different from individual to individual. Therefore, it has been hard for junior high school students to select their proper size when buying school uniforms. This study attempted to acquire basic data needed to address adolescent body shapes and school uniform patterns for junior high school girls, using the data from the 7th Size Korea Survey (2015). Specifically, it provides basic data for the development of school uniform patterns through the classification of their body into particular types, After extracting body shape components and a cluster analysis using ANOVA. According to a factor analysis conducted to determine body shape components, six factors were obtained: Factor 1: bulk and horizontal size, Factor 2: body height and length, Factor 3: shoulder shape and length, Factor 4: shape of upper body, Factor 5: lower drop, Factor 6: upper drop with a variance of 81.46%. To classify junior high school girls' body shape and determine their characteristics, a cluster analysis was performed with the variables obtained using factor analysis. Body shape was classified into three different types: Type 1 accounted for 30.7%. This was a short, slender body with the smallest bulk, size, and upper drop. Type 2 accounted for 24.9%. This was the largest in bulk and horizontal size and highest and length as well. Type 3 accounted for 44.5%. This type was close to average in terms of horizontal size, length and height, and high drop values. To develop school uniforms with great accuracy and body fit for junior high school students, there should be further studies on changes in body shape and their causes. The study results can serve as basic data for comparing branded school uniform patterns for junior high school girls and developing school uniform patterns based on body shape, using 3D virtual clothing simulations.

대학생의 수면시간에 따른 식습관 및 체조성에 관한 연구 (Effect of Sleep Duration on Dietary Habits and Body Composition of University Students)

  • 김경희;조희숙
    • 한국식생활문화학회지
    • /
    • 제28권5호
    • /
    • pp.539-546
    • /
    • 2013
  • The aim of this study was to investigate the effect of sleep duration on dietary habits and body composition of university students. Sleep duration has recently been added to the list of risk factors for obesity. However, studies on this topic are fairly limited particularly in Korea. We studied the relationship between the duration of sleep and obesity principally based on body mass index and %body fat in university students. For this purpose, a survey was conducted on a total of 312 university students. The subjects enrolled for this study were divided into two groups: (1) those with sleep duration of <7 hours (148 students) and (2) those with sleep duration of >7 hours (164 students). Based on a self-reporting method, the participants filled up the questionnaires for more than 20 minutes. Based on the overall data obtained, we observed that most students (52.88%) skipped breakfast. This was mainly due to shortage of time (60.58%). We also observed that self-reporting dietary preferences included eating irregular meals (49.04%), overeating (19.55%), imbalanced diet (16.35%), and skipping meals (9.94%). It was found that cookies were the favorite snacks in the majority of the participants (50%). Our data reveal that the body mass index, fat mass, visceral fat, and subcutaneous fat, respectively of the shorter sleep duration group (<7 h/day) were 23.78 $kg/m^2$, 19.13 kg, 2.23 kg, and 11.15 kg. In contrast, in those of the control group (7 h/day), these values were found to be 21.84 $kg/m^2$, 13.88 kg, 1.56 kg, and 12.11 kg. We also observed that there were significant correlations of sleep duration with body mass index (p<0.05), fat mass (p<0.01), visceral fat (p<0.01), and beck depression score (p<0.01). Our data suggest that the body mass index in the shorter sleep duration group was higher than that of the control group; however, %fat, visceral fat, and subcutaneous fat in the shorter sleep duration group were found to be higher than those of the control group. The data obtained through our study suggest that short sleep duration is clearly associated with a modest increase in general and abdominal obesity particularly in university students.

머신러닝과 샘플링을 이용한 강원도 지역 산불발생예측모형 개발 (Development of a Gangwon Province Forest Fire Prediction Model using Machine Learning and Sampling)

  • 채경재;이유리;조용주;박지현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.71-78
    • /
    • 2018
  • 본 연구는 산불 발생 예측 모형의 정확도를 높이기 위해 머신러닝 기법을 적용한 연구이다. 산불 피해면적이 가장 큰 강원도를 중심으로 2003년부터 2016년까지 총 14년의 산불 자료를 이용하였다. 기상자료의 오차를 줄이기 위해 강원도를 9개의 구역으로 나누어 각 구역 관측소의 기상자료를 이용하였다. 9개의 구역으로 나누어 각 구역의 산불 예측 모형을 만들게 되면 산불이 발생한 날(majority)과 산불이 발생하지 않은 날(minority)의 비율 차이가 큰 불균형 문제가 발생한다. 불균형 문제에서는 모델의 성능이 떨어지는 현상이 발생할 수 있다. 이를 해결하기 위해 여러 샘플링 방법을 적용하였다. 또한 모델의 정확도를 높이기 위해 캐나다 산불 기상 지수(FWI)의 5가지 지수를 파생변수로 사용하였다. 모델링 방법은 통계적 방법인 로지스틱 회귀분석 방법과 머신러닝 방법인 random forest와 xgboost 방법을 사용하였다. 각 구역의 최종모델의 선택기준을 정확도, 민감도, 특이도를 고려하여 정했으며, 9개 구역의 예측 결과는 산불이 발생한 104건 중 80건의 발생 예측에 성공하였으며 산불이 발생하지 않은 9758건 중 7426건의 발생하지 않음을 예측했다. 전체의 정확도는 76.1%였다.

기업부도 예측 앙상블 모형의 최적화 (The Optimization of Ensembles for Bankruptcy Prediction)

  • 김명종;윤우섭
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.39-57
    • /
    • 2022
  • 본 연구에서는 범주 불균형 문제가 내재된 기업부도 예측 AdaBoost 앙상블 모형의 성과를 개선하기 위하여 GMOPTBoost 알고리즘을 제안한다. AdaBoost 알고리즘은 오분류 표본에 대하여 강건한 학습기회를 제공한다는 장점이 있지만, 산술평균 정확도에 기반하기 때문에 범주 불균형 문제를 효과적으로 해결하지 못한다는 한계점이 존재한다. GMOPTBoost는 가우시안 경사하강법(Gaussian gradient descent)을 적용하여 기하평균 정확도를 최적화하고 범주 불균형 문제를 효과적으로 해결할 수 있다는 장점이 있다. 본 연구에서는 첫째, 범주 불균형 문제가 예측 모형의 성과에 미치는 효과와 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 5개의 범주 불균형 데이터를 구성하였으며, 둘째, 범주 균형 데이터에 대한 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 데이터 샘플링 기법을 통하여 구성된 균형 데이터를 구성하였다. 30회의 교차타당성 분석의 주요 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측 성과에 부정적인 영향을 미친다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 유의적으로 개선시키는 긍정적인 효과를 제공한다. 셋째, 데이터 샘플링 기법은 성과 개선에 긍정적인 영향을 미친다. 마지막으로 데이터 샘플링 기법을 적용한 범주 균형 데이터에서도 GMOPTBoost는 유의적인 성과 개선에 기여한다.

코딩 유닛 깊이 정보를 이용한 HEVC 디블록킹 필터의 병렬화 기법 (Parallel Method for HEVC Deblocking Filter based on Coding Unit Depth Information)

  • 조현호;유은경;남정학;심동규;김두현;송준호
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.742-755
    • /
    • 2012
  • 본 논문에서는 high efficiency video coding (HEVC) 복호화기의 디블록킹 필터를 병렬화할 때 발생하는 작업량 불균형 문제를 해결하는 병렬화 방법을 제안한다. HEVC의 디블록킹 필터는 인-루프 필터로써 먼저 수직 에지에서 필터링을 수행한 후, 수평 에지에서 필터링을 수행한다. 수직 및 수평 에지에 대해 필터링을 수행하는 경우 주변 에지와 의존성이 없기 때문에 데이터 레벨의 병렬화를 통하여 복호화를 고속화 할 수 있다. 그러나 데이터 레벨 병렬화 방법을 통해 데이터가 균등하게 분할된 경우에도 영역 간의 작업량은 불균등 할 수 있으며, 이는 복호화기의 병렬화 성능을 저하시킨다. 본 논문에서는 coding tree block (CTB)에서 coding unit (CU)의 깊이 정보를 사용하여, 현재 프레임에 대한 디블록킹 필터링 과정의 연산량을 예측하고, 이를 통해 각 코어에 동등한 작업량이 분배되게 함으로써 작업량 불균형 문제를 해결하였다. 실험 결과, 제안하는 작업량 예측 기반의 데이터 레벨 병렬화 방법은 단일 코어를 사용하여 디블록킹 필터를 수행하는 것에 비하여 64.3%의 평균 시간 감소 (average time saving; ATS)를 얻었고, 기존의 균등 분할 데이터 레벨 병렬화 방법보다 평균 6.7%, 최대 13.5% 감소를 얻었다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.