• 제목/요약/키워드: Imbalance data

검색결과 493건 처리시간 0.025초

Regional disparities related to cardiovascular diseases and diet quality in Korean adults: based on the 2013-2016 Korea National Health and Nutrition Examination Survey Data

  • Bo Young, Seo;Eun Sil, Her
    • Nutrition Research and Practice
    • /
    • 제16권6호
    • /
    • pp.755-764
    • /
    • 2022
  • BACKGROUND/OBJECTIVES: Cardiovascular diseases (CVDs) are the leading cause of death in Koreans, and eating habits, including diet quality, are among the etiologies of these diseases. Recently, various studies on regional health disparities have been conducted. However, there are limited studies on their relationship with nutritional factors. This study aimed to identify the magnitude of regional disparities in diet quality and prevalence of CVD in Korean adults. SUBJECTS/METHODS: This study included 17,646 participants aged ≥ 20 years from the 7th (2013-2016) Korean National Health and Nutrition Examination Survey. Participants were classified into four groups based on their residential areas: City 1, City 2, City 3, and non-city. Demographic characteristics, health-related factors, body mass index (BMI), metabolic syndrome index, diet quality, and CVD prevalence were evaluated. RESULTS: In terms of demographic characteristics, age (P < 0.001), marital status (P < 0.001), educational level (P < 0.001), and income (P < 0.001) were lower in the non-city category. Health-related factors such as monthly drinking rate (P < 0.01) and mental stress (P < 0.05) were the highest in City 1 and lowest in the non-city group. Conversely, the current smoking rate (P < 0.05), BMI (P < 0.05), and prevalence of metabolic syndrome (P < 0.001) were the highest in the non-city group (P < 0.05). The non-city group also had the highest prevalence of CVDs (35.6%). This group had the lowest diet quality index (68.36 ± 0.22, P < 0.01), caused by low intake of fruit and calcium, a lack of sodium moderation, and an overall imbalance in the macronutrient and fatty acid ratio. When the diet quality index was increased by 1, the odds ratio for the prevalence of CVDs was reduced by 0.991 (P < 0.001), but this was not the case in all regions. CONCLUSIONS: This study provides useful information and data in identifying and resolving the regional health disparities related to CVD prevalence and implementation of public health nutrition systems.

자유대화의 음향적 특징 및 언어적 특징 기반의 성인과 노인 분류 성능 비교 (Comparison of Classification Performance Between Adult and Elderly Using Acoustic and Linguistic Features from Spontaneous Speech)

  • 한승훈;강병옥;동성희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.365-370
    • /
    • 2023
  • 사람은 노화과정에 따라 발화의 호흡, 조음, 높낮이, 주파수, 언어 표현 능력 등이 변화한다. 본 논문에서는 이러한 변화로부터 발생하는 음향적, 언어적 특징을 기반으로 발화 데이터를 성인과 노인 두 그룹으로 분류하는 성능을 비교하고자 한다. 음향적 특징으로는 발화 음성의 주파수 (frequency), 진폭(amplitude), 스펙트럼(spectrum)과 관련된 특징을 사용하였으며, 언어적 특징으로는 자연어처리 분야에서 우수한 성능을 보이고 있는 한국어 대용량 코퍼스 사전학습 모델인 KoBERT를 통해 발화 전사문의 맥락 정보를 담은 은닉상태 벡터 표현을 추출하여 사용하였다. 본 논문에서는 음향적 특징과 언어적 특징을 기반으로 학습된 각 모델의 분류 성능을 확인하였다. 또한, 다운샘플링을 통해 클래스 불균형 문제를 해소한 뒤 성인과 노인 두 클래스에 대한 각 모델의 F1 점수를 확인하였다. 실험 결과로, 음향적 특징을 사용하였을 때보다 언어적 특징을 사용하였을 때 성인과 노인 분류에서 더 높은 성능을 보이는 것으로 나타났으며, 클래스 비율이 동일하더라도 노인에 대한 분류 성능보다 성인에 대한 분류 성능이 높음을 확인하였다.

An Improved Coyote Optimization Algorithm-Based Clustering for Extending Network Lifetime in Wireless Sensor Networks

  • Venkatesh Sivaprakasam;Vartika Kulshrestha;Godlin Atlas Lawrence Livingston;Senthilnathan Arumugam
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1873-1893
    • /
    • 2023
  • The development of lightweight, low energy and small-sized sensors incorporated with the wireless networks has brought about a phenomenal growth of Wireless Sensor Networks (WSNs) in its different fields of applications. Moreover, the routing of data is crucial in a wide number of critical applications that includes ecosystem monitoring, military and disaster management. However, the time-delay, energy imbalance and minimized network lifetime are considered as the key problems faced during the process of data transmission. Furthermore, only when the functionality of cluster head selection is available in WSNs, it is possible to improve energy and network lifetime. Besides that, the task of cluster head selection is regarded as an NP-hard optimization problem that can be effectively modelled using hybrid metaheuristic approaches. Due to this reason, an Improved Coyote Optimization Algorithm-based Clustering Technique (ICOACT) is proposed for extending the lifetime for making efficient choices for cluster heads while maintaining a consistent balance between exploitation and exploration. The issue of premature convergence and its tendency of being trapped into the local optima in the Improved Coyote Optimization Algorithm (ICOA) through the selection of center solution is used for replacing the best solution in the search space during the clustering functionality. The simulation results of the proposed ICOACT confirmed its efficiency by increasing the number of alive nodes, the total number of clusters formed with the least amount of end-to-end delay and mean packet loss rate.

AutoFe-Sel: A Meta-learning based methodology for Recommending Feature Subset Selection Algorithms

  • Irfan Khan;Xianchao Zhang;Ramesh Kumar Ayyasam;Rahman Ali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1773-1793
    • /
    • 2023
  • Automated machine learning, often referred to as "AutoML," is the process of automating the time-consuming and iterative procedures that are associated with the building of machine learning models. There have been significant contributions in this area across a number of different stages of accomplishing a data-mining task, including model selection, hyper-parameter optimization, and preprocessing method selection. Among them, preprocessing method selection is a relatively new and fast growing research area. The current work is focused on the recommendation of preprocessing methods, i.e., feature subset selection (FSS) algorithms. One limitation in the existing studies regarding FSS algorithm recommendation is the use of a single learner for meta-modeling, which restricts its capabilities in the metamodeling. Moreover, the meta-modeling in the existing studies is typically based on a single group of data characterization measures (DCMs). Nonetheless, there are a number of complementary DCM groups, and their combination will allow them to leverage their diversity, resulting in improved meta-modeling. This study aims to address these limitations by proposing an architecture for preprocess method selection that uses ensemble learning for meta-modeling, namely AutoFE-Sel. To evaluate the proposed method, we performed an extensive experimental evaluation involving 8 FSS algorithms, 3 groups of DCMs, and 125 datasets. Results show that the proposed method achieves better performance compared to three baseline methods. The proposed architecture can also be easily extended to other preprocessing method selections, e.g., noise-filter selection and imbalance handling method selection.

통근자료와 GIS를 이용한 서울대도시권 도시 간 상호작용 분석 (Analysis of the Urban Interactions of Seoul Metropolitan Region using Commuting Data and GIS)

  • 김지소;장훈;임업
    • 대한토목학회논문집
    • /
    • 제29권2D호
    • /
    • pp.267-273
    • /
    • 2009
  • 대도시권의 공간구조 변화를 예측하고 문제를 미연에 방지하기 위해서는 도시공간구조의 시간적, 공간적 변화의 특성을 파악하는 것이 중요하다. 통근 통학 자료는 대도시권내에서 나타나는 필연적이며 규칙적인 통행에 대한 것으로 도시공간변화를 자세히 규명하는데 유용한 변수이며 최근 그 중요성이 높아지고 있다. 따라서 본 연구에서는 중력모델을 이용한 서울대 도시권 통근 통학자 자료 분석을 통해 서울시와 주변 도시 간 상호작용을 분석하였다. 그 결과, 서울과 주변 도시 간 상호 작용은 시간의 경과에 따라 강화되고 있음이 확인되었고, 도시 간 상호작용은 거리와 밀접한 연관을 갖는 것으로 검증되었으며, 서울과 강한 상호작용을 보이는 도시들이 대체로 서울 이남에 분포하고 있어 서울대도시권이 불균형적으로 개발되고 있음이 확인되었다.

전이 학습을 이용한 선형 이송 로봇의 정렬 이상진단 시스템 (A Diagnosis system of misalignments of linear motion robots using transfer learning)

  • 홍수빈;이영대;박아름;문찬우
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.801-807
    • /
    • 2024
  • 선형 로봇은 자동화 시스템에서 부품의 이송이나 위치 결정에 널리 사용되며 보통 높은 정밀도가 요구된다. 선형 로봇을 응용한 시스템의 제작회사에서는 로봇의 이상 유무를 작업자가 판단하는데, 작업자의 숙련도에 따라 이상 상태를 판단하는 정확도가 달라진다. 최근에는 인공지능 등의 기술을 사용하여 로봇 스스로 이상을 검출하는 방법에 관한 연구가 진행되고 있다. 본 논문에서는 전이 학습을 이용하여 선형 로봇의 볼 스크류 정렬 이상과 선형 레일 정렬 이상을 검출하는 시스템을 제안하고 가속도 센서와 토크 센서 정보를 이용한 별개의 실험을 통해 제안한 시스템의 이상 검출 성능을 검증 및 비교한다. 센서로부터 얻어진 신호를 스펙트로그램 이미지로 변환한 후, 영상 인식 인공지능 분류기를 사용하여 이상의 종류를 진단하였다. 제안한 방법은 선형 로봇뿐만 아니라 일반적인 산업용 로봇에도 적용할 수 있을 것으로 기대한다.

골격 데이터와 발 압력매트를 활용한 재활 훈련용 가상 현실 콘텐츠 (Virtual Reality Contents for Rehabilitation Training Utilizing Skeletal Data and Foot Pressure Mat)

  • 시종욱;정혜리;이상진;김성영
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권5호
    • /
    • pp.330-338
    • /
    • 2024
  • 최근 재활 치료와 운동 프로그램에 대한 관심이 증가함에 따라, 건강과 재미를 동시에 충족할 수 있는 스마트콘텐츠 개발의 필요성이 커지고 있다. 특히, 신체 불균형 상태에서의 운동은 부상 위험이 높아, 균형을 감지하고 이를 반영한 훈련이 중요하다. 본 논문에서는 이러한 문제를 해결하기 위해 발 압력매트와 가상 현실(VR) 기술을 결합한 재활 운동 프로그램을 제안한다. 이 프로그램은 VR 환경에서 스쿼트, 제자리 걷기, 앞뒤로 걷기 등의 운동을 수행할 수 있으며, 발 압력매트를 통해 실시간으로 발 압력을 감지하여 활용한다. 또한, YOLOv8-pose 기반으로 추출된 골격 좌표를 활용한 알고리즘을 제안하여 신체 균형을 평가하고, 스쿼트 횟수를 자동으로 계산하는 기능도 포함한다. 실험 결과 각각의 자세에 대하여 평균적으로 87.9%의 정확도를 보였으며, 이를 통해 사용자는 더욱 안전하고 효율적인 맞춤형 훈련 경험과 몰입감 있는 훈련 경험을 제공할 수 있음을 확인하였다.

텍스트 분류 기반 기계학습의 정신과 진단 예측 적용 (Application of Text-Classification Based Machine Learning in Predicting Psychiatric Diagnosis)

  • 백두현;황민규;이민지;우성일;한상우;이연정;황재욱
    • 생물정신의학
    • /
    • 제27권1호
    • /
    • pp.18-26
    • /
    • 2020
  • Objectives The aim was to find effective vectorization and classification models to predict a psychiatric diagnosis from text-based medical records. Methods Electronic medical records (n = 494) of present illness were collected retrospectively in inpatient admission notes with three diagnoses of major depressive disorder, type 1 bipolar disorder, and schizophrenia. Data were split into 400 training data and 94 independent validation data. Data were vectorized by two different models such as term frequency-inverse document frequency (TF-IDF) and Doc2vec. Machine learning models for classification including stochastic gradient descent, logistic regression, support vector classification, and deep learning (DL) were applied to predict three psychiatric diagnoses. Five-fold cross-validation was used to find an effective model. Metrics such as accuracy, precision, recall, and F1-score were measured for comparison between the models. Results Five-fold cross-validation in training data showed DL model with Doc2vec was the most effective model to predict the diagnosis (accuracy = 0.87, F1-score = 0.87). However, these metrics have been reduced in independent test data set with final working DL models (accuracy = 0.79, F1-score = 0.79), while the model of logistic regression and support vector machine with Doc2vec showed slightly better performance (accuracy = 0.80, F1-score = 0.80) than the DL models with Doc2vec and others with TF-IDF. Conclusions The current results suggest that the vectorization may have more impact on the performance of classification than the machine learning model. However, data set had a number of limitations including small sample size, imbalance among the category, and its generalizability. With this regard, the need for research with multi-sites and large samples is suggested to improve the machine learning models.

Sentiment Analysis of Product Reviews to Identify Deceptive Rating Information in Social Media: A SentiDeceptive Approach

  • Marwat, M. Irfan;Khan, Javed Ali;Alshehri, Dr. Mohammad Dahman;Ali, Muhammad Asghar;Hizbullah;Ali, Haider;Assam, Muhammad
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.830-860
    • /
    • 2022
  • [Introduction] Nowadays, many companies are shifting their businesses online due to the growing trend among customers to buy and shop online, as people prefer online purchasing products. [Problem] Users share a vast amount of information about products, making it difficult and challenging for the end-users to make certain decisions. [Motivation] Therefore, we need a mechanism to automatically analyze end-user opinions, thoughts, or feelings in the social media platform about the products that might be useful for the customers to make or change their decisions about buying or purchasing specific products. [Proposed Solution] For this purpose, we proposed an automated SentiDecpective approach, which classifies end-user reviews into negative, positive, and neutral sentiments and identifies deceptive crowd-users rating information in the social media platform to help the user in decision-making. [Methodology] For this purpose, we first collected 11781 end-users comments from the Amazon store and Flipkart web application covering distant products, such as watches, mobile, shoes, clothes, and perfumes. Next, we develop a coding guideline used as a base for the comments annotation process. We then applied the content analysis approach and existing VADER library to annotate the end-user comments in the data set with the identified codes, which results in a labelled data set used as an input to the machine learning classifiers. Finally, we applied the sentiment analysis approach to identify the end-users opinions and overcome the deceptive rating information in the social media platforms by first preprocessing the input data to remove the irrelevant (stop words, special characters, etc.) data from the dataset, employing two standard resampling approaches to balance the data set, i-e, oversampling, and under-sampling, extract different features (TF-IDF and BOW) from the textual data in the data set and then train & test the machine learning algorithms by applying a standard cross-validation approach (KFold and Shuffle Split). [Results/Outcomes] Furthermore, to support our research study, we developed an automated tool that automatically analyzes each customer feedback and displays the collective sentiments of customers about a specific product with the help of a graph, which helps customers to make certain decisions. In a nutshell, our proposed sentiments approach produces good results when identifying the customer sentiments from the online user feedbacks, i-e, obtained an average 94.01% precision, 93.69% recall, and 93.81% F-measure value for classifying positive sentiments.

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.