• 제목/요약/키워드: datasets

검색결과 2,005건 처리시간 0.03초

InferSent를 활용한 오픈 도메인 기계독해 (Open Domain Machine Reading Comprehension using InferSent)

  • 김정훈;김준영;박준;박성욱;정세훈;심춘보
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.89-96
    • /
    • 2022
  • 오픈 도메인 기계독해는 질문과 연관된 단락이 존재하지 않아 단락을 검색하는 검색 기능을 추가한 모델이다. 문서 검색은 단어 빈도 기반인 TF-IDF로 많은 연구가 진행됐으나 문서의 양이 많아지면 낮은 성능을 보이는 문제가 있다. 아울러 단락 선별은 단어 기반 임베딩으로 많은 연구가 진행됐으나 문장의 특징을 가지는 단락의 문맥을 정확히 추출하지 못하는 문제가 있다. 그리고 문서 독해는 BERT로 많은 연구가 진행됐으나 방대한 파라미터로 느린 학습 문제를 보였다. 본 논문에서는 언급한 3가지 문제를 해결하기 위해 문서의 길이까지 고려한 BM25를 이용하며 문장 문맥을 얻기 위해 InferSent를 사용하고, 파라미터 수를 줄이기 위해 ALBERT를 이용한 오픈 도메인 기계독해를 제안한다. SQuAD1.1 데이터셋으로 실험을 진행했다. 문서 검색은 BM25의 성능이 TF-IDF보다 3.2% 높았다. 단락 선별은 InferSent가 Transformer보다 0.9% 높았다. 마지막으로 문서 독해에서 단락의 수가 증가하면 ALBERT가 EM에서 0.4%, F1에서 0.2% 더 높았다.

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.

EEG Feature Engineering for Machine Learning-Based CPAP Titration Optimization in Obstructive Sleep Apnea

  • Juhyeong Kang;Yeojin Kim;Jiseon Yang;Seungwon Chung;Sungeun Hwang;Uran Oh;Hyang Woon Lee
    • International journal of advanced smart convergence
    • /
    • 제12권3호
    • /
    • pp.89-103
    • /
    • 2023
  • Obstructive sleep apnea (OSA) is one of the most prevalent sleep disorders that can lead to serious consequences, including hypertension and/or cardiovascular diseases, if not treated promptly. Continuous positive airway pressure (CPAP) is widely recognized as the most effective treatment for OSA, which needs the proper titration of airway pressure to achieve the most effective treatment results. However, the process of CPAP titration can be time-consuming and cumbersome. There is a growing importance in predicting personalized CPAP pressure before CPAP treatment. The primary objective of this study was to optimize the CPAP titration process for obstructive sleep apnea patients through EEG feature engineering with machine learning techniques. We aimed to identify and utilize the most critical EEG features to forecast key OSA predictive indicators, ultimately facilitating more precise and personalized CPAP treatment strategies. Here, we analyzed 126 OSA patients' PSG datasets before and after the CPAP treatment. We extracted 29 EEG features to predict the features that have high importance on the OSA prediction index which are AHI and SpO2 by applying the Shapley Additive exPlanation (SHAP) method. Through extracted EEG features, we confirmed the six EEG features that had high importance in predicting AHI and SpO2 using XGBoost, Support Vector Machine regression, and Random Forest Regression. By utilizing the predictive capabilities of EEG-derived features for AHI and SpO2, we can better understand and evaluate the condition of patients undergoing CPAP treatment. The ability to predict these key indicators accurately provides more immediate insight into the patient's sleep quality and potential disturbances. This not only ensures the efficiency of the diagnostic process but also provides more tailored and effective treatment approach. Consequently, the integration of EEG analysis into the sleep study protocol has the potential to revolutionize sleep diagnostics, offering a time-saving, and ultimately more effective evaluation for patients with sleep-related disorders.

이상탐지 알고리즘 성능 비교: 이상치 유형과 데이터 속성 관점에서 (Performance Comparison of Anomaly Detection Algorithms: in terms of Anomaly Type and Data Properties)

  • 김재웅;정승렬;김남규
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.229-247
    • /
    • 2023
  • 여러 분야에서 이상탐지의 중요성이 강조됨에 따라, 다양한 데이터 유형과 이상치 유형에 대한 이상탐지 알고리즘이 개발되고 있다. 하지만 이상탐지 알고리즘의 성능은 주로 공개 데이터 세트에 대해 측정될 뿐 특정 유형의 이상치에서 나타나는 각 알고리즘의 성능은 확인되지 않고 있으므로, 분석 상황에 맞는 적절한 이상탐지 알고리즘 선택에 어려움이 있다. 이에 본 논문에서는 이상치의 유형과 다양한 데이터 속성을 먼저 파악하여, 이를 기반으로 적절한 이상탐지 알고리즘 선택에 도움을 줄 수 있는 방안을 제시하고자 한다. 구체적으로 본 연구에서는 지역, 전역, 종속성, 그리고 군집화의 총 4가지 이상치 유형에 대해 이상탐지 알고리즘의 성능을 비교하고, 추가 분석을 통해 라벨 수준, 데이터 개수, 그리고 차원 수가 성능에 미치는 영향을 확인한다. 실험 결과 이상치 유형에 따라 가장 우수한 성능을 나타내는 알고리즘이 다르게 나타나며, 이상치 유형에 대한 정보가 없는 경우에도 안정적인 성능을 보여주는 알고리즘을 확인했다. 또한 비지도 학습 기반 이상탐지 알고리즘의 성능이 지도 학습 및 준지도 학습 알고리즘의 성능보다 낮게 나타나는 유형을 확인하였다. 마지막으로 데이터 개수가 상대적으로 적거나 많을 때 대부분 알고리즘들의 성능이 이상치 유형에 더 강하게 영향을 받으며, 상대적으로 고차원일 경우 지역, 전역 이상치에서는 우수한 성능을 보였지만 군집화 이상치 유형에서 낮은 성능을 나타냄을 확인하였다.

유치의 치근단 방사선 사진에서 딥 러닝 알고리즘을 이용한 모델의 인접면 우식증 객체 탐지 능력의 평가 (Assessment of the Object Detection Ability of Interproximal Caries on Primary Teeth in Periapical Radiographs Using Deep Learning Algorithms)

  • 전홍주;김선미;최남기
    • 대한소아치과학회지
    • /
    • 제50권3호
    • /
    • pp.263-276
    • /
    • 2023
  • 이 연구의 목적은 소아의 치근단 방사선 사진에서 인접면 우식증 객체 탐지 의 객체 탐지를 위해 YOLO (You Only Look Once)를 사용한 모델의 성능을 평가하는 것이다. M6 데이터베이스에서 학습자료군으로 2016개의 치근단 방사선 사진이 선택되었고 이 중 1143개는 한 명의 숙련된 치과의사가 주석 도구를 사용하여 인접면 우식증을 표시하였다. 표시한 주석을 데이터 세트로 변환한 후 단일 합성곱 신경망(CNN) 모델을 기반으로 하는 YOLO를 데이터 세트에 학습시켰다. 187개의 평가자료군에서 객체 탐지 모델 성능 평가를 위해 정확도, 재현율, 특이도, 정밀도, NPV, F1-score, PR 곡선 및 AP를 계산하였다. 결과로 정확도 0.95, 재현율 0.94, 특이도 0.97, 정밀도 0.82, NPV 0.96, F1-score 0.81, AP 0.83으로 인접면 우식증 탐지에 좋은 성능을 보였다. 이 모델은 치과의사에게 치근단 방사선 사진에서 인접면 우식증 병변을 객체 탐지하는 도구로 유용하게 사용될 수 있다.

머신러닝 기반의 강우추정 방법 개발 (Development of Machine Learning Based Precipitation Imputation Method)

  • 한희찬;김창주;김동현
    • 한국습지학회지
    • /
    • 제25권3호
    • /
    • pp.167-175
    • /
    • 2023
  • 강우 데이터는 습지관리, 수문모의, 수자원 관리와 같은 다양한 분야에서 활용되는 필수 입력자료 중 하나이다. 강우 데이터를 활용하여 효율적인 수자원관리를 위해서는 기본적으로 데이터의 결측률을 최소화 시킴으로써 최대한 많은 데이터를 확보하는 것이 필수적이다. 또한 미계측 지역에 대한 강우 데이터를 확보한다면 보다 효율적인 수문모의가 가능하다. 그러나 결측 강우 데이터는 주로 통계학적 기법에 의해 추정되어 왔다. 본 연구의 목적은 데이터 간의 상관관계를 기반으로 새로운 데이터를 예측할 수 있는 머신러닝 알고리즘을 활용하여 결측 강우 데이터를 복원할 수 있는 새로운 방법을 제안하고자 한다. 또한, 기존의 통계적 방법들과 비교하여 머신러닝 기법의 결측 강우 데이터 복원을 위한 활용가치를 평가하고자 한다. 평가를 위해 대표적인 머신러닝 알고리즘인 Artificial Neural Network (ANN)과 Random Forest (RF)을 적용하였다. 강우의 발생 유무를 분류하는 성능은 RF 알고리즘이 ANN 알고리즘보다 강우 발생유무의 분류 정확도가 높은 것으로 나타났다. 분류 모형의 평가 지표인 F1-score나 Accuracy값이 RF는 0.80, 0.77인 반면에, ANN은 0.76, 0.71로 계산되었다. 또한 강우량을 추정하는 성능 역시 RF가 ANN 알고리즘보다 보다 높은 정확도를 보였다. RF과 ANN 알고리즘의 RMSE은 2.8mm/day과 2.9mm/day이고, R2값은 0.73, 0.68으로 계산되었다.

캐글 플랫폼 활용한 태양광 데이터셋 형태 구축: 머신 러닝의 적용 가능성 (On Building the Solar Dataset Form using the Kaggle Platform: The applicability of Machine Learning)

  • 고주원;박정진;박진우;오도희;김민철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.255-258
    • /
    • 2022
  • 최근 환경 오염이 지속되면서 신재생 에너지에 대한 사람들의 관심이 높아지고 있다. 제주 지역은 태양광, 태양열, 바이오, 풍력 발전 등 신재생 에너지 발전이 많이 이루어지고 있지만, 그에 비하여 관련 데이터의 개방과 분석 사례는 부족한 상황이다. 이에 본 연구에서는 전 세계 데이터 사이언티스트(Data Scientists)들이 활동하고 있는 캐글(Kaggle) 플랫폼을 활용하여 태양광 생산량과 관련된 변수를 추출하고, 데이터에 적용할 수 있는 머신러닝(Machine Learning) 기법을 탐구하여 머신 러닝 설계를 위한 제주 지역의 태양광 발전 데이터셋(Dataset) 형태(Form)를 제시하고자 한다. 구체적으로는 캐글 데이터 플랫폼을 활용하여 태양광 에너지 분석을 진행한 후 제주 지역 태양광 데이터 수집에 대한 보완점을 제안할 수 있다. 이러한 시도는 제주 지역의 태양광 산업의 발전을 위한 데이터 분석에 활용이 가능할 것으로 기대할 수 있다. 즉, 현재 개방되어 있는 제주 지역의 태양광 발전 데이터셋 형태를 인공지능(Artificial Intelligent) 분석을 위한 머신러닝에 적합한 형태로 구축이 될 수 있도록 제안할 수 있다. 이를 통하여 제주 지역 태양광 산업의 발전의 효율을 높이는 방안을 마련하는데 기반 연구가 될 것이다.

  • PDF

딥러닝 기반 CT 스캔 재구성을 통한 조영제 사용 및 신체 부위 분류 성능 향상 연구 (A Study on the Use of Contrast Agent and the Improvement of Body Part Classification Performance through Deep Learning-Based CT Scan Reconstruction)

  • 나성원;고유선;김경원
    • 방송공학회논문지
    • /
    • 제28권3호
    • /
    • pp.293-301
    • /
    • 2023
  • 표준화되지 않은 의료 데이터 수집 및 관리는 여전히 수동으로 진행되고 있어, 이 문제를 해결하기 위해 딥 러닝을 사용해 CT 데이터를 분류하는 연구들이 진행되고 있다. 하지만 대부분 연구에서는 기본적인 CT slice인 axial 평면만을 기반으로 모델을 개발하고 있다. CT 영상은 일반 이미지와 다르게 인체 구조만 묘사하기 때문에 CT scan을 재구성하는 것만으로도 더 풍부한 신체적 특징을 나타낼 수 있다. 이 연구는 axial 평면뿐만 아니라 CT 데이터를 2D로 변환하는 여러가지 방법들을 통해 보다 높은 성능을 달성할 수 있는 방법을 찾고자 한다. 훈련은 5가지 부위의 CT 스캔 1042개를 사용했고, 모델 평가를 위해 테스트셋 179개, 외부 데이터셋으로 448개를 수집했다. 딥러닝 모델 개발을 위해 ImageNet으로 사전 학습된 InceptionResNetV2를 백본으로 사용하였으며, 모델의 전체 레이어를 재 학습했다. 실험결과 신체 부위 분류에서는 재구성 데이터 모델이 99.33%를 달성하며 axial 모델보다 1.12% 더 높았고, 조영제 분류에서는 brain과 neck에서만 axial모델이 높았다. 결론적으로 axial slice로만 훈련했을 때 보다 해부학적 특징이 잘 나타나는 데이터로 학습했을 때 더 정확한 성능 달성이 가능했다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

사고 데이터의 주요 원인을 이용한 어선 해양사고 분석에 관한 연구 (A Study on the Analysis of Marine Accidents on Fishing Ships Using Accident Cause Data)

  • 박상아;박득진
    • 한국항해항만학회지
    • /
    • 제47권1호
    • /
    • pp.1-9
    • /
    • 2023
  • 해양사고 분석에 관한 많은 연구가 진행되고 있으며, 해양사고는 매년 업데이트되고 있어 주기적으로 원인을 분석하고 규명하는 것이 필요하다. 이 연구에서는 이전의 데이터와 새로운 데이터를 활용하여 해양사고를 파악·분석을 통해 어선 해양사고 원인을 규명하여 사고를 예방하는 것이다. 해양사고 데이터는 어선의 특수성을 고려하여 해양안전심판원의 어선에 대한 해양사고재결서 16년간의 1,921건을 수집하였으며, 해양수산부 종합상황실 사고알림문자 이력 3년간의 1,917건을 수집하였다. 재결서 데이터와 문자 데이터는 변수에 따라 분류하였으며, 수량화 작업을 수행하였다. 수량화 작업을 통한 데이터를 사용하여 베이지안 네트워크를 이용해 사전확률을 계산하였고, 후방 추론을 이용하여 어선 해양사고를 예측하였다. 두 가지 수집한 데이터 중 해양사고재결서는 모든 어선의 사고가 재결서에 포함되지 않았기 때문에 해양수산부 사고알림문자를 선택하였다. 분류한 데이터를 베이지안 네트워크를 사용하여 어선 해양사고의 사전 확률을 계산하였다. 후방 추론으로 계산한 기관손상이 서해 연안에서 발생할 어선 해양사고의 확률은 0.0000031%였다. 이 연구의 기대효과는 어선 해양사고를 분석하기 위하여 새로운 사고알림문자 데이터를 활용하여 실제 어선 특성에 맞는 해양사고를 분석할 수 있다는 것이다. 추후에는 어선 해양사고에 영향을 미치는 변수들 간의 인과관계에 관한 연구를 수행할 예정이다.