• 제목/요약/키워드: Machine classification

검색결과 2,100건 처리시간 0.029초

유전자 발현 데이터 기반 구강암에서의 세포 조성 차이 분석 (Distinct cell subtype composition using gene expression data in oral cancer)

  • 이제근
    • 한국융합학회논문지
    • /
    • 제10권8호
    • /
    • pp.59-65
    • /
    • 2019
  • 암 조직에는 다양한 형태의 세포가 존재하지만, 이들의 조성을 실험적으로 확인하기는 매우 어렵다. 본 연구에서는 유전자 발현 데이터에 통계적 기계학습 모델을 적용하여 각 샘플의 세포 조성을 추론하고, 이러한 세포 조성이 암조직과 정상 조직간에 차이가 있는지를 확인하였다. 두 가지 서로 다른 회귀 모델을 이용하여 세포 조성을 예측한 결과 CD8 T cell과 Neutrophil이 구강암 조직에서 정상 조직에 비해 증가함을 확인할 수 있었다. 또한 비지도학습 중 하나인 t-SNE를 적용하여, 유추된 세포 조성에 의해 정상 조직과 구강암 조직이 서로 군집을 이루고 있음을 확인하였고, 지도 학습 기반의 다양한 분류 알고리즘들을 이용하여 세포 조성 정보를 이용하여 구강암과 정상 조직을 예측하는 것이 가능함을 보였다. 이 연구는 구강암의 면역 세포 침투에 대한 이해도를 증진하는데에 도움을 줄 수 있을 것이다.

대용량 악성코드의 특징 추출 가속화를 위한 분산 처리 시스템 설계 및 구현 (Distributed Processing System Design and Implementation for Feature Extraction from Large-Scale Malicious Code)

  • 이현종;어성율;황두성
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권2호
    • /
    • pp.35-40
    • /
    • 2019
  • 기존 악성코드 탐지는 다형성 또는 난독화 기법이 적용된 변종 악성코드 탐지에 취약하다. 기계학습 알고리즘은 악성코드에 내재된 패턴을 학습시켜 유사 행위 탐지가 가능해 기존 탐지 방법을 대체할 수 있다. 시간에 따라 변화하는 악성코드 패턴을 학습시키기 위해 지속적으로 데이터를 수집해야한다. 그러나 대용량 악성코드 파일의 저장 및 처리 과정은 높은 공간과 시간 복잡도가 수반된다. 이 논문에서는 공간 복잡도를 완화하고 처리 시간을 가속화하기 위해 HDFS 기반 분산 처리 시스템을 설계한다. 분산 처리 시스템을 이용해 2-gram 특징과 필터링 기준에 따른 API 특징 2개, APICFG 특징을 추출하고 앙상블 학습 모델의 일반화 성능을 비교했다. 실험 결과로 특징 추출의 시간 복잡도는 컴퓨터 한 대의 처리 시간과 비교했을 때 약 3.75배 속도가 개선되었으며, 공간 복잡도는 약 5배의 효율성을 보였다. 특징 별 분류 성능을 비교했을 때 2-gram 특징이 가장 우수했으나 훈련 데이터 차원이 높아 학습 시간이 오래 소요되었다.

Investigating Non-Laboratory Variables to Predict Diabetic and Prediabetic Patients from Electronic Medical Records Using Machine Learning

  • Mukhtar, Hamid;Al Azwari, Sana
    • International Journal of Computer Science & Network Security
    • /
    • 제21권9호
    • /
    • pp.19-30
    • /
    • 2021
  • Diabetes Mellitus (DM) is one of common chronic diseases leading to severe health complications that may cause death. The disease influences individuals, community, and the government due to the continuous monitoring, lifelong commitment, and the cost of treatment. The World Health Organization (WHO) considers Saudi Arabia as one of the top 10 countries in diabetes prevalence across the world. Since most of the medical services are provided by the government, the cost of the treatment in terms of hospitals and clinical visits and lab tests represents a real burden due to the large scale of the disease. The ability to predict the diabetic status of a patient without the laboratory tests by performing screening based on some personal features can lessen the health and economic burden caused by diabetes alone. The goal of this paper is to investigate the prediction of diabetic and prediabetic patients by considering factors other than the laboratory tests, as required by physicians in general. With the data obtained from local hospitals, medical records were processed to obtain a dataset that classified patients into three classes: diabetic, prediabetic, and non-diabetic. After applying three machine learning algorithms, we established good performance for accuracy, precision, and recall of the models on the dataset. Further analysis was performed on the data to identify important non-laboratory variables related to the patients for diabetes classification. The importance of five variables (gender, physical activity level, hypertension, BMI, and age) from the person's basic health data were investigated to find their contribution to the state of a patient being diabetic, prediabetic or normal. Our analysis presented great agreement with the risk factors of diabetes and prediabetes stated by the American Diabetes Association (ADA) and other health institutions worldwide. We conclude that by performing class-specific analysis of the disease, important factors specific to Saudi population can be identified, whose management can result in controlling the disease. We also provide some recommendations learnt from this research.

암반공학분야에 적용된 인공지능 알고리즘 분석 (An Analysis of Artificial Intelligence Algorithms Applied to Rock Engineering)

  • 김양균
    • 터널과지하공간
    • /
    • 제31권1호
    • /
    • pp.25-40
    • /
    • 2021
  • 4차 산업혁명 시대의 도래에 따라 암반공학분야에서도 인공지능을 활용한 연구가 점차 증가하고 있다. 본 논문에서는 인공지능에 대한 이해와 그 활용도를 더욱 증진시키기 위하여, 암반공학기술의 주된 적용대상인 터널, 발파, 광산과 관련된 최근의 국내외 연구 중 인공지능이 활용된 논문들에서 그 알고리즘의 종류와 적용방법을 분석하였다. 터널에서는 암반분류, TBM굴진율 및 막장전방 지질 예측, 발파에서는 암반의 파쇄도 및 비산거리, 광산에서는 폐광의 침하가능성 예측을 위해 주로 활용되고 있으며, 기계학습의 다양한 알고리즘 중 인공신경망이 압도적으로 많이 활용되고 있는 것으로 나타났다. 연구결과의 정확도와 신뢰성 제고를 위해 사용하고자 하는 인공지능 알고리즘에 대한 정확하고 상세한 이해가 필수적이며, 현재는 접근이나 분석이 난해한 암반공학 분야의 다양한 문제해결을 위해 기계학습뿐 아니라 CNN 또는 RNN과 같은 딥러닝을 활용한 연구 아이디어들이 점차 증가될 것으로 기대된다.

기계학습을 활용한 게임승패 예측 및 변수중요도 산출을 통한 전략방향 도출 (Predicting Game Results using Machine Learning and Deriving Strategic Direction from Variable Importance)

  • 김용우;김영민
    • 한국게임학회 논문지
    • /
    • 제21권4호
    • /
    • pp.3-12
    • /
    • 2021
  • 본 연구에서는 게임 초반 10분의 데이터를 이용하여 리그오브레전드 게임의 최종승패를 랭크별로 예측하고, 구축된 승패예측 모형으로부터 변수중요도를 추출하여 승리를 위한 초반 게임운영의 방향성을 알아보았다. 그 결과 모든 랭크에서 70% 이상의 정확도로 승패를 예측할 수 있었다. 이는 경기 양상이 대부분 뒤집히지 않고 최종승패로 이어지는 것을 의미하며, 이러한 경향성은 상위 랭크로 갈수록 더욱 강하게 나타났다. 랭크와 무관하게 킬(데스)가 초반 게임에서 최종승패에 가장 큰 영향을 미치는 요소로 나타났으나, 일부 변수는 랭크에 따라 중요도 순위가 변화하였고 이는 유저가 속한 랭크에 따라 승리에 효과적인 초반 전략방향에 차이가 있음을 시사한다.

XGboost 기반의 WiFi 신호를 이용한 실내 측위 기법 (Indoor positioning method using WiFi signal based on XGboost)

  • 황치곤;윤창표;김대진
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.70-75
    • /
    • 2022
  • 위치를 정확하게 측정하는 것은 다양한 서비스를 제공하는 데 필요하다. 실내 측위를 위한 데이터는 스마트 폰의 앱을 통해 WiFi 장치로부터 RSSI 값을 측정한다. 이렇게 측정된 데이터는 기계학습의 원시 데이터가 된다. 특징 데이터는 측정된 RSSI 값이고, 레이블은 측정한 위치에 대한 공간의 이름으로 한다. 이를 위한 기계학습 기법은 분류에 효율적인 기법을 적용하여 WiFi 신호만으로 정확한 위치를 예측하는 기법을 연구하고자 한다. 앙상블은 하나의 모델보다 다양한 모델을 통하여 더 정확한 예측값을 구하는 기법으로, bagging과 boosting이 있다. 이 중 Boosting은 샘플링한 데이터를 바탕으로 모델링한 결과를 통해 모델의 가중치를 조정하는 기법으로, 다양한 알고리즘이 있다. 본 연구는 위 기법 중 XGboost를 이용하고, 다른 앙상블 기법과 이용한 수행결과를 바탕으로 성능을 평가한다.

방한 관광객의 온라인 리뷰에 대한 빅데이터 분석 기반의 감성분석 및 평점 예측모형 (Sentiment Analysis and Star Rating Prediction Based on Big Data Analysis of Online Reviews of Foreign Tourists Visiting Korea)

  • 홍태호
    • 지식경영연구
    • /
    • 제23권1호
    • /
    • pp.187-201
    • /
    • 2022
  • 관광객이 작성한 온라인 리뷰는 관광산업의 관리 및 운영에 중요한 정보를 제공한다. 평점은 제품이나 서비스에 대한 정량적인 평가로 간편하지만 관광객의 진실한 태도를 반영하기 어려우며 평점과 리뷰내용에 대한 불일치 문제도 발생하고 있다. 불일치 문제는 잠재고객에게 혼동을 줄 수 있으며 구매의사결정에도 영향을 미칠 수 있다. 본 연구에서는 온라인 리뷰기반의 평점 예측모형을 통해 평점과 리뷰내용의 불일치 문제를 해결하고자 한다. 한국을 방문한 외국인 관광객이 작성한 관광지와 호텔에 대한 리뷰의 감성분석을 통해 평점과 감성의 차이를 비교하고 TF-IDF vectorization과 감성분석 결과로 변수를 선정하였다. 로짓, 인공신경망, SVM(Support Vector Machine)을 적용하여 평점을 분류하고, 인공신경망, SVR(Support Vector Regression)을 통해 평점을 예측하였다. 평점 분류모형과 예측모형 모두 불일치한 리뷰를 제거하고 감성분석을 반영한 모형에서 우수한 성과를 보여주었다. 본 연구에서 제안한 온라인 리뷰 기반의 평점 예측모형은 평점과 리뷰내용에 대한 불일치 문제를 해결하여 신뢰할 수 있는 정보를 제공하였으며 평점이 없는 온라인 리뷰에도 활용할 수 있을 것이다.

Denoising Auto Encoder 기법을 활용한 진동 데이터 전처리 및 성능비교 (Vibration Data Denoising and Performance Comparison Using Denoising Auto Encoder Method)

  • 장준교;노천명;김성수;이순섭;이재철
    • 해양환경안전학회지
    • /
    • 제27권7호
    • /
    • pp.1088-1097
    • /
    • 2021
  • 기계 장비의 진동 데이터는 필연적으로 노이즈를 포함하고 있다. 이러한 노이즈는 기계 장비의 유지보수를 진행하는데 악영향을 끼친다. 그에 따라 데이터의 노이즈를 얼마나 효과적으로 제거해주냐에 따라 학습 모델의 성능을 좌우한다. 본 논문에서는 시계열 데이터를 전처리 함에 있어 특성추출 과정을 포함하지 않는 Denoising Auto Encoder 기법을 활용하여 데이터의 노이즈를 제거했다. 또한 기계 신호 처리에 널리 사용되는 Wavelet Transform과 성능 비교를 진행했다. 성능비교는 고장 탐지율을 계산하여 진행했으며 보다 정확한 비교를 위해 분류 성능 평가기준 중 하나인 F-1 Score를 계산하여 성능 비교를 진행했다. 고장을 탐지하는 과정에서는 One-Class SVM 기법을 활용하여 고장 데이터를 탐지했다. 성능 비교 결과 고장 진단율과 오차율 측면에서 Denoising Auto Encoder 기법이 Wavelet Transform 기법에 비해 보다 좋은 성능을 나타냈다.

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

컬러 영상 색채 강도 엔트로피를 이용한 앙상블 모델 기반의 지능형 나비 영상 인식 (Ensemble Model Based Intelligent Butterfly Image Identification Using Color Intensity Entropy)

  • 김태희;강승호
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.972-980
    • /
    • 2022
  • 영상을 이용한 기계학습 기반의 나비 종 인식 기술은 나비 종의 다양성 및 개체 수, 종의 서식 분포 등을 파악하는데 관련 분야 종사자의 많은 시간과 비용 감소의 효과를 가져온다. 나비 종 분류의 정확성과 시간 효율을 높이기 위해 기계학습 모델의 입력으로 사용되는 여러 가지 특징들이 연구되었다. 그중 엔트로피 개념을 이용한 가지 길이 유사성 엔트로피나 색채 강도 엔트로피 방법이 푸리에 변환이나 웨이블릿 등 다른 특징들에 비해 높은 정확성과 적은 학습 시간을 보여주었다. 본 논문은 나비의 컬러 영상에 대한 RGB 색채 강도 엔트로피를 이용한 특징 추출 알고리즘을 제안한다. 또한 제안한 특징 추출 방법과 대표적인 앙상블 모델들을 결합한 나비 인식 시스템을 개발하고 성능을 평가한다.