• 제목/요약/키워드: Scikit Learn library

검색결과 7건 처리시간 0.021초

딥러닝을 이용한 강좌 추천시스템 (Course recommendation system using deep learning)

  • 임민아;황승연;신동진;오재곤;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.193-198
    • /
    • 2023
  • 딥러닝을 이용한 학습자 맞춤 강의 추천 프로젝트를 연구한다. 추천시스템은 웹과 앱에서 쉽게 발견할 수 있으며 이 특성을 이용한 예제는 사용자 클릭으로 특성 영상 추천과 SNS에서 평소 사용자가 관심 있던 분야의 아이템을 광고하는 것이 있다. 본 연구에서는 문장 유사도인 Word2Vec를 주로 이용하여 2번의 필터링을 거쳤으며 Surprise 라이브러리를 통해 강좌 추천을 하였다. 이러한 시스템으로 사용자에게 간편하고 편리하게 원하는 분류의 강좌 데이터를 제공한다. Surprise 라이브러리는 Python scikit-learn 기반의 라이브러리이며 추천시스템에 편리하게 사용된다. 데이터를 분석하여 시스템을 빠른 속도로 구현하고 딥러닝을 사용하여 강좌 단계를 거쳐 보다 더 정밀한 결과를 구현해낸다. 사용자가 관심 있는 키워드를 입력하면 해당 키워드와 강좌 제목과의 유사도를 실행하고 추출된 영상 데이터로 또 음성 텍스트와의 유사도를 실행하여 추출된 데이터로 Surprise 라이브러리를 통해 가장 높은 순위의 영상 데이터를 추천한다.

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

Accuracy of Phishing Websites Detection Algorithms by Using Three Ranking Techniques

  • Mohammed, Badiea Abdulkarem;Al-Mekhlafi, Zeyad Ghaleb
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.272-282
    • /
    • 2022
  • Between 2014 and 2019, the US lost more than 2.1 billion USD to phishing attacks, according to the FBI's Internet Crime Complaint Center, and COVID-19 scam complaints totaled more than 1,200. Phishing attacks reflect these awful effects. Phishing websites (PWs) detection appear in the literature. Previous methods included maintaining a centralized blacklist that is manually updated, but newly created pseudonyms cannot be detected. Several recent studies utilized supervised machine learning (SML) algorithms and schemes to manipulate the PWs detection problem. URL extraction-based algorithms and schemes. These studies demonstrate that some classification algorithms are more effective on different data sets. However, for the phishing site detection problem, no widely known classifier has been developed. This study is aimed at identifying the features and schemes of SML that work best in the face of PWs across all publicly available phishing data sets. The Scikit Learn library has eight widely used classification algorithms configured for assessment on the public phishing datasets. Eight was tested. Later, classification algorithms were used to measure accuracy on three different datasets for statistically significant differences, along with the Welch t-test. Assemblies and neural networks outclass classical algorithms in this study. On three publicly accessible phishing datasets, eight traditional SML algorithms were evaluated, and the results were calculated in terms of classification accuracy and classifier ranking as shown in tables 4 and 8. Eventually, on severely unbalanced datasets, classifiers that obtained higher than 99.0 percent classification accuracy. Finally, the results show that this could also be adapted and outperforms conventional techniques with good precision.

Prediction of East Asian Brain Age using Machine Learning Algorithms Trained With Community-based Healthy Brain MRI

  • Chanda Simfukwe;Young Chul Youn
    • 대한치매학회지
    • /
    • 제21권4호
    • /
    • pp.138-146
    • /
    • 2022
  • Background and Purpose: Magnetic resonance imaging (MRI) helps with brain development analysis and disease diagnosis. Brain volumes measured from different ages using MRI provides useful information in clinical evaluation and research. Therefore, we trained machine learning models that predict the brain age gap of healthy subjects in the East Asian population using T1 brain MRI volume images. Methods: In total, 154 T1-weighted MRIs of healthy subjects (55-83 years of age) were collected from an East Asian community. The information of age, gender, and education level was collected for each participant. The MRIs of the participants were preprocessed using FreeSurfer(https://surfer.nmr.mgh.harvard.edu/) to collect the brain volume data. We trained the models using different supervised machine learning regression algorithms from the scikit-learn (https://scikit-learn.org/) library. Results: The trained models comprised 19 features that had been reduced from 55 brain volume labels. The algorithm BayesianRidge (BR) achieved a mean absolute error (MAE) and r squared (R2) of 3 and 0.3 years, respectively, in predicting the age of the new subjects compared to other regression methods. The results of feature importance analysis showed that the right pallidum, white matter hypointensities on T1-MRI scans, and left hippocampus comprise some of the essential features in predicting brain age. Conclusions: The MAE and R2 accuracies of the BR model predicting brain age gap in the East Asian population showed that the model could reduce the dimensionality of neuroimaging data to provide a meaningful biomarker for individual brain aging.

Development of Multilayer Perceptron Model for the Prediction of Alcohol Concentration of Makgeolli

  • Kim, JoonYong;Rho, Shin-Joung;Cho, Yun Sung;Cho, EunSun
    • Journal of Biosystems Engineering
    • /
    • 제43권3호
    • /
    • pp.229-236
    • /
    • 2018
  • Purpose: Makgeolli is a traditional alcoholic beverage made from rice with a fermentation starter called "nuruk." The concentration of alcohol in makgeolli depends on the temperature of the fermentation tank. It is important to monitor the alcohol concentration to manage the makgeolli production process. Methods: Data were collected from 84 makgeolli fermentation tanks over a year period. Independent variables included the temperatures of the tanks and the room where the tanks were located, as well as the quantity, acidity, and water concentration of the source. Software for the multilayer perceptron model (MLP) was written in Python using the Scikit-learn library. Results: Many models were created for which the optimization converged within 100 iterations, and their coefficients of determination $R^2$ were considerably high. The coefficient of determination $R^2$ of the best model with the training set and the test set were 0.94 and 0.93, respectively. The fact that the difference between them was very small indicated that the model was not overfitted. The maximum and minimum error was approximately 2% and the total MSE was 0.078%. Conclusions: The MLP model could help predict the alcohol concentration and to control the production process of makgeolli. In future research, the optimization of the production process will be studied based on the model.

Pig Image Learning for Improving Weight Measurement Accuracy

  • Jonghee Lee;Seonwoo Park;Gipou Nam;Jinwook Jang;Sungho Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.33-40
    • /
    • 2024
  • 가축의 생체중은 건강 및 사육 환경 관리에 중요한 정보이고 이를 통해 최적 사료량이나 출하 시기 등을 결정하게 된다. 일반적으로 가축의 무게를 측정할 때 체중계를 이용하지만, 체중계를 이용한 가축 무게를 측정하는데 상당한 인력과 시간이 필요하고 성장 단계별 측정이 어려워 사료급이량 조절 등의 효과적인 사육 방법이 적용되지 못하는 단점이 있다. 본 연구는 축산 양돈 분야에 영상 및 이미지 데이터를 수집, 분석, 학습, 예측 등을 통해 포유자돈, 이유자돈, 육성돈, 비육돈 구간별 체중 측정에 관한 연구와 함께 정확도를 높이고자 하였다. 이를 위해 파이토치(pytorch), YOLO(you only look once) 5 모델, 사이킷런(scikit learn) 라이브러리를 사용하여 학습시킨 결과, 실제치(actual)와 예측치(prediction) 그래프에서 RMSE(root mean square error) 0.4%와 MAPE(mean absolute percentage error) 0.2%로 유사한 흐름을 확인할 수 있다. 이는 양돈 분야의 포유자돈, 이유자돈, 육성돈, 비육돈 구간에서 활용할 수 있으며 다각도로 학습된 이미지 및 영상 데이터와 실제 측정된 체중 데이터를 바탕으로 지속적인 정확도 향상이 가능하고 향후 영상판독을 통해 돼지의 부유별 생산량에 대한 예측으로 효율적인 사육관리가 가능할 것으로 기대된다.

랜섬웨어 탐지를 위한 머신러닝 기반 암호화 행위 감지 기법 (A Machine Learning-Based Encryption Behavior Cognitive Technique for Ransomware Detection)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권12호
    • /
    • pp.55-62
    • /
    • 2023
  • 최근 등장하는 랜섬웨어들은 다양한 공격 기법과 다양한 경로를 통해 공격을 수행하고 있어 조기 탐지와 방어에 많은 어려움을 겪고 있으며, 그 피해 규모도 날로 증가하고 있다. 따라서 본 논문에서는 효과적인 랜섬웨어 탐지를 위하여 파일 암호화와 암호화 패턴을 머신러닝 기반으로 하는 감지 기법을 제안한다. 파일 암호화는 랜섬웨어가 공격하는데 필수적으로 사용하는 기능으로 암호 행위와 암호화 패턴을 분석함으로써 랜섬웨어를 탐지하고 랜섬웨어의 특정 변종이나 새로운 유형의 랜섬웨어를 탐지할 수 있기 때문에 랜섬웨어 공격을 식별하고 차단하는 데 매우 효과적이다. 제안한 머신러닝 기반의 암호화 행위 감지 기법은 암호화 특성과 암호화 패턴 특성을 추출하여 머신러닝 기반의 분류기를 통해 각각 학습을 시켜 해당 행위에 대한 탐지를 진행하고 최종 결과는 두 분류기의 평가 결과를 기반으로 앙상블 분류기에서 랜섬웨어 유무를 판별하여 좀 더 정확도를 높였다. 또한, 제안한 기법을 numpy와 pandas, 파이썬의 사이킷런 라이브러리를 사용하여 구현하여 평가지표를 사용한 성능를 평가한 결과 평균적으로 94%,의 정확도와 95%의 정밀도, 93%의 재현률과 95%의 F1 스코어가 산출되었다. 성능 평가 결과를 보면 암호화 행위 감지를 통해 랜섬웨어 탐지가 가능하다는 것을 확인할 수 있었고 랜섬웨어의 사전 탐지를 위해 제안한 기법의 성능을 높이기 위한 연구도 계속해서 진행되어야 한다.