• 제목/요약/키워드: Machine Learning Library

검색결과 81건 처리시간 0.025초

랜덤 포레스트를 활용한 만족도 사전조사에 따른 교육 역량 예측 분석 (An Analysis of Educational Capacity Prediction according to Pre-survey of Satisfaction using Random Forest)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.487-492
    • /
    • 2022
  • 대학들은 급변하는 사회 환경에 적합한 교육역량 수준을 높이기 위해 다양한 방법들을 찾고 있다. 본 논문에서는 조사 항목을 수정, 보완한 만족도 사전조사를 개강 전에 실행하여 학업성취도를 높이고 전공 이탈자의 비율을 낮춰 교육 성과를 높이는 방안을 제안한다. 일반적인 만족도 조사 이후에 시행되는 교육품질 개선(CQI) 방식을 보완하고자 만족도 사전조사를 시행하였다. 학생역량을 강화하기 위해 설계가 진행 중인 인공지능형 메디치 플랫폼에 적용할 수 있는 머신러닝 기법의 랜덤 포레스트를 활용하여 중요한 데이터의 예측 및 분석을 가능하게 하였다. 만족도 사전조사 데이터들을 전처리하여 수강 신청 학생들의 정보를 설명 변수로 정의하고 분류하여 모델 생성 및 학습하였다. 실험 환경은 주피터 노트북 3.7.7, Python 3.7에서 관련 알고리즘과 사이킷런(sklearn) 라이브러리를 함께 사용하였다. 제안하는 방안의 결과를 수업에 반영하여 수업 후에 진행하는 교육 만족도 조사의 변화와 중도 탈락생 수의 동향을 비교 분석하였다.

딥러닝 기반의 딥 클러스터링 방법에 대한 분석 (Analysis of deep learning-based deep clustering method)

  • 권현;이준
    • 융합보안논문지
    • /
    • 제23권4호
    • /
    • pp.61-70
    • /
    • 2023
  • 클러스터링은 데이터의 정답값(실제값)이 없는 데이터를 기반으로 데이터의 특징벡터의 거리 기반 등으로 군집화를 하는 비지도학습 방법이다. 이 방법은 이미지, 텍스트, 음성 등 다양한 데이터에 대해서 라벨링이 없이 적용할 수 있다는 장점이 있다. 기존 클러스터링을 하기 위해 차원축소 기법을 적용하거나 특정 특징만을 추출하여 군집화하는 방법이 적용되었다. 하지만 딥러닝 기반 모델이 발전하면서 입력 데이터를 잠재 벡터로 표현하는 오토인코더, 생성 적대적 네트워크 등을 통해서 딥 클러스터링의 기술이 연구가 되고 있다. 본 연구에서, 딥러닝 기반의 딥 클러스터링 기법을 제안하였다. 이 방법에서 오토인코더를 이용하여 입력 데이터를 잠재 벡터로 변환하고 이 잠재 벡터를 클러스터 구조에 맞게 벡터 공간을 구성 및 k-평균 클러스터링을 하였다. 실험 환경으로 pytorch 머신러닝 라이브러리를 이용하여 데이터셋으로 MNIST와 Fashion-MNIST을 적용하였다. 모델로는 컨볼루션 신경망 기반인 오토인코더 모델을 사용하였다. 실험결과로 k가 10일 때, MNIST에 대해서 89.42% 정확도를 가졌으며 Fashion-MNIST에 대해서 56.64% 정확도를 가진다.

TAKES: Two-step Approach for Knowledge Extraction in Biomedical Digital Libraries

  • Song, Min
    • Journal of Information Science Theory and Practice
    • /
    • 제2권1호
    • /
    • pp.6-21
    • /
    • 2014
  • This paper proposes a novel knowledge extraction system, TAKES (Two-step Approach for Knowledge Extraction System), which integrates advanced techniques from Information Retrieval (IR), Information Extraction (IE), and Natural Language Processing (NLP). In particular, TAKES adopts a novel keyphrase extraction-based query expansion technique to collect promising documents. It also uses a Conditional Random Field-based machine learning technique to extract important biological entities and relations. TAKES is applied to biological knowledge extraction, particularly retrieving promising documents that contain Protein-Protein Interaction (PPI) and extracting PPI pairs. TAKES consists of two major components: DocSpotter, which is used to query and retrieve promising documents for extraction, and a Conditional Random Field (CRF)-based entity extraction component known as FCRF. The present paper investigated research problems addressing the issues with a knowledge extraction system and conducted a series of experiments to test our hypotheses. The findings from the experiments are as follows: First, the author verified, using three different test collections to measure the performance of our query expansion technique, that DocSpotter is robust and highly accurate when compared to Okapi BM25 and SLIPPER. Second, the author verified that our relation extraction algorithm, FCRF, is highly accurate in terms of F-Measure compared to four other competitive extraction algorithms: Support Vector Machine, Maximum Entropy, Single POS HMM, and Rapier.

Knowledge Base Associated with Autism Construction Using CRFs Learning

  • Yang, Ronggen;Gong, Lejun
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1326-1334
    • /
    • 2019
  • Knowledge base means a library stored in computer system providing useful information or appropriate solutions to specific area. Knowledge base associated with autism is the complex multidimensional information set related to the disease autism for its pathogenic factor and therapy. This paper focuses on the knowledge of biological molecular information extracted from massive biomedical texts with the aid of widespread used machine learning methods. Six classes of biological molecular information (such as protein, DNA, RNA, cell line, cell component, and cell type) are concerned and the probability statistics method, conditional random fields (CRFs), is utilized to discover these knowledges in this work. The knowledge base can help biologists to etiological analysis and pharmacists to drug development, which can at least answer four questions in question-answering (QA) system, i.e., which proteins are most related to the disease autism, which DNAs play important role to the development of autism, which cell types have the correlation to autism and which cell components participate the process to autism. The work can be visited by the address http://134.175.110.97/bioinfo/index.jsp.

Guiding Practical Text Classification Framework to Optimal State in Multiple Domains

  • Choi, Sung-Pil;Myaeng, Sung-Hyon;Cho, Hyun-Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제3권3호
    • /
    • pp.285-307
    • /
    • 2009
  • This paper introduces DICE, a Domain-Independent text Classification Engine. DICE is robust, efficient, and domain-independent in terms of software and architecture. Each module of the system is clearly modularized and encapsulated for extensibility. The clear modular architecture allows for simple and continuous verification and facilitates changes in multiple cycles, even after its major development period is complete. Those who want to make use of DICE can easily implement their ideas on this test bed and optimize it for a particular domain by simply adjusting the configuration file. Unlike other publically available tool kits or development environments targeted at general purpose classification models, DICE specializes in text classification with a number of useful functions specific to it. This paper focuses on the ways to locate the optimal states of a practical text classification framework by using various adaptation methods provided by the system such as feature selection, lemmatization, and classification models.

Visual SLAM 기반의 모바일 증강현실 시스템 구축 (Building a Mobile AR System Based on Visual SLAM)

  • 송주은;국중진
    • 반도체디스플레이기술학회지
    • /
    • 제20권4호
    • /
    • pp.96-101
    • /
    • 2021
  • The SLAM market is growing rapidly with advances in Machine Learning, Drones, Augmented Reality technologies. However, due to the absence of an open source-based SLAM library for developing AR content, most SLAM researchers are required to conduct their own research and development to customize SLAM. In this paper, we propose an opensource-based Mobile Markerless AR System by building our own pipeline based on Visual SLAM. To implement the Mobile AR System of this paper, it uses ORB-SLAM3 and Unity Engine and We experimented with running our system in a real environment and confirming it in the Unity Engine's Mobile Viewer. Through this experimentation, we can verify that the Unity Engine and the SLAM System are tightly integrated and communicate smoothly. Also, we expect to accelerate the growth of SLAM technology through this research.

An AutoML-driven Antenna Performance Prediction Model in the Autonomous Driving Radar Manufacturing Process

  • So-Hyang Bak;Kwanghoon Pio Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3330-3344
    • /
    • 2023
  • This paper proposes an antenna performance prediction model in the autonomous driving radar manufacturing process. Our research work is based upon a challenge dataset, Driving Radar Manufacturing Process Dataset, and a typical AutoML machine learning workflow engine, Pycaret open-source Python library. Note that the dataset contains the total 70 data-items, out of which 54 used as input features and 16 used as output features, and the dataset is properly built into resolving the multi-output regression problem. During the data regression analysis and preprocessing phase, we identified several input features having similar correlations and so detached some of those input features, which may become a serious cause of the multicollinearity problem that affect the overall model performance. In the training phase, we train each of output-feature regression models by using the AutoML approach. Next, we selected the top 5 models showing the higher performances in the AutoML result reports and applied the ensemble method so as for the selected models' performances to be improved. In performing the experimental performance evaluation of the regression prediction model, we particularly used two metrics, MAE and RMSE, and the results of which were 0.6928 and 1.2065, respectively. Additionally, we carried out a series of experiments to verify the proposed model's performance by comparing with other existing models' performances. In conclusion, we enhance accuracy for safer autonomous vehicles, reduces manufacturing costs through AutoML-Pycaret and machine learning ensembled model, and prevents the production of faulty radar systems, conserving resources. Ultimately, the proposed model holds significant promise not only for antenna performance but also for improving manufacturing quality and advancing radar systems in autonomous vehicles.

뉴럴네트워크 기반에 악성 URL 탐지방법 설계 (Design of detection method for malicious URL based on Deep Neural Network)

  • 권현;박상준;김용철
    • 융합정보논문지
    • /
    • 제11권5호
    • /
    • pp.30-37
    • /
    • 2021
  • 사물인터넷 등을 통하여 각종 기기들이 인터넷으로 연결되어 있고 이로 인하여 인터넷을 이용한 공격이 발생하고 있다. 그러한 공격 중 악성 URL를 이용하여 사용자에게 잘못된 피싱 사이트로 접속하게 하거나 악성 바이러스를 유포하는 공격들이 있다. 이러한 악성 URL 공격을 탐지하는 방법은 중요한 보안 이슈 중에 하나이다. 최근 딥러닝 기술 중 뉴럴네트워크는 이미지 인식, 음성 인식, 패턴 인식 등에 좋은 성능을 보여주고 있고 이러한 뉴럴네트워크를 이용하여 악성 URL 탐지하는 분야가 연구되고 있다. 본 논문에서는 뉴럴네트워크를 이용한 악성 URL 탐지 성능을 각 파라미터 및 구조에 따라서 성능을 분석하였다. 뉴럴네트워크의 활성화함수, 학습률, 뉴럴네트워크 모델 등 다양한 요소들에 따른 악성 URL 탐지 성능에 어떠한 영향을 미치는 지 분석하였다. 실험 데이터는 Alexa top 1 million과 Whois에서 크롤링하여 데이터를 구축하였고 머신러닝 라이브러리는 텐서플로우를 사용하였다. 실험결과로 층의 개수가 4개이고 학습률이 0.005이고 각 층마다 노드의 개수가 100개 일 때, 97.8%의 accuracy와 92.94%의 f1 score를 갖는 것을 볼 수 있었다.

자동분류기반 성격 유형별 도서추천시스템 개발을 위한 실험적 연구 (A Experimental Study on the Development of a Book Recommendation System Using Automatic Classification, Based on the Personality Type)

  • 조현양
    • 한국도서관정보학회지
    • /
    • 제48권2호
    • /
    • pp.215-236
    • /
    • 2017
  • 이 연구의 목적은 개인별 성향이나 성격 유형에 따라 선호하는 도서에 차이가 있음을 전제로, 어린이 청소년을 위한 추천도서의 책소개 정보를 활용하여 개인별 성격유형에 적합한 도서를 합리적으로 추천할 수 있는 서평 자동분류시스템을 개발하는 것이다. 연구에서 사용한 데이터는 국립어린이청소년도서관에서 제공하는 501권의 유아 및 아동도서를 대상으로 하였다. 실험에 활용된 2가지 기계학습 모델(비선형 커널 및 선형 커널) 각각에 대해서 총 6가지의 색인어 가중치 계산 방법과 자질 선택 방법, 그리고 10가지의 자질 선정 임계치 조합으로 구성된 360개의 분류 모델들을 구성하고 각각의 성능을 측정하였다. 전체적으로는 선형 커널을 이용한 SVM 기반 학습 방법(LIBLINEAR)이 비선형 분류를 지원하는 LibSVM(RBF 커널) 모델보다 더 나은 성능을 보이는 것으로 나타났다. 다만 성능 측정 결과는 뉴스 기사나 논문을 대상으로 한 문헌 분류 성능에 비해서 낮은 것으로 나타났으나, 합리적인 분류 기준이 존재하는 뉴스기사나 주제 분류에 비해서 성격 유형 기반 분류는 그 난이도가 높다는 것을 감안할 때, 초기 실험 결과로서의 의미는 있다.

국내외 허위정보 연구동향 비교분석 (A Comparative Analysis of the Research Trends on Disinformation between Korea and Abroad)

  • 김희섭;강보라
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.291-315
    • /
    • 2019
  • 본 연구의 목적은 국내외 허위정보에 관한 연구동향을 비교분석하는 것이다. 이를 위하여 전학문 분야의 학술지를 대상으로 연구기간의 제한이 없이 국내논문 104편과 국외논문 861편에 나타난 저자가 부여한 영문키워드를 수집하였다. 국내논문에서 수집된 283개 영문키워드와 국외논문에서 수집된 3,551개 영문키워드는 NetMiner V.4를 사용하여 키워드 네트워크의 연결중심성과 매개중심성을 분석하였으며, 분석결과는 다음과 같다. 첫째, 연구 주제의 양적 측면에서 국내의 경우는 'Freedom of Expression', 'Fact Check', 'Regulation', 'Media Literacy', 'Information Literacy'로 순으로, 국외의 경우는 'Social Media', 'Post Truth', 'Propaganda', 'Information Literacy', 'Journalism' 순으로 나타났다. 둘째, 연구 주제의 영향력 측면에서 국내의 경우는 'Fact Check', 'Freedom of Expression', 'Hoax' 순으로, 국외의 경우는 'Social Media', 'Detection' 순으로 확인되었다. 마지막으로 연구 주제의 확장성 측면에서 국내의 경우는 'Fact Check', 'Polarization', 'Freedom of Expression', 'Commercial' 순으로 나타났다. 한편, 전체키워드에서 낮은 빈도를 보였던 'Commercial'이 'Media Literacy', 'Freedom of Expression' 등을 매개하며 상대적으로 매개역할정도가 큰 것으로 확인되었다. 국외의 경우는 'Social Media', 'Detection', 'Machine Learning'이 주요 연결다리로 나타났다.