• Title/Summary/Keyword: 자동화된 기계학습

Search Result 103, Processing Time 0.022 seconds

DL-ML Fusion Hybrid Model for Malicious Web Site URL Detection Based on URL Lexical Features (악성 URL 탐지를 위한 URL Lexical Feature 기반의 DL-ML Fusion Hybrid 모델)

  • Dae-yeob Kim
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.33 no.6
    • /
    • pp.881-891
    • /
    • 2023
  • Recently, various studies on malicious URL detection using artificial intelligence have been conducted, and most of the research have shown great detection performance. However, not only does classical machine learning require a process of analyzing features, but the detection performance of a trained model also depends on the data analyst's ability. In this paper, we propose a DL-ML Fusion Hybrid Model for malicious web site URL detection based on URL lexical features. the propose model combines the automatic feature extraction layer of deep learning and classical machine learning to improve the feature engineering issue. 60,000 malicious and normal URLs were collected for the experiment and the results showed 23.98%p performance improvement in maximum. In addition, it was possible to train a model in an efficient way with the automation of feature engineering.

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

신경컴퓨터(Neural Network)을 이용한 로보트 제어

  • 오세영
    • Information and Communications Magazine
    • /
    • v.9 no.11
    • /
    • pp.70-79
    • /
    • 1992
  • 제6세대 컴퓨터로 불리는 신경컴퓨터는 학습과 병렬처리에 의해 인간의 두뇌 기능을 모방한다. 인간의 두뇌는 시각인식, 음성인식, 촉각감지 등 패턴인식뿐 아니라 인간의 복잡한 신체구조를 시각, 촉각 같은 감각기관의 도움을 얻어 움직이는 중요한 역할도 한다. 바로 이 모터제어(motor control) 역시 신경회로가 담당하기 때문에 이를 기계적 신체에 해당하는 로보트 또는 광범위하게 기계, 비행기, 산업공정에 응용하는 것은 매우 자연스럽게 보인다. 이처럼 신경회로가 제어에 응용되는 것을 신경제어 (neurocontrol)라 하고 이를 이용한 기계를 지능기계(intelligent machinery)라 한다. 지능기계는 기본적으로 인간처럼 경험축적 학습 불확실한 환경에서의 적응 자기진단 등의 장점을 가지고 있다. 신경회로의 지극히 광범위한 응용분야중 신경제어는 가장 먼저 실현될 가능성이 높다. 실제로 로보트나 공정제어(process control)처럼 복잡한 비선형 시스템의 제어는 다량의 센서 정보에 기초한 실시간 제어를 필수로 하며 이는 신경회로를 사용함으로써 가장 효율적, 경제적으로 구현할 수 있다. 실제로 신경제어는 전세계적으로 이미 시스템 제어에 응용되어 좋은 결과를 내고 있다. 신경회로의 로보트나 자동화 응용은 학술적인 측면에서는 복잡한 비선형 시스템의 지능제어 (intelligent control)문제에 대한 신선한 해결책을 마련해줄 뿐 아니라 산업자동화라는 막대한 시장을 뒤로 하고 있어 이론에서 실제에 걸쳐 가장 광범위한 파급효과를 가지는 최첨단 기술로 보여진다. 고부가가치 상품을 통한 국제 경쟁력 제고의 차원에서도 정부, 기업 등의 과감한 연구 개발투자가 선행되어야 한다. 특히 이 분야의 연구는 선진국도 최근에 시작한 점으로 보아 정부, 기업이 이에 대한 연구 개발투자를 현명하게 할 경우에 세계적 기술 경쟁력도 확보할 수 있을 것이다. 본 해설에서는 로보트 및 시스템 제어에 관한 기초 이론을 설명하고 신경회로 적용기술을 소개하고 기존 방법과 비교 했을 때의 우월성, 전세계적인 응용연구, 국내외 연구개발 현황, 상업화 가능성, 산업계 응용례, 기술상의 문제점, 향후 전망 등을 다루기로 한다.

  • PDF

Development and Verification of Smart Greenhouse Internal Temperature Prediction Model Using Machine Learning Algorithm (기계학습 알고리즘을 이용한 스마트 온실 내부온도 예측 모델 개발 및 검증)

  • Oh, Kwang Cheol;Kim, Seok Jun;Park, Sun Yong;Lee, Chung Geon;Cho, La Hoon;Jeon, Young Kwang;Kim, Dae Hyun
    • Journal of Bio-Environment Control
    • /
    • v.31 no.3
    • /
    • pp.152-162
    • /
    • 2022
  • This study developed simulation model for predicting the greenhouse interior environment using artificial intelligence machine learning techniques. Various methods have been studied to predict the internal environment of the greenhouse system. But the traditional simulation analysis method has a problem of low precision due to extraneous variables. In order to solve this problem, we developed a model for predicting the temperature inside the greenhouse using machine learning. Machine learning models are developed through data collection, characteristic analysis, and learning, and the accuracy of the model varies greatly depending on parameters and learning methods. Therefore, an optimal model derivation method according to data characteristics is required. As a result of the model development, the model accuracy increased as the parameters of the hidden unit increased. Optimal model was derived from the GRU algorithm and hidden unit 6 (r2 = 0.9848 and RMSE = 0.5857℃). Through this study, it was confirmed that it is possible to develop a predictive model for the temperature inside the greenhouse using data outside the greenhouse. In addition, it was confirmed that application and comparative analysis were necessary for various greenhouse data. It is necessary that research for development environmental control system by improving the developed model to the forecasting stage.

Machine Learning based on Approach for Classification of Abnormal Data in Shop-floor (제조 현장의 비정상 데이터 분류를 위한 기계학습 기반 접근 방안 연구)

  • Shin, Hyun-Juni;Oh, Chang-Heon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2037-2042
    • /
    • 2017
  • The manufacturing facility is generally operated by a pre-set program under the existing factory automation system. On the other hand, the manufacturing facility must decide how to operate autonomously in Industry 4.0. Determining the operation mode of the production facility itself means, for example, that it detects the abnormality such as the deterioration of the facility at the shop-floor, prediction of the occurrence of the problem, detection of the defect of the product, In this paper, we propose a manufacturing process modeling using a queue for detection of manufacturing process abnormalities at the shop-floor, and detect abnormalities in the modeling using SVM, one of the machine learning techniques. The queue was used for M / D / 1 and the conveyor belt manufacturing system was modeled based on ${\mu}$, ${\lambda}$, and ${\rho}$. SVM was used to detect anomalous signs through changes in ${\rho}$.

Web Page Classification System based upon Ontology (온톨로지 기반의 웹 페이지 분류 시스템)

  • Choi Jaehyuk;Seo Haesung;Noh Sanguk;Choi Kyunghee;Jung Gihyun
    • The KIPS Transactions:PartB
    • /
    • v.11B no.6
    • /
    • pp.723-734
    • /
    • 2004
  • In this paper, we present an automated Web page classification system based upon ontology. As a first step, to identify the representative terms given a set of classes, we compute the product of term frequency and document frequency. Secondly, the information gain of each term prioritizes it based on the possibility of classification. We compile a pair of the terms selected and a web page classification into rules using machine learning algorithms. The compiled rules classify any Web page into categories defined on a domain ontology. In the experiments, 78 terms out of 240 terms were identified as representative features given a set of Web pages. The resulting accuracy of the classification was, on the average, 83.52%.

Research on Identifying Mutation-Drug Relationship in Biomedical Literature Using Biomedical Context based pre-trained word embedding (의생명과학 기반 기학습된 워드 임베딩을 이용한 의생명과학 논문 속의 돌연변이-약물 관계 추출 연구)

  • Kim, Hojun;Won, Seongyeon;Gang, Seungwoo;Lee, Kyubum;Kim, Byounggun;Kim, Sunkyu;Kang, Jaewoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.774-777
    • /
    • 2017
  • 의생명과학분야가 계속 발전됨에 따라 매일 평균 3천여 편에 달하는 방대한 양의 의생명과학분야 문헌들이 나오고 있다. 많은 연구가 진행될수록, 새로이 규명된 관계를 습득하고 체계화하는 일이 연구자와 의료계 종사자들에게 더 중요해지고 있다. 하지만 현재로서는 의생명과학분야에 어느 정도의 지식이 있는 사람이 직접 논문을 읽고 해당 논문에서 밝히고 있는 정보를 정리해야만 하는 상황이며, 이로는 기하급수적으로 쌓이는 정보의 양을 대처하기 어렵다. 이를 해결하기 위해 본 논문에서는 기계 학습을 통한 생명의료 객체관계 자동추출 연구를 이용하여 의생명과학분야의 정보를 체계화 하고자 한다. 본 논문에서는 돌연변이와 약물이 함께 등장하는 논문을 뽑아내어 글을 자연어 문장 단위로 나누었다. 추출한 돌연변이와 약물 간의 관계를 직접 사람에 의해 참거짓을 판명하였고, 해당 데이터셋을 기계학습에 이용하여 돌연변이와 약물 간의 관계를 학습시켰다. 최종적으로 GoogleNews의 기사들로 기학습된 워드임베딩, 의생명과학분야 문헌들을 이용하여 기학습된 워드임베딩을 이용하여 학습의 성능을 비교하였고, 의생명과학-문맥 특이적인 워드임베딩이 갖는 강점을 보고한다. 해당 연구를 통해 실제로 논문을 읽지 않고도 의생명과학분야 논문의 핵심적인 내용을 뽑아내는 자동화 시스템을 구축하는 데에 이바지하고, 의생명공학 연구자들의 연구에 핵심적인 도움이 되는 디딤돌이 되고자 한다.

Kochat: Korean Goal-oriented Chatbot Framework (Kochat: 한국어 목적지향 챗봇 프레임워크)

  • Ko, Hyunwoong;Park, Kyubyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.596-599
    • /
    • 2021
  • 목적지향 챗봇은 일상생활의 많은 부분을 자동화하기 위해 우리의 삶에 널리 보급되고 있다. 그러나 목적지향 챗봇은 보통 많은 모듈이 연결된 파이프라인의 형태로 구현되기 때문에 기계학습 초보자 혹은 비전문가가 직접 구현하기에는 어려운 편이다. 때문에 모든 모듈을 직접 구현하기보다는 유료 챗봇 빌더나 오픈소스 프레임워크를 통해 구현된다. 현재 영어는 몇 가지 오픈소스가 존재하지만 한국어는 관련 오픈소스가 전무한 상황이다. 본 논문에서는 이러한 문제를 해결하기 위해 한국어 전용 오픈소스 목적지향 챗봇 프레임워크인 Kochat 을 제안한다. 사용자는 Kochat 을 이용하여 약 20~30 줄의 코드만으로 손쉽게 자신만의 목적지향 챗봇을 학습 및 배포할 수 있다. 모든 소스코드와 문서는 https://github.com/hyunwoongko/kochat에서 확인할 수 있으며, 추가로 논문의 말미에 후속 연구에 대해서도 논의한다.

A Study on Generation of Adaptive Rule Base and its Dynamic Application (적응하는 규책베이스의 생성 및 이의 동적 활용에 관한 연구)

  • 조선영
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.4 no.1
    • /
    • pp.50-63
    • /
    • 1994
  • 기존의 지식 기반 시스템들은 그 지식의 형태를 대부분 규책을 통해서 처리하고 있다. 그리고 이런 규책들은 일반적으로 사람에 의해서 외부에서 주어진며 주어진 규칙은 학습이 진행됨에 따라 그 형태가 바뀌게 된다. 그러나 실생활에서 일어나는 대부분의 일들은 주어진 한정된 수의 규칙에 의해서만 수행되기보다는 반복수행 또는 점진적인 학습에 의해서 동적으로 그 수와 적용범위가 바뀌게 된다. 본 논문에서는 외부로부터 얻어지는 데이터를 통해서 그들 사이의 관계를 알아내고, 이를 통해 새로운 규칙을 생성하며, 계속적으로 학습이 진행됨에 따라서 능동적으로 규칙의 수와 적용범위가 변화하는 시스템을 제안한다. 동적 규칙 생성시스템의 유용성을 검증하기 위해서, 세 선분이 연결된 막대기의 한쪽 끝을 고정시킨 상태에서, 다른 쪽 끝이 원하는 위치에 도달하게 하는 문제에 적용하여 로보트 팔의 자동 조절 및 기계 학습의 자동화에 기여할 수 있음을 보여준다.

  • PDF

CNN-based Automatic Machine Fault Diagnosis Method Using Spectrogram Images (스펙트로그램 이미지를 이용한 CNN 기반 자동화 기계 고장 진단 기법)

  • Kang, Kyung-Won;Lee, Kyeong-Min
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.21 no.3
    • /
    • pp.121-126
    • /
    • 2020
  • Sound-based machine fault diagnosis is the automatic detection of abnormal sound in the acoustic emission signals of the machines. Conventional methods of using mathematical models were difficult to diagnose machine failure due to the complexity of the industry machinery system and the existence of nonlinear factors such as noises. Therefore, we want to solve the problem of machine fault diagnosis as a deep learning-based image classification problem. In the paper, we propose a CNN-based automatic machine fault diagnosis method using Spectrogram images. The proposed method uses STFT to effectively extract feature vectors from frequencies generated by machine defects, and the feature vectors detected by STFT were converted into spectrogram images and classified by CNN by machine status. The results show that the proposed method can be effectively used not only to detect defects but also to various automatic diagnosis system based on sound.