• 제목/요약/키워드: KDD

검색결과 124건 처리시간 0.028초

Tri-training algorithm based on cross entropy and K-nearest neighbors for network intrusion detection

  • Zhao, Jia;Li, Song;Wu, Runxiu;Zhang, Yiying;Zhang, Bo;Han, Longzhe
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.3889-3903
    • /
    • 2022
  • To address the problem of low detection accuracy due to training noise caused by mislabeling when Tri-training for network intrusion detection (NID), we propose a Tri-training algorithm based on cross entropy and K-nearest neighbors (TCK) for network intrusion detection. The proposed algorithm uses cross-entropy to replace the classification error rate to better identify the difference between the practical and predicted distributions of the model and reduce the prediction bias of mislabeled data to unlabeled data; K-nearest neighbors are used to remove the mislabeled data and reduce the number of mislabeled data. In order to verify the effectiveness of the algorithm proposed in this paper, experiments were conducted on 12 UCI datasets and NSL-KDD network intrusion datasets, and four indexes including accuracy, recall, F-measure and precision were used for comparison. The experimental results revealed that the TCK has superior performance than the conventional Tri-training algorithms and the Tri-training algorithms using only cross-entropy or K-nearest neighbor strategy.

Network Traffic Measurement Analysis using Machine Learning

  • Hae-Duck Joshua Jeong
    • 한국인공지능학회지
    • /
    • 제11권2호
    • /
    • pp.19-27
    • /
    • 2023
  • In recent times, an exponential increase in Internet traffic has been observed as a result of advancing development of the Internet of Things, mobile networks with sensors, and communication functions within various devices. Further, the COVID-19 pandemic has inevitably led to an explosion of social network traffic. Within this context, considerable attention has been drawn to research on network traffic analysis based on machine learning. In this paper, we design and develop a new machine learning framework for network traffic analysis whereby normal and abnormal traffic is distinguished from one another. To achieve this, we combine together well-known machine learning algorithms and network traffic analysis techniques. Using one of the most widely used datasets KDD CUP'99 in the Weka and Apache Spark environments, we compare and investigate results obtained from time series type analysis of various aspects including malicious codes, feature extraction, data formalization, network traffic measurement tool implementation. Experimental analysis showed that while both the logistic regression and the support vector machine algorithm were excellent for performance evaluation, among these, the logistic regression algorithm performs better. The quantitative analysis results of our proposed machine learning framework show that this approach is reliable and practical, and the performance of the proposed system and another paper is compared and analyzed. In addition, we determined that the framework developed in the Apache Spark environment exhibits a much faster processing speed in the Spark environment than in Weka as there are more datasets used to create and classify machine learning models.

CRF Based Intrusion Detection System using Genetic Search Feature Selection for NSSA

  • Azhagiri M;Rajesh A;Rajesh P;Gowtham Sethupathi M
    • International Journal of Computer Science & Network Security
    • /
    • 제23권7호
    • /
    • pp.131-140
    • /
    • 2023
  • Network security situational awareness systems helps in better managing the security concerns of a network, by monitoring for any anomalies in the network connections and recommending remedial actions upon detecting an attack. An Intrusion Detection System helps in identifying the security concerns of a network, by monitoring for any anomalies in the network connections. We have proposed a CRF based IDS system using genetic search feature selection algorithm for network security situational awareness to detect any anomalies in the network. The conditional random fields being discriminative models are capable of directly modeling the conditional probabilities rather than joint probabilities there by achieving better classification accuracy. The genetic search feature selection algorithm is capable of identifying the optimal subset among the features based on the best population of features associated with the target class. The proposed system, when trained and tested on the bench mark NSL-KDD dataset exhibited higher accuracy in identifying an attack and also classifying the attack category.

전주지역 노인의 식사의 질 평가에 관한 연구 (A Study on the Dietary Quality Assessment among the Elderly in Jeonju Area)

  • 김인숙;유현희;서은숙;서은아;이형자
    • Journal of Nutrition and Health
    • /
    • 제35권3호
    • /
    • pp.352-367
    • /
    • 2002
  • 전주 지역에 거주하는 65세 이상 노인 230명 (남자 73명 (31.7%) 여자 157(68.3%))을 대상으로 식생활 조사를 실시하여 식사의 질을 평가, 분석한 결과는 다음과 같다. 교육수준은 남자는 중-고졸이 47.9%, 여자는 초등졸 이하가 55.4% (p<0.001), 가구소득은 남자는 51~150만원이 49.3%, 여자는 50만원 이하가 54.3% (p<0.001), 용돈은 남자는 6~10만원이 31.5%, 여자는 5만원 이하가 30.2% (p<0.001), 가족형태가 43.3%로 각각 가장 높은 빈도를 보여 유의적인 차이(p<0.001)가 있었다. 하루에 섭취한 식품가지수인 DVS는 남녀 각각 19.6, 17.7로 남자가 여자보다 유의하게 높았다(p<0.05). 평균 1일 식품 총 섭취량은 남녀 각각 1492.5, 1204.2g으로, 당류, 채소류, 음료, 난류, 어패류, 유제품은 남자가 여자보다 (p<0.05~p<0.001), 해조류는 여자가 남자보다 유의적으로 많이 섭취하였다(p<0.05). 식물성;동물성 식품비율은 남녀 각각 85 : 15, 89 : 11로 식물 비율이 남녀 모두 높았다. DDS(곡류, 육류, 유제품, 채소류, 과일류)의 식품군별 패턴에서 남녀 모두 11011 (유제품만 섭취하지 않음)이 각각 47.9, 33.8%로 가장 많았으며, KDDS(곡류, 육류, 채소류, 유제품, 유지류)의 식품군별 패턴 1위는 11100 (곡류, 육류, 채소류는 섭취하고 유제품, 유지류는 섭취하지 않음)으로 남녀 각각 46.6, 31.8%였다. DDS는 남녀 각각 4.0, 3.7 (p<0.05), KDDS는 각각 3.5, 3.2 (p<0.01)로 KDDS가 DDS보다 낮았다. KDDS를 끼니별로 적용한 Meal balance 분류에서 very bad($\leq$6)가 남녀 각각 4.1, 21.7%, bad(7~9)는 각각 58.9, 55.4%, normal (10~13)은 34.2, 22.3%, good (14~15)은 2.7, 0.5% (p<0.01)로 여자가 남자보다 점수가 낮았으며, 평균 점수는 남녀 각각 9.1, 8.1 (p<0.001)로 매 끼니마다 식품을 다양하게 섭취하지 못하였다. 1일 평균 에너지 섭취량이 남녀 각각 1,740, 1,433 kcal (p<0.05)로, 권장량의 각각 84.0, 80.9%로 단백질 섭취량은 남녀 각각 67, 49 g(p<0.001)으로, 권장량의 각각 100.7, 88.3% (p<0.001)로 양호한 섭취를 보였다. 그러나, 칼슘은 권장량의 각각 62.7, 55.3% (p<0.001), 비타민 A는 각각 60.7, 53.9%이었다. 열량 구성 영양소인 단백질 : 지방 : 탄수화물의 비율이 남자는 15.8:15.7:68.5, 여자는 13.8:13.2:73:0으로 남자가 여자보다 단백질, 지방의 섭취비는 유의적으로 높고 (p<0.001), 탄수화물 비는 낮았다(p<0.01), 아침 : 점심 : 간식 : 저녁 : 밤참의 끼니별 에너지 배분을 보면 남자는 29.2 : 32.4 : 5.0 : 31.2 : 2.2, 여자는 30.5 : 33.5 : 4.5 : 28.6 : 2.9로 세끼 식사 중에 남녀 모두 점심이 차지하는 비율이 가장 높았다. 에너지 섭취를 고려한 INQ는 칼슘과, 비타민 A는 남녀 모두, 비타민 B$_2$는 여자가 1이하로 나타났다. 또한 NAR 중에서도 낮은 영양소는 비타민 A (남 0.52, 여 0.42 (p<0.05), 칼슘 (남 0.68, 여 0.54 (p<0.001)), 비타민 B$_2$(남 0.77, 여 0.67 (p<0.01))이었다. MAR은 남녀 각각 0.82, 0.73 (p<0.001)로 여자가 남자보다 낮았다. 이상의 결과를 종합해 볼 때 전주지역 노인들은 식품을 다양하게 섭취하지 못하였으며, 특히 유제품군과 유지류 섭취가 낮았다. 영양소 섭취는 대체로 양호하였으나, 비타민 B$_2$는 질적 평가에서, 칼슘과 비타민 A는 질과 양이 모두 낮은 영양소로 나타났으며 특히 여자의 경우는 권장량의 절반이하의 수준으로 나타났다. 따라서 이들 영양소의 섭취를 위해 효율적인 식품선택이나 추가 보충등의 방안이 모색되어야 할 것으로 보인다. DVS를 종속변수로 하고 DDS, KDDS, MBS를 독립변수로 하여 다중회귀분석 (Stepwise 방법)을 실시하여, 남자는 KDDS (p<0.001)가, 여자는 MBS, DDS(p<0.001) 순으로 채택되었다. MAR를 종속변수로 하고 DDS, KDDS, MBS를 독립변수로 하였을 때는 남자는 KDDS, DDS 순으로 (p<0.001), 여자는 MBS, DDS(p<0.001)순으로 채택되었다. 이것은 DDS보다는 KDDS가 전체 식품 가짓수를 가늠할 수 있으며, 영양소 섭취를 추정할 수 있는 것으로 생각한다. 즉, 우리나라 노인은 유지류 섭취빈도가 과일류보다 낮아 유지류 섭취 여부가 전체 식품 가짓수를 가늠할 수 있으며, 영양소 섭취를 추정할 수 있는 것으로 생각된다.

APEX 기반 침입 탐지 시스템 개발에 관한 연구 : (주)제이드 솔류션과 공동 연구 (A Study on Developing Intrusion Detection System Using APEX : A Collaborative Research Project with Jade Solution Company)

  • 김병주
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권1호
    • /
    • pp.38-45
    • /
    • 2017
  • 정보 처리 기술의 컴퓨터 및 네트워크 의존도가 심화됨에 따라 컴퓨터 및 네트워크에 대한 침입 사례가 갈수록 증가하고 있다. 시스템 및 네트워크의 침입을 방지하기 위하여 호스트와 네트워크 기반 침입차단시스템(방화벽 등)이 개발되었지만 기존의 규칙 기반의 침입차단시스템만으로는 보안 관리에 많은 어려움이 있다. 이러한 이유로 인해 시스템 및 네트워크 자원에 대한 침입을 실시간으로 탐지하고 이에 대처하는 침입탐지시스템 개발에 대한 요구가 증가하고 있다. 본 논문에서는 비선형 자료에도 적용 가능하며 수렴성이 보장된 실시간 특징 추출 방법으로 APEX 알고리즘과 점증적 LS-SVM 분류기를 결합한 실시간 침입탐지 시스템을 개발하였다. 일반적으로 실시간 처리 방식은 메모리의 효율성이 좋고 학습 자료의 추가를 허용하는 장점이 있지만 일괄처리 방식에 비해 정확도가 떨어지는 단점이 있다. 따라서 제안한 시스템은 정확도 면에서도 일괄 처리 방식과 비슷한 성능을 나타내고 있어 상용화가 가능한 시스템이다.

230KV 2회선승 111M 높이 철탑설계 (I) (강폭 12km인 Bangladesh Jamana강 횡단용) (The design of 111m high steel towers with 220kv double circuits crossing 12 km wide Bangladesh River)

  • 이재숙
    • 기술사
    • /
    • 제15권4호
    • /
    • pp.12-24
    • /
    • 1982
  • East Parts of Bangladesh have been benifited by low cost energy generated by domestic natural gas but West parts where energy generated by imported fuel. Bangladesh Government authority has very much concerned to transmit the low cost electricity to the West from the East for past several years. To solve such concerns, cross-country 230kv double circuits Power transmission line was proposed, however there was a big obstacle for the realization of this line to cross the Jamuna river which has 12 km long width with a deep muddy river bed. A consultant engineering firm named Merz-Mclellan anyway finalized this plan and a world-wide bid was announced on June 31, 1979. Due to the expected difficulty to construct the towers on sea like area, only three construction groups have participated. including a Korean joint venture organization of Samsung-Korean Developement corporation-Kolon Electric Machinery company. After 3 months bid evaluation, contract was awarded to Korean Consosium and KEM Co was in charge of designing steel towers with anchor bolts and base plates beside to electrical engineering field. Then KEM Co have faced and over-comed many unenpected technical difficulties such as forced eccentricity joint on base plate, distorsion issue of 60mm thick plates welding, threading anchor bolts, tad heat treatment of some anchor bolts, disagreement from Consultant Engineer on multiplying factor of leg stresses for 45$^{\circ}$ wind and on reducing O.L.F for wind loads on cables for such 1220km long spans. After spending two years long period for designing and engineering towers, base plates, and anchor bolts, first shipment of tower was finally realized on Nov. 8, 1981 and on the other hand KDD has proceeded concrete caisson work on schedule at Jamuna river site and expected to complete tower erection and stringing of cables within this year of 1982 which was original completion target.

  • PDF

HONCODE를 근거로 한 갑상선암에 대한 의료정보 제공사이트의 질 평가 (Evaluation of Thyroid Cancer Medical Information Sites using HONCODE)

  • 허준;정용규;신성철;김장일
    • 서비스연구
    • /
    • 제3권2호
    • /
    • pp.45-52
    • /
    • 2013
  • 정보통신기술의 발달과 함께, 인터넷의 사회 경제적 영향력 및 중요성이 급증하고 있으며, 이는 보건의료 분야에서도 다르지 않다. 인터넷상에서 건강정보가 증가하고, 이를 찾고 사용하는 사람들이 증가함에 따라 인터넷에서 제공되는 건강정보는 보건의료전문가, 정보전문가, 건강정보 소비자들의 관심 주제가 되고 있으며, 인터넷에서 제공되는 건강정보의 질 관리 및 올바른 활용을 위하여 건강정보의 질을 보장하거나 판단 시 필요한 기준, 제공시 필요한 기준들이 계속적으로 제시되고 있다. 본 논문은 HON(Health On the Net) Foundation에서 제정하고 있는 HONCODE를 이용하여 현재 국내 인터넷에 정보화 되어 있는 갑상선암에 대한 의료정보를 평가한다. 이를 통하여 갑상선암에 대한 의료정보 제공의 질 제고에 기어코자 한다.

  • PDF

A Novel Network Anomaly Detection Method based on Data Balancing and Recursive Feature Addition

  • Liu, Xinqian;Ren, Jiadong;He, Haitao;Wang, Qian;Sun, Shengting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.3093-3115
    • /
    • 2020
  • Network anomaly detection system plays an essential role in detecting network anomaly and ensuring network security. Anomaly detection system based machine learning has become an increasingly popular solution. However, due to the unbalance and high-dimension characteristics of network traffic, the existing methods unable to achieve the excellent performance of high accuracy and low false alarm rate. To address this problem, a new network anomaly detection method based on data balancing and recursive feature addition is proposed. Firstly, data balancing algorithm based on improved KNN outlier detection is designed to select part respective data on each category. Combination optimization about parameters of improved KNN outlier detection is implemented by genetic algorithm. Next, recursive feature addition algorithm based on correlation analysis is proposed to select effective features, in which a cross contingency test is utilized to analyze correlation and obtain a features subset with a strong correlation. Then, random forests model is as the classification model to detection anomaly. Finally, the proposed algorithm is evaluated on benchmark datasets KDD Cup 1999 and UNSW_NB15. The result illustrates the proposed strategies enhance accuracy and recall, and decrease the false alarm rate. Compared with other algorithms, this algorithm still achieves significant effects, especially recall in the small category.

CART를 이용한 Tree Model의 성능평가 (Using CART to Evaluate Performance of Tree Model)

  • 정용규;권나연;이영호
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.9-16
    • /
    • 2013
  • 데이터 분석가에게 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman이 개발한 의사결정나무를 들 수 있다. 의사결정나무에서 기본이 되는 2가지 핵심내용은 독립변수의 차원 공간을 반복적으로 분할하는 것과 평가용 데이터를 사용하여 가지치기를 하는 것이다. 분류문제에서 반응변수는 범주형 변수여야 한다. 반복적 분할은 변수 의 차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서 변수는 연속형, 이진 혹은 서열의 척도이다. 본 논문에서는 새로운 사례를 분류함에 있어서 분류의 성능을 평가하기 위해 분류나무의 정확도 정밀도 재현률 등을 실험하고자 한다.

  • PDF

지식 문서에서 도메인 온톨로지를 이용한 개념 추출 기법 (Concept Extraction Technique from Documents Using Domain Ontology)

  • 문현정;우용태
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.309-316
    • /
    • 2006
  • 본 논문에서는 도메인 온톨로지를 이용하여 XML 형식의 지식 문서를 분류하고 대표 개념을 효과적으로 추출하기 위한 기법을 제시하였다. 먼저, 도메인 온톨로지는 텍스트마이닝 기법과 통계적 기법을 이용하여 생성하였다. 이를 위해 XML 문서의 구조적인 특징을 이용하여 도메인 대표용어 집합을 구성하였다. 그리고 XML 문서를 효과적으로 분류하기 위한 DScore 기법과 지식 문서로부터 개념을 추출하기 위한 TScore 기법을 제시하였다. 본 논문에서 제안한 기법의 효율성을 검증하기 위하여 295편의 컴퓨터 관련 논문을 대상으로 실험하였다. 실험 결과, 본 연구에서 제안한 도메인 대표 용어 집합을 이용한 분류 결과가 기존의 방법보다 우수한 성능을 보였다. 특히 TScore기법에서는 문서에서 출현한 용어의 빈도수는 낮더라도 문서의 개념을 대표할 수 있는 용어를 효과적으로 추출할 수 있음을 보였다. 본 연구는 개념 기반의 검색 기법을 통하여 대량의 지식 문서를 효과적으로 관리하기 위한 지식 관리 모델에 적용할 수 있다.