• 제목/요약/키워드: Supervised learning

검색결과 747건 처리시간 0.026초

비지도학습 오토 엔코더를 활용한 네트워크 이상 검출 기술 (Network Anomaly Detection Technologies Using Unsupervised Learning AutoEncoders)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.617-629
    • /
    • 2020
  • 인터넷 컴퓨팅 환경의 변화, 새로운 서비스 출현, 그리고 지능화되어 가는 해커들의 다양한 공격으로 인한 규칙 기반 침입탐지시스템의 한계점을 극복하기 위해 기계학습 및 딥러닝 기술을 활용한 네트워크 이상 검출(NAD: Network Anomaly Detection)에 대한 관심이 집중되고 있다. NAD를 위한 대부분의 기존 기계학습 및 딥러닝 기술은 '정상'과 '공격'으로 레이블링된 훈련용 데이터 셋을 학습하는 지도학습 방법을 사용한다. 본 논문에서는 공격의 징후가 없는 일상의 네트워크에서 수집할 수 있는 레이블링이 필요 없는 데이터 셋을 이용하는 비지도학습 오토 엔코더(AE: AutoEncoder)를 활용한 NAD 적용 가능성을 제시한다. AE 성능을 검증하기 위해 NSL-KDD 훈련 및 시험 데이터 셋을 사용해 정확도, 정밀도, 재현율, f1-점수, 그리고 ROC AUC (Receiver Operating Characteristic Area Under Curve) 값을 보인다. 특히 이들 성능지표를 대상으로 AE의 층수, 규제 강도, 그리고 디노이징 효과 등을 분석하여 레퍼런스 모델을 제시하였다. AE의 훈련 데이터 셋에 대한 재생오류 82-th 백분위수를 기준 값으로 KDDTest+와 KDDTest-21 시험 데이터 셋에 대해 90.4%와 89% f1-점수를 각각 보였다.

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

제한된 라벨 데이터 상에서 다중-태스크 반 지도학습을 사용한 동작 인지 모델의 성능 향상 (Improving Human Activity Recognition Model with Limited Labeled Data using Multitask Semi-Supervised Learning)

  • ;;이석룡
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.137-147
    • /
    • 2018
  • 기계 학습을 통한 인간 동작 인지 (human activity recognition) 시스템에서 중요한 요소는 충분한 양의 라벨 데이터 (labeled data)를 확보하는 것이다. 그러나 라벨 데이터를 확보하는 일은 많은 비용과 시간을 필요로 한다. 매우 적은 수의 라벨 데이터를 가지고 있는 새로운 환경 (타겟 도메인)에서 동작 인지 시스템을 구축하는 경우, 기존의 환경 (소스 도메인)의 데이터나 이 환경에서 학습된 분류기(classifier)를 사용하는 것은 도메인이 서로 다르기 때문에 바람직하지 않다. 기존의 기계 학습 방법들이 이러한 문제를 해결할 수 없으므로 전이 학습 (transfer learning) 방법이 제시되었으며, 이 방법에서는 소스 도메인에서 확보한 지식을 활용하여 타겟 도메인에서의 분류기 성능을 높이도록 하고 있다. 본 논문에서는 다중 태스크 신경망 (multitask neural network)을 사용하여 매우 제한된 수의 데이터만으로 정확도가 높은 동작 인지 분류기를 생성하는 전이 학습방법을 제안한다. 이 방법에서는 소스 및 타겟 도메인 분류기의 손실 함수 최소화가 별개의 태스크로 간주된다. 즉, 하나의 신경망을 사용하여 두 태스크의 손실 함수를 동시에 최소화하는 방식으로 지식 전이(knowledge transfer)가 일어나게 된다. 또한, 제안한 방법에서는 모델 학습을 위하여 비지도 방식(unsupervised manner)으로 라벨이 부여되지 않은 데이터를 활용한다. 실험 결과, 제안한 방법은 기존의 방법에 비하여 일관적으로 우수한 성능을 보여주고 있다.

비지도 학습 기반의 임베딩과 오토인코더를 사용한 침입 탐지 방법 (Intrusion Detection Method Using Unsupervised Learning-Based Embedding and Autoencoder)

  • 이준우;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.355-364
    • /
    • 2023
  • 최근 지능화된 사이버 위협이 지속적으로 증가함에 따라 기존의 패턴 혹은 시그니처 기반의 침입 탐지 방식은 새로운 유형의 사이버 공격을 탐지하는데 어려움이 있다. 따라서 데이터 학습 기반 인공지능 기술을 적용한 이상 징후 탐지 방법에 관한 연구가 증가하고 있다. 또한 지도학습 기반 이상 탐지 방식은 학습을 위해 레이블 된 이용 가능한 충분한 데이터를 필요로 하기 때문에 실제 환경에서 사용하기에는 어려움이 있다. 최근에는 정상 데이터로 학습하고 데이터 자체에서 패턴을 찾아 이상 징후를 탐지하는 비지도 학습 기반의 방법에 대한 연구가 활발히 진행되고 있다. 그러므로 본 연구는 시퀀스 로그 데이터로부터 유용한 시퀀스 정보를 보존하는 잠재 벡터(Latent Vector)를 추출하고, 추출된 잠재 벡터를 사용하여 이상 탐지 학습 모델을 개발하는데 있다. 각 시퀀스의 특성들에 대응하는 밀집 벡터 표현을 생성하기 위하여 Word2Vec을 사용하였으며, 밀집 벡터로 표현된 시퀀스 데이터로부터 잠재 벡터를 추출하기 위하여 비지도 방식의 오토인코더(Autoencoder)를 사용하였다. 개발된 오토인코더 모델은 시퀀스 데이터에 적합한 순환신경망 GRU(Gated Recurrent Unit) 기반의 잡음 제거 오토인코더, GRU 네트워크의 제한적인 단기 기억문제를 해결하기 위한 1차원 합성곱 신경망 기반의 오토인코더 및 GRU와 1차원 합성곱을 결합한 오토인코더를 사용하였다. 실험에 사용된 데이터는 시계열 기반의 NGIDS(Next Generation IDS Dataset) 데이터이며, 실험 결과 GRU 기반의 오토인코더나, 1차원 합성곱 기반의 오토인코더를 사용한 모델보다 GRU와 1차원 합성곱을 결합한 오토인코더가 훈련 데이터로부터 유용한 잠재 패턴을 추출하기 위한 학습 시간적 측면에서 효율적이었고 이상 탐지 성능 변동의 폭이 더 작은 안정된 성능을 보였다.

Tokamak plasma disruption precursor onset time study based on semi-supervised anomaly detection

  • X.K. Ai;W. Zheng;M. Zhang;D.L. Chen;C.S. Shen;B.H. Guo;B.J. Xiao;Y. Zhong;N.C. Wang;Z.J. Yang;Z.P. Chen;Z.Y. Chen;Y.H. Ding;Y. Pan
    • Nuclear Engineering and Technology
    • /
    • 제56권4호
    • /
    • pp.1501-1512
    • /
    • 2024
  • Plasma disruption in tokamak experiments is a challenging issue that causes damage to the device. Reliable prediction methods are needed, but the lack of full understanding of plasma disruption limits the effectiveness of physics-driven methods. Data-driven methods based on supervised learning are commonly used, and they rely on labelled training data. However, manual labelling of disruption precursors is a time-consuming and challenging task, as some precursors are difficult to accurately identify. The mainstream labelling methods assume that the precursor onset occurs at a fixed time before disruption, which leads to mislabeled samples and suboptimal prediction performance. In this paper, we present disruption prediction methods based on anomaly detection to address these issues, demonstrating good prediction performance on J-TEXT and EAST. By evaluating precursor onset times using different anomaly detection algorithms, it is found that labelling methods can be improved since the onset times of different shots are not necessarily the same. The study optimizes precursor labelling using the onset times inferred by the anomaly detection predictor and test the optimized labels on supervised learning disruption predictors. The results on J-TEXT and EAST show that the models trained on the optimized labels outperform those trained on fixed onset time labels.

ETOM+RPost기반의 문서분류시스템의 설계 및 구현 (Design and Implementation of Text Classification System based on ETOM+RPost)

  • 최윤정
    • 한국산학기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.517-524
    • /
    • 2010
  • 최근의 컴퓨터 기술과 인터넷 기술의 발달로 인해 분석 데이터가 급속도로 증가함에 따라 이들을 다루기 위한 자동분류시스템에 대한 요구가 높다. 문서분류시스템은 감독학습이 필수적이기 때문에 최소한의 전문가의 개입만으로도 높은 정확도가 보장되는 자동화 시스템에 대한 요구가 크다. 반면, 분류할 데이터들은 형식이나 내용상으로 그 복잡도가 높아지고 있어서, 일반적인 분류방법으로는 좋은 분석결과를 얻기 어려운 양상을 보인다. 특히 스팸성 데이터와 같이 어떠한 의도가 반영되어 가공되거나 변형되는 데이터는 분석의 어려움을 가중시킨다. 본 논문에서는 분류알고리즘의 성능향상을 위해 제안한 ETOM과 RPost방법을 구현하였다. 분류의 경계선 상에 있는 스팸문서들에 구현시스템을 적용하여 그 과정을 분석하였다. 실험결과 제안방법에 의한 정확도가 0.795에서 0.93으로 약 16%의 증가하였음을 확인하였다.

지역 투자 정책을 이용한 강화학습 기반 동적 자산 할당 기법 (A Dynamic Asset Allocation Method based on Reinforcement learning Exploiting Local Traders)

  • 오장민;이종우;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.693-703
    • /
    • 2005
  • 본 논문에서는 패턴 기반의 다수의 주가 예측 모델에 기반한 지역 투자자의 효율적인 결합을 통해, 거래 성능을 최대화 할 수 있는 동적 자산 할당 기법을 연구하였다. 각 예측 모델이 추천한 후보 종목에 효과적인 거래 대금 비율을 할당하는 메타 정책(meta policy)이라는 자산 할당 정책을 강화 학습 틀내에서 정의하였다. 이를 위해 각 예측 모델의 추천 종목 수와 전체 자산 대비 주식 자금 비율을 동시에 활용하는 상태 공간을 설계하였다. 대한민국 주식 시장에 대한 시뮬레이션 실험을 통해, 본 논문에서 제안한 자산 할당 정책은 기존의 고정 자산 할당 방법들에 비해 우수한 성능을 보임을 제시 하였다. 이는 강화학습을 통한 지역 투자자의 결합을 통해 의사 결정 문제에서 감독자 학습 기법으로 학습된 예측 모델의시너지 효과를 거둘 수 있음을 의미한다.

LBG 알고리즘 기반 데이터마이닝을 이용한 네트워크 침입 탐지율 향상 (Improvement of Network Intrusion Detection Rate by Using LBG Algorithm Based Data Mining)

  • 박성철;김준태
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.23-36
    • /
    • 2009
  • 네트워크 침입 탐지는 데이터마이닝 기법을 활용하면서 지속적으로 발전하여 왔다. 데이터마이닝에 의한 침입 탐지 기법에는 클래스 레이블을 이용한 감독 학습과 클래스 레이블이 없는 비감독 학습 방법이 있다. 본 논문에서는 클래스 레이블이 없는 비감독 학습 방법인 LBG 클러스터링 알고리즘을 이용하여 네트워크 침입 탐지 정확도를 높이는 방법을 연구하였다. 임의의 초기 중심값들로 시작하여 유클리디언 거리 기반에 의해 클러스터링을 수행하는 K-means 방법은 잡음(noisy) 데이터와 이상치(outlier)에 대하여 취약하다는 단점이 있다. 비균일이진 분할에 의한 클러스터링 알고리즘은 초기값 없이 이진분할에 의해 클러스터링을 수행하며 수행 속도가 빠르다. 본 논문에서는 이 두 알고리즘의 장단점을 통합한 EM(Expectation Maximization) 기반의 LBG 알고리즘을 네트워크 침입 탐지에 적용하였으며, KDD 컵 데이터셋을 대상으로 한 실험을 통하여 LBG 알고리즘을 이용함으로써 침입 탐지의 정확도를 높일 수 있음을 보였다.

  • PDF

동적인 임계화 방법과 개선된 학습 알고리즘의 신경망을 이용한 차량 번호판 인식 (Recognition of Car License Plate by Using Dynamical Thresholding and Neural Network with Enhanced Learning Algorithm)

  • 김광백;김영주
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.119-128
    • /
    • 2002
  • 본 논문에서는 차량 영상으로부터 동적인 임계화 방법과 개선된 성능의 학습 알고리즘에 의한 신경망을 이용하여 차량 번호판 인식방법을 제안하였다. 제안된 방법에서 번호판 영역은 차량 영상의 구조적 속성을 이용한 동적인 임계화 방법과 밀집비율을 함께 고려하여 추출하였다. 추출된 영역으로부터의 개별문자와 숫자는 윤곽선 추적 알고리즘을 이용하여 각각 추출하였으며, 그들의 인식을 위해서 수정된 ART1과 지도 학습 방법을 결합한 개선된 성능의 신경망을 이용하였다. 제안된 방법의 성능을 확인하기 위해서 실제 차량 번호판들을 대상으로 실험한 결과, 기존의 그레이 명암이나 RGB 컬러 정보들을 이용하는 방법보다 추출률이 개선되었으며, 인식성능도 기존의 오류 역전파 알고리즘의 신경망보다 우수한 성능이 있음을 확인하였다.

심층 컨볼루셔널 신경망 기반의 빗줄기 검출 기법 (Rain Detection via Deep Convolutional Neural Networks)

  • 손창환
    • 전자공학회논문지
    • /
    • 제54권8호
    • /
    • pp.81-88
    • /
    • 2017
  • 본 논문에서는 단일 영상에서 빗줄기가 포함된 영역을 검출하기 위한 빗줄기 검출 기법을 제시하고자 한다. 특히 빗줄기가 포함된 패치와 그렇지 않은 패치들을 각각 수집한 후에 지도 학습 기반으로 심층 컨볼루셔널 신경망을 훈련시키고 빗줄기 영역을 검출하는 과정에 대해 자세히 소개하고자 한다. 또한 제안한 심층 컨볼루셔널 신경망 기반의 빗줄기 검출 기법이 기존의 사전 학습 기반의 빗줄기 검출 기법과 비교해서 저주파 영역에서 빗줄기 검출 성능이 더 우수함을 보이고자 한다. 그리고 제안한 빗줄기 검출 기법을 빗줄기 제거 분야에 적용해봄으로써 기존의 사전 학습 기반의 빗줄기 검출 기법보다 저주파 영역에서 디테일한 성분을 더 정확하게 묘사할 수 있음을 보여주고자 한다. 부가적으로 본 논문에서는 원본 영상에 빗줄기 패턴을 삽입하여 비가 내리는 시각적인 효과를 줄 수 있는 빗줄기 천이 기법에 대해서도 소개하고자 한다. 제안한 빗줄기 천이 기법은 빗줄기 영상 데이터베이스를 구축할 때 빗줄기의 다양한 패턴을 확보하는 데 유용하게 사용이 될 수 있다.