• 제목/요약/키워드: Long Short-term Memory (LSTM)

검색결과 495건 처리시간 0.02초

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.

Adverse Effects on EEGs and Bio-Signals Coupling on Improving Machine Learning-Based Classification Performances

  • SuJin Bak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.133-153
    • /
    • 2023
  • 본 논문에서 우리는 뇌 신호 측정 기술 중 하나인 뇌전도를 활용한 새로운 접근방식을 제안한다. 전통적으로 연구자들은 감정 상태의 분류성능을 향상시키기 위해 뇌전도 신호와 생체신호를 결합해왔다. 우리의 목표는 뇌전도와 결합된 생체신호의 상호작용 효과를 탐구하고, 뇌전도+생체신호의 조합이 뇌전도 단독사용 또는 임의로 생성된 의사 무작위 신호와 결합한 경우에 비해 감정 상태의 분류 정확도를 향상시킬 수 있는지를 확인한다. 네 가지 특징추출 방법을 사용하여 두 개의 공개 데이터셋에서 얻은 데이터 기반의 뇌전도, 뇌전도+생체신호, 뇌전도+생체신호+무작위신호, 및 뇌전도+무작위신호의 네 가지 조합을 조사했다. 감정 상태 (작업 대 휴식 상태)는 서포트 벡터 머신과 장단기 기억망 분류기를 사용하여 분류했다. 우리의 결과는 가장 높은 정확도를 가진 서포트 벡터 머신과 고속 퓨리에 변환을 사용할 때 뇌전도+생체신호의 평균 오류율이 뇌전도+무작위신호와 뇌전도 단독 신호만을 사용한 경우에 비해 각각 4.7% 및 6.5% 높았음을 보여주었다. 우리는 또한 다양한 무작위 신호를 결합하여 뇌전도+생체신호의 오류율을 철저하게 분석했다. 뇌전도+생체신호+무작위신호의 오류율 패턴은 초기에는 깊은 이중 감소 현상으로 인해 감소하다가 차원의 저주로 인해 증가하는 V자 모양을 나타냈다. 결과적으로, 우리의 연구 결과는 뇌파와 생체신호의 결합이 항상 유망한 분류성능을 보장할 수 없음을 시사한다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

딥러닝 기법을 이용한 제주도 중제주수역 지하수위 예측 모델개발 (Development of Deep-Learning-Based Models for Predicting Groundwater Levels in the Middle-Jeju Watershed, Jeju Island)

  • 박재성;정지호;정진아;김기홍;신재현;이동엽;정새봄
    • 지질공학
    • /
    • 제32권4호
    • /
    • pp.697-723
    • /
    • 2022
  • 본연구에서는 제주도의 중제주 수역 내에 위치하는 총 12개 지하수 관정에서 미래 30일 기간의 지하수위를 예측할 수 있는 모델을 개발하였다. 예측 모델개발을 위해 시계열 예측에 적합한 딥러닝 기법의 하나인 누적 장단기 메모리(stacked-LSTM) 기법을 이용하였으며, 2001년에서 2022년 동안 관측된 일 단위 강수량, 지하수 이용량 및 지하수위 자료가 예측 모델개발에 활용되었다. 특히, 본 연구에서는 입력자료의 종류 및 과거 자료의 순차 길이에 따라 다양한 모델을 구축하고 성능을 비교함으로써 딥러닝 기반 예측 모델개발에서 고려하여야 할 사항에 대한 검토와 절차를 제시하였다. 예측 모델개발 결과, 강수량, 지하수 이용량 및 과거 지하수위를 모두 입력자료로 활용하는 모델의 예측성능이 가장 뛰어난 것으로 확인되었으며, 입력으로 활용되는 과거 자료의 순차가 길수록 예측의 성능이 향상됨을 확인하였다. 이는 제주도의 깊은 지하수위 심도로 인하여 강수와 지하수 함양 간 지연시간이 길기 때문으로 판단된다. 이뿐만 아니라, 지하수 이용량 자료의 경우, 모든 이용량 자료를 활용하는 것보다 예측하고자 하는 지점의 지하수위에 민감한 영향을 주는 관정을 선별하여 입력자료로 이용하는 것이 예측 모델의 성능 개선에 긍정적 영향을 주는 것을 확인하였다. 본 연구에서 개발된 지하수위 예측 모델은 현재의 강수량 및 지하수 이용량을 기반으로 미래의 지하수위를 예측할 수 있어 미래의 지하수량에 대한 건전성 정보를 제공함에 따라 적정 지하수량 유지를 위한 다양한 관리방안 마련에 도움이 될 것으로 판단된다.

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.