• 제목/요약/키워드: machine learning

검색결과 5,177건 처리시간 0.034초

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.

Zero-Shot 기반 기계번역 품질 예측 연구 (Study on Zero-shot based Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.35-43
    • /
    • 2021
  • 최근 다언어모델(Cross-lingual language model)을 활용하여 한 번도 보지 못한 특정 언어의 하위 태스크를 수행하는 제로샷 교차언어 전이(Zero-shot cross-lingual transfer)에 대한 관심이 증가하고 있다. 본 논문은 기계번역 품질 예측(Quality Estimation, QE)을 학습하기 위한 데이터 구축적 측면에서의 한계점을 지적하고, 데이터를 구축하기 어려운 상황에서도 QE를 수행할 수 있도록 제로샷 교차언어 전이를 수행한다. QE에서 제로샷을 다룬 연구는 드물며, 본 논문에서는 교차언어모델을 활용하여 영어-독일어 QE 데이터에 대해 미세조정을 실시한 후 다른 언어쌍으로의 제로샷 전이를 진행했고 이 과정에서 다양한 다언어모델을 활용하여 비교 연구를 수행했다. 또한 다양한 자원 크기로 구성된 언어쌍에 대해 제로샷 실험을 진행하고 실험 결과에 대해 언어별 언어학적 특성 관점으로의 분석을 수행하였다. 실험결과 multilingual BART와 multillingual BERT에서 가장 높은 성능을 보였으며, 특정 언어쌍에 대해 QE 학습을 전혀 진행하지 않은 상황에서도 QE를 수행할 수 있도록 유도하였다.

위성 정보를 활용한 도심 지역 기온자료 지도화를 위한 인공신경망 적용 연구 (A study of artificial neural network for in-situ air temperature mapping using satellite data in urban area)

  • 전현호;정재환;조성근;최민하
    • 한국수자원학회논문집
    • /
    • 제55권11호
    • /
    • pp.855-863
    • /
    • 2022
  • 본 연구에서는 서울시 기온 지상관측 자료의 지도화를 위해 Artificial Neural Network (ANN)을 사용하였다. 지도화를 위한 보조자료로는 MODerate resolution Imaging Spectroradiometer (MODIS) 자료를 사용하였다. ANN 모델 설계를 위해 입력자료와 출력자료 간의 산점도 및 통계분석을 수행하였으며, 기온과의 상관성이 비교적 높게 나타나는 입력자료인 지표면온도, Normalized Difference Vegetation Index (NDVI), Enhanced Vegetation Index (EVI)와 시간(위성관측시각, Day of year), 위치(위도, 경도), 데이터 품질(운량)과 관련된 데이터 종류를 분류 및 조합하여 학습을 진행하였다. 기온자료와 상관성이 높은 데이터만으로 학습을 진행하였을 때 상관계수(r)와 Root Mean Squared Error (RMSE)의 평균값이 0.9667, 2.708℃로 우수한 성능을 보였다. 학습에 사용된 데이터의 종류가 추가될수록 더 우수한 학습 결과를 보였으며, 모든 데이터가 활용될 때에는 r과 RMSE의 평균값이 0.9840, 1.883℃로 가장 우수한 성능을 보였다. ANN 모델으로 생성한 서울시 기온 지도에서는 픽셀별 지형적 특성에 적절하게 기온이 산정된 것으로 판단되며, 추후 연구지역 확대 및 위성자료의 다양화를 통해 시단위 및 전국단위 기온 분포 분석 연구가 가능할 것이다.

자본시장 IT시스템 효율적 용량계획 모델: 심리지수 활용을 중심으로 (Effective Capacity Planning of Capital Market IT System: Reflecting Sentiment Index)

  • 이국형;김미예;박재영;김범수
    • 지식경영연구
    • /
    • 제23권1호
    • /
    • pp.89-109
    • /
    • 2022
  • 최근 COVID-19, 동학개미운동 등 투자환경의 변화로 시스템 처리 허용 수준을 상회하는 트랜잭션이 발생하고 이로 인해 전산장애가 자본시장에서 빈번하게 나타나고 있다. 자본시장 IT시스템들은 장애 영향도가 매우 큰 시스템들로서, 2020년에 예측하지 못한 큰 규모의 트랜잭션이 상당한 기간 유입되어 전산장애가 급증하였다. 다수의 기업들이 높은 수준의 IT시스템 용량계획 정책을 유지하고 있던 상황임에도 불구하고, 이를 상회하는 트랜잭션이 유입된 것은 용량계획에 대한 새로운 접근 방법이 필요함을 시사하고 있다. 이에 본 연구는 다양한 머신러닝 기법을 활용하여 자본시장 IT시스템 용량계획 모델들을 개발하고 성능을 비교 분석한다. 또한, 동학개미운동과 같이 예측하기 힘든 투자자의 행동을 반영할 수 있는 심리지수를 예측에 활용함으로써 용량계획 모델의 성능을 높인다. COVID-19 기간을 포함한 실증데이터를 이용하여 본 연구에서 개발한 용량계획 모델은 실무에서 활용 가능한 수준의 높은 성능과 안정성을 가질 수 있다. 본 연구는 기업의 비용 효율성과 IT시스템 용량 변경에 수반되는 운영상의 제약을 모두 고려한 최적의 파라미터를 제시하였는데, 이것은 자본시장 도메인에서 유용하게 사용될 수 있다. 또한, 본 연구는 투자자의 심리를 반영하는 심리지수가 IT 시스템 용량계획에 중요한 예측요인이 될 수 있는 것을 입증함으로써, 심리지수가 다양한 수요예측에 적극적으로 활용될 수 있음을 보여준다.

다중목적함수 최적화에 기초한 광대역 유도분극 변수 예측 적용성 분석 (Applicability Analysis on Estimation of Spectral Induced Polarization Parameters Based on Multi-objective Optimization)

  • 김빛나래;정주연;민배현;남명진
    • 지구물리와물리탐사
    • /
    • 제25권3호
    • /
    • pp.99-108
    • /
    • 2022
  • 유도분극(induced polarization; IP) 탐사 중 광대역 혹은 빛띠(spectral) IP (SIP) 탐사법에서는 교류 전류를 송신원으로 하였을 때 나타나는 매질의 진동수에 따른 복소전기비저항의 크기와 위상을 측정하며, 진동수에 따라 값이 변화하는 복소전기비저항의 분산 혹은 이완 반응을 분석하게 된다. 이때 분산곡선은 등가회로 모델과 같은 이완 모델을 통해 설명할 수 있는데, 다중목적함수 최적화 기법을 적용하여 분산곡선에서 SIP 이완모델의 변수들을 예측해보았다. SIP 이완현상을 설명하기 위해 가장 많이 이용되는 Cole-Cole 모델 계열의 변수를 구하기 위해 크기 오차와 위상 오차를 최소화하는 두 가지 목적함수로 설정하고 다중목적함수를 최적화하기 위해 유전 알고리듬을 이용하였다. 다중목적함수 최적화 기법을 이용한 Cole-Cole 모델 변수 구하기는 수치 모델에 대해서는 잘 구해졌으나 기존에 보고된 SIP 실내실험 자료에 피팅할 경우, 주로 위상 크기가 작을 때(약 10 mrad 이하) 피팅이 맞지 않는 경우가 많았다. 이는 다중목적함수로 사용하는 크기와 위상의 자료 오차 사이에 스케일이 맞지 않아 발생하는 한계로 추정되며, 향후 복소전기비저항의 분산 곡선에서 SIP 변수를 예측하기 위해 이러한 한계를 극복할 수 있는 기계 학습 등 다양한 기법들에 대한 연구가 필요할 것으로 판단된다.

Concept Drift에 의한 ML 모델 성능 변화의 정량적 추정 방법 (Quantitative Estimation Method for ML Model Performance Change, Due to Concept Drift)

  • 안순홍;이훈석;김승훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.259-266
    • /
    • 2023
  • 기계학습을 통해 학습된 모델은 업무 활용 시 그 성능을 실측하기 매우 어렵다. 때문에 운영 부서에서는 모델의 성능을 효과적으로 관리하지 못한다. 이로 인해 모델의 상태를 판단하기 위한 Concept drift 탐지 방법이 다양하게 연구되고 있다. 운영 부서에서는 운영 중인 모델의 성능을 정량적으로 관리하려고 한다. 그러나 Concept drift는 모델 상태를 데이터 관계적으로 판단 할 뿐, 모델의 정량적 성능 수치를 추정하지는 못한다. 본 연구에서는 Concept drift의 통계량을 통해 정량적으로 precision 값을 추정하는 성능 예측 모델(PPM, Performance prediction model)을 제안한다. 제안 모델의 Algorithm 1에서는, 학습데이터에서 복원 추출한 샘플링 데이터에 인위적인 drift를 유도하고 이때의 precision을 측정하여 drift와 precision의 데이터 셋을 만들어 학습한다. Algorithm 2에서는 테스트 데이터를 통해 실제 precision과 예측 precision의 차이를 측정하여 성능 예측 모델의 오차를 보정 한다. 현실 비즈니스에서 사용될 수 있는 대출 심사 모델과 신용카드 오사용 탐지 모델에 PPM을 적용하여 성능 예측의 유효성을 확인했다.

비점오염원관리지역의 머신러닝 기법을 통한 수질 예측 가능성 연구 (Study on Water Quality Predictability through Machine Learning Techniques in Non-point Pollutant Management Area)

  • 유나영;신민환;금동혁;임경재;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.467-467
    • /
    • 2023
  • 강우에 의해 발생하는 비점오염물질의 수질 데이터가 충분하지 않아 비점오염원이 문제가 되고 있는 유역의 수질개선을 위한 대책마련이 어려운 실정이다. 기존에 환경부에서 운영하고 있는 자동측정망은 1시간 간격으로 데이터를 축적하고 있으나, 비점오염원이 문제가 되는 유역에 설치되어 있지 않거나 수온, DO, pH 등 현장항목만을 측정하고 있어 하천의 수질오염을 대표할 수 있는 T-P나 SS 등의 수질분석 항목의 부재하다. 이로인해 유역의 수질개선 대책을 수립하기 위한 오염원의 현황을 파악하기 어려운 실정이다. 따라서, 본 연구에서는 비점오염원관리지역 중 골지천 유역을 대상으로 수질항목별 상관성을 분석하고, 실측자료를 기반으로 DT, MLP, SVM, RF, GB, XGB 등의 머신러닝 기법을 통해 수질 예측 가능성을 연구하였다. 상관관계 분석결과 입력변수인 탁도 항목이 예측 수질과 뚜렷한 상관관계를 보이는 것으로 나타났으나, 그 외 항목에서는 약한 상관관계를 보이거나 상관관계가 없는 것으로 나타났다. 머신러닝 기법을 활용한 수질 예측 분석 결과, 검무교와 태봉2교, 제1여량교는 RF 기법에서 결정계수(R2) 0.57~0.86, RMSE 16.49~175.60으로 예측성이 우수한 것으로 나타났다. 관말교는 SVM 기법에서 R2 0.65, RMSE 57.69로, 송계교는 XGB 기법에서 R2 0.74, RMSE 282.86으로 가장 예측성이 우수한 것으로 나타났다. 분석결과와 같이 머신러닝 기법을 활용한 수질 예측은 가능하나, 예측성이 우수한 머신러닝 기법의 R2 비교 결과, 유역면적이 큰 제1여량교와 작은 관말교에서 0.57과 0.65로 다른 지점에 비해 낮은 것으로 나타났다. RMSE 비교 결과, 상류 산간지역에 발생한 국지성 호우의 영향으로 흙탕물이 가장 자주 발생하는 태봉2교 지점과 우선관리지역이 합류되는 송계교 지점에서 175.60과 282.86으로 예측값과 실측값의 오차가 큰 것으로 나타났다. 연구결과와 같이 하천 수질을 예측하기 위해서는 유역면적 혹은 유역특성과 관련한 기초자료를 추가로 적용하여 머신러닝 기법을 적용 해야할 것으로 판단된다. 또한, 본 연구에서 예측한 수질 항목 이외에 입력변수를 추가로 확보하여 수질의 예측 가능성을 검토해야 할 것으로 보여진다.

  • PDF

앙상블 기반의 악취 농도 다지역 통합 예측 모델 개발 (Development of an Ensemble-Based Multi-Region Integrated Odor Concentration Prediction Model)

  • 조성주;최우석;최상현
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.383-400
    • /
    • 2023
  • 전 세계적으로 대기오염 관련 질병 발병률이 상승하고, 2022년 세계보건기구의 보고에 따르면 매년 약 700만 명의 사망자가 발생하고 있다. 또한, 산업 시설 확장과 다양한 배출원 증가, 그리고 악취 물질의 무분별한 방출로 인해 대기오염 문제는 사회적으로 중요성을 띄고 있다. 한국에서도 악취를 독립적인 환경오염으로 정의하며, 지역 주민의 건강에 직접적인 영향을 미치는 문제로 간주하고 있으나 현재까지 악취 관리가 미흡하며 악취 관리 시스템의 개선이 필요하다. 본 연구에서는 악취 관리 시스템 개선을 목표로 충청북도 오창에 설치된 악취 센서에서 수집한 1,010,749개 데이터를 활용하여 앙상블 기반의 악취 농도 다지역 통합 예측 모델을 설계하고 분석하였다. 연구 결과, XGBoost 알고리즘을 사용한 모델의 RMSE가 0.0096로 가장 성능이 좋았으며, 단일 지역 모델(0.0146)과 비교하여 평균 오차 크기가 51.9% 낮았다. 이를 통해 서로 다른 지역에서 수집된 악취 농도 데이터를 표준화한 후 다지역 통합 예측 모델을 설계함으로써 데이터의 양을 늘리고 정확도를 높일 수 있으며 또한, 하나의 통합 모델로 다양한 지역에서 예측이 가능함을 확인하였다.

AI모델을 적용한 군 경계체계 지능화 방안 (A Methodology for Making Military Surveillance System to be Intelligent Applied by AI Model)

  • 한창희;구하림;박복기
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.57-64
    • /
    • 2023
  • 현재 진행되는 고령화 및 인구절벽으로 대표되는 인구구조적 문제는 한국군 경계임무에 심각한 도전이 되고 있다. 본 연구의 목적은 AI모델을 적용해 군 경계체계를 지능화하는 것이다. 본 연구를 통해 제4차 산업혁명과 그 핵심이 되는 인공지능 알고리즘의 의의가 경계근무 상황실 내에서의 단순작업을 기계화하여 작업효율을 극대화하는 것임을 실증한다. 하나의 완성된 시스템으로서 군경계체계를 개발하기 위해, 지능화·자동화된 군(軍) 경계체계라는 목표로부터 필요한 인공지능 기술인 다중 객체 추적(multi-object tracking, MOT) 기술을 선택한다. 또한 체계 사용자의 접근성 및 체계 이용의 효율성을 담보하기 위해서는 데이터 시각화(data visualization)와 사용자 인터페이스(user interface)를 꼽았다. 이 추가 요소를 결합하여 하나의 유기적인 소프트웨어 애플리케이션을 구성한다. CCTV 영상 데이터 수집한 장소는 00부대 제1정문 및 제2정문에 설치된 CCTV 카메라이며, 지통실의 협조 아래 영상 수집을 진행하였다. 실험결과를 통해 경계체계를 지능화·자동화시켜 더 많은 정보를 경계체계 운용인원에게 전달할 수 있음을 보였다. 그러 나 여전히 개발된 소프트웨어 경계체계 역시 한계점이 존재한다. 이를 설명하여 군 경계체계 개발의 향후 방향성을 제시한다.

상수도관망 내 데이터 불확실성에 따른 절점 압력 예측 ANN 모델 수행 성능 비교 (Comparison of ANN model's prediction performance according to the level of data uncertainty in water distribution network)

  • 장혜운;정동휘;전상훈
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1295-1303
    • /
    • 2022
  • 안정적인 수도 공급을 위한 상수도관망의 역할이 더욱 주목받음에 따라 비정상 상황에 대한 신속한 탐지와 적절한 대처 역시 중요시되고 있다. 장치에 의존한 탐지기법 등 기존의 방법론에는 한계가 존재하므로 데이터를 이용한 모델 기반의 방법이 개발되었다. 하지만 상수도관망 내 측정 데이터는 불확실성을 가져 실제 사용량과 다르다. 따라서 본 연구에서는 기계학습 방법의 하나인 인공신경망 모델을 이용하여 상수도관망 압력값을 예측함에 있어 데이터 불확실성의 영향을 조사한다. 정규분포를 따르는 임의의 값을 고려하여 데이터에 측정치 오류를 형성하고 측정치 오류 여부 및 종류에 따라 총 9가지 데이터를 인공신경망 모델을 통해 예측해 경향성을 비교한다. 분석을 통해 데이터 불확실성이 증가할수록 모델 성능이 감소하며, 출력데이터의 측정치 오류가 모델 성능에 미치는 정도가 더 큼을 확인하였다. 특히 입력데이터와 출력데이터의 측정 오차 크기가 동일한 경우 예측 정확도는 각각 72.25%, 38.61%로 큰 차이를 보였다. 따라서 ANN 모델 예측 성능 향상을 위해서는 입력 데이터보다 출력데이터인 주절점의 측정 오류 크기를 줄이는 것이 중요하다.