• 제목/요약/키워드: 학습 데이터 모델

검색결과 3,123건 처리시간 0.029초

심층신경망과 천리안위성 2A호를 활용한 지상기온 추정에 관한 연구 (Estimation for Ground Air Temperature Using GEO-KOMPSAT-2A and Deep Neural Network)

  • 엄태윤;김광년;조용한;송근용;이윤정;이윤곤
    • 대한원격탐사학회지
    • /
    • 제39권2호
    • /
    • pp.207-221
    • /
    • 2023
  • 본 연구는 천리안위성 2A호의 Level 1B (L1B) 정보를 사용해 지상기온을 추정하기 위한 심층신경망(deep neural network, DNN) 기법을 적용하고 검증을 실시하였다. 지상기온은 지면으로부터 1.5 m 높이의 대기온도로 일상생활뿐만 아니라 폭염이나 한파와 같은 이슈에 밀접한 관련을 갖는다. 지상기온은 지표면 온도와 대기의 열 교환에 의해 결정되므로 위성으로부터 산출된 지표면 온도(land surface temperature, LST)를 이용한 지상기온 추정 연구가 활발하였다. 하지만 천리안위성 2A호 산출물 LST는 Level 2 정보로 구름영향이 없는 픽셀만 산출되는 한계가 있다. 따라서 본 연구에서는 Advanced Meteorological Imager 센서에서 측정된 원시데이터에 오직 복사와 위치보정을 마친 L1B 정보를 사용해 지상기온을 추정하기 위한 DNN 모델을 제시하고 그 성능을 가늠하기 위해 위성 LST와 지상관측 기온 사이의 선형회귀모델을 기준모델로 사용하였다. 연구기간은 2020년부터 2022년까지 3년으로 평가기간 2022년을 제외한 기간은 훈련기간으로 설정했다. 평가지표는 기상청의 종관기상관측소에서 정시에 관측된 기온정보로 평균 제곱근 오차를 사용하였다. 관측지점에서 추출된 픽셀 중 손실된 픽셀의 비율은 LST는 57.91%, L1B는 1.63%를 보였으며 LST의 비율이 낮은 이유는 구름의 영향 때문이다. 제안한 DNN의 구조는 16개 L1B 자료와 태양정보를 입력 받는 층과 은닉층 4개, 지상기온 1개를 출력하는 층으로 구성하였다. 연구결과 구름의 영향이 없는 경우 DNN 모델이 root mean square error (RMSE) 2.22℃로 기준모델의 RMSE 3.55℃ 보다 낮은 오차를 보였고, 흐린 조건을 포함한 총 RMSE는 3.34℃를 나타내면서 구름의 영향을 제거할 수 있을 것으로 보였다. 하지만 계절과 시간에 따른 분석결과 여름과 겨울철에 모델의 결정계수가 각각 0.51과 0.42로 매우 낮게 나타났고 일 변동의 분산이 0.11과 0.21로 나타났다. 가시채널을 고려해 태양 위치정보를 추가한 결과에서 결정계수가 0.67과 0.61로 개선되었고 시간에 따른 일 변동의 분산도 0.03과 0.1로 감소하면서 모든 계절과 시간대에 더 일반화된 모델을 생성할 수 있었다.

국가 감염병 공동R&D전략 수립을 위한 분류체계 및 정보서비스에 대한 연구: 해외 코로나바이러스 R&D과제의 분류모델을 중심으로 (The Classification System and Information Service for Establishing a National Collaborative R&D Strategy in Infectious Diseases: Focusing on the Classification Model for Overseas Coronavirus R&D Projects)

  • 이도연;이재성;전승표;김근환
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.127-147
    • /
    • 2020
  • 세계는 신형 코로나바이러스 감염증(COVID-19)으로 수 많은 인명 피해와 경제적 손실을 기록하고 있는 상황이다. 우리나라 정부는 연구개발(Research & Development)을 통해 국가 감염병 위기를 극복하려는 전략을 수립하고 실행하기 위한 투자방향을 수립하였다. 기존 기술분류나 과학기술 표준분류에 따른 통계를 활용하면 특정 R&D 분야의 특이점 및 변화를 발견하기 어렵다는 한계가 존재해왔다. 최근 우리나라 감염병 연구개발 과제를 대상으로 수요자의 목적에 맞게 분류체계를 수립하고 연구비 비교 분석을 통해 투자가 요구되는 연구 분야를 제시하는 연구들이 진행되었다. 하지만 현재 국가 보건 안보와 신성장 산업육성이라는 목표를 달성하기 위한 실행방안으로 요구되고 있는 전염병 연구분야의 국가간 협력전략 수립에 필요한 정보를 체계적으로 제공하고 있지 못한 상황이다. 따라서 국가 공동 연구개발 전략 수립을 위한 분류체계와 분류모델기반의 정보서비스에 대한 연구가 요구되고 있다. 우선 감염병관련 NTIS 과제데이터를 기반으로 정성분석을 통해 7개의 분류체계를 도출하였다. 스코퍼스(Scopus) 데이터와 양방향 RNN모델을 사용하여, 분류체계 모델을 학습시켰다. 최종적인 모델의 분류 성능은 90%이상의 높은 정확도와 강건성을 확보하였다. 실증연구를 위해 주요 국가의 코로나바이러스 연구개발 과제를 대상으로 전염병 분류체계를 적용하였다. 주요 국가의 감염병(코로나바이러스) 연구개발 과제를 분류체계별로 분석한 결과, 세계적으로 유행하는 바이러스의 예상치 못한 창궐이 확산되는 속도에 비해 백신과 치료제 개발이 제대로 이뤄지지 않는 원인의 배경을 간접적으로 확인할 수 있었다. 국가별 비교분석을 통해 미국과 일본은 상대적으로 모든 영역에 골고루 연구개발 투자를 하고 있는 것으로 나타난 반면, 유럽은 상대적으로 특정 연구분야에 많은 투자를 하는 집중화 전략을 취하는 것으로 나타났다. 동시에 주요 국가의 코로나 바이러스 주요 연구조직에 대한 정보를 분류체계별로 제공하여 국제 공동R&D 전략의 기초정보를 제공하였다. 본 연구 결과를 통해 세 가지 정책적 의미를 도출할 수 있다. 첫째, 데이터기반 과학기술정책 관점에서 수요자 관심분야에 대한 국가 R&D사업의 정보를 글로벌 기준으로 문서를 분류하는 방안을 제시하였다. 둘째, 감염병관련 국가 R&D사업 영역에 대한 정보분석 서비스 기획의 기반을 마련하였다. 마지막으로 국가 감염병 R&D 분류체계 수립을 통해 분류 체계의 궁극적 목표인 산업, 기업, 정책 정보를 제공할 수 있는 기반을 마련한 것이다.

SVM을 이용한 시스템트레이딩전략의 선택모형 (Selection Model of System Trading Strategies using SVM)

  • 박성철;김선웅;최흥식
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.59-71
    • /
    • 2014
  • KOSPI200 선물 트레이딩을 위해 업계에서는 여러 전략으로 포트폴리오를 구성해서 운용한다. 동일한 전략 모음을 갖고 있더라도 포트폴리오를 어떻게 구성하느냐에 따라 수익은 크게 차이가 난다. 시장 상황에 맞는 전략들로 포트폴리오를 구성하는 것은 오랜 경험과 탁월한 노하우가 있어야하는 어려운 작업이다. 본 논문에서는 SVM을 활용하여 쉽고 빠르게 적절한 전략 포트폴리오를 구성하는 방법을 제시하였다. 본 논문에서 제안한 시스템의 성과는 벤치마킹의 성과와 비교하여 2배 이상의 수익을 내는 것을 확인하였다. 1990.01.03~2011.11.04 동안의 KOSPI200 데이터 중 이전 80%의 데이터로 학습을 하고 최근 20%의 데이터로 성능을 시험하였다. 각 전략별로 선택여부를 판별하는 SVM모델을 만들고 그 결과를 바탕으로 포트폴리오를 구성하였다. 벤치마킹을 위해 KOSPI200 선물을 2계약 매수한 경우의 수익, 시험 시작 직전 30일간 최고 수익을 낸 2개 전략의 수익, 실제 최고 수익을 낸 전략 2개를 보유했을 때의 수익과 비교하였다. 매매 비용을 반영하지 않을 때는 벤치마킹은 132.2~510.37pt의 수익을 냈고, 본 시스템은 1072.36~1140.91pt의 수익을 보여주었다. 그리고 거래비용을 감안하면 벤치마킹은 130.44~502.41pt의 수익을 냈고, 본 시스템은 706.22pt~768.95pt의 수익을 나타내었다. 본 논문은 기계학습을 통한 전략 포트폴리오를 구성하는 방안이 유의미하며 실전에 활용할 수 있음을 보여주었다. 이를 바탕으로 여러 전략과 다양한 시장에 적용해서 안정성을 검증하면 견고한 상용 솔루션으로 발전시킬 수 있을 것이다. 그리고 자금관리 기법을 더 반영한다면 수익을 더욱 크게 향상시킬 수 있을 것이다.

일주기 리듬과 일주기 유형이 경두개 직류전기자극에 의한 뇌기능 변화에 미치는 영향 탐색 (The impact of functional brain change by transcranial direct current stimulation effects concerning circadian rhythm and chronotype)

  • 정다운;유수민;이현수;한상훈
    • 인지과학
    • /
    • 제33권1호
    • /
    • pp.51-75
    • /
    • 2022
  • 경두개 직류전기자극(transcranial Direct Current Stimulation; tDCS)은 지각, 인지, 운동 등의 뇌기능 향상 및 발달 효과가 입증되며, 다양한 분야에서 활용 및 응용되는 비침습적 뇌자극술이다. tDCS 효과는 뇌의 해부학적 구조, 뇌의 노화 정도 등의 뇌신경활성화 특징에 따라 다르게 나타난다는 연구결과들이 보고되고 있다. 일주기 리듬(circadian rhythm)은 대략 하루 주기의 수면과 각성의 생리적 변화패턴을 의미하며 뇌신경활성화 상태는 일주기 리듬에 따라 다르게 나타난다. 일주기 유형(chronotype)은 하루 중에 발현되는 각성도의 크기에 따라 아침의 각성도가 큰 유형은 아침형으로 저녁의 각성도가 큰 유형은 저녁형으로 나누어진다. 본 연구는 일주기 리듬에 의해 변하는 뇌기능 특징이 tDCS 효과에 미치는 영향을 알아보고자 한다. 총 20명의 건강한 성인 대상으로 실험을 진행하였고, 참가자들은 일주기 유형을 분류하기 위해 아침형-저녁형 설문지에 의해 주간형(아침형, 중간형)과 야간형(저녁형)으로 분류했다. 본 실험은 Zoom 프로그램을 이용하여 참가자와 실험자가 온라인으로 만나서 실험을 진행했다. 실험이 확정된 참가자는 실험자로부터 뇌파 기기, 뇌파 데이터를 획득하는 앱이 있는 핸드폰, 핸드폰 거치대, 뇌자극 기기의 사용방법에 대한 설명을 듣고 기기를 테스트해보고 기기를 전달받았다. 기기사용의 어려움을 가진 2명의 참가자는 대면 실험을 진행하여, 실험자가 기기작동을 하여 실험에 참여했다. 일주기 리듬의 상태에 따른 뇌자극 효과를 알아보기 위해 1주일 간격으로 아침과 저녁에 실험했으며, tDCS 자극 전과 후의 신경활성화 반응의 차이를 뇌파를 이용하여 측정하였다. 뇌자극에 의한 뇌기능 변화를 확인하기 위해 자극 전의 뇌파와 자극 후 뇌파가 다른 패턴을 보이며 분류가 잘되는 지를 예측 정확도로 분석했으며, 뇌기능 특징 변화가 일주기 리듬과 일주기 유형에 따라 다르게 나타나는지 확인하기 위해 각 조건의 분류조건(아침/저녁, 주간형/야간형)에서 추출된 주요 EEG 특성을 비교했다. 54개의 뇌파 특성값을 추출하여 SVM(Support Vector Machine) 기계학습 알고리즘으로 분류 모델을 구축하였고, 구축된 모델을 Leave-One-Out 교차검증(Leave-One-Out Cross-Validation)을 사용하여 자극 전과 후의 뇌파 반응을 예측하는지 평가하였고, 분류예측모델의 주요 예측 인자를 확인하는 주요 특성 분석을 진행하였다. 아침과 저녁의 tDCS에 따른 뇌파 특징을 분류하는 예측 정확도는 모두 98%로 나타났으며, 주간형의 아침 자극 조건과 저녁 자극 조건의 예측 정확도는 92%와 96%이며, 야간형의 아침자극 조건과 저녁 자극 조건의 예측 정확도는 모두 94%로 나타났다. 아침 자극 전과 후의 뇌파를 분류하는 상위 3개의 주요 EEG 특성결과는 주간형과 야간형에 따라 다르게 나타났다. 주간형은 좌측 측두 두정엽과 전전두엽의 뇌파 특성값이 나타났으며, 야간형은 측두 두정엽의 뇌파 특성값들만 나타났다. 저녁 자극전과 후의 뇌파를 분류하는 상위 3개의 주요 EEG 특성 결과 또한 주간형과 야간형에 따라 다르게 나타났다. 주간형은 우측 측두 두정엽과 좌측 전두엽의 뇌파 특성값이 나타났으며, 야간형은 측두 두정엽과 전두엽의 뇌파 특성값이 나타났다. 이와 같은 연구결과는 일주기 리듬과 유형에 따라 아침과 저녁의 뇌기능 특징이 다르게 나타나서 뇌자극 효과가 다르게 나타날 수 있음을 확인한 결과이다. 본 연구의 결과는 효과적인 뇌자극을 위해 개인의 뇌신경 활성화 상태 및 특징에 따라서 뇌자극 프로토콜을 조정할 필요성을 제시한다는 데에 의의를 찾을 수 있다.

제목을스마트 시설환경 실시간 제어를 위한 마이크로 병렬 컴퓨팅 기술 분석 (A Benchmark of Micro Parallel Computing Technology for Real-time Control in Smart Farm (MPICH vs OpenMP))

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.161-161
    • /
    • 2017
  • 스마트 시설환경의 제어 요소는 난방기, 창 개폐, 수분/양액 밸브 개폐, 환풍기, 제습기 등 직접적으로 시설환경의 조절에 관여하는 인자와 정보 교환을 위한 통신, 사용자 인터페이스 등 간접적으로 제어에 관련된 요소들이 복합적으로 존재한다. PID 제어와 같이 하는 수학적 논리를 바탕으로 한 제어와 전문 관리자의 지식을 기반으로 한 비선형 학습 모델에 의한 제어 등이 공존할 수 있다. 이러한 다양한 요소들을 복합적으로 연동시키기 위해선 기존의 시퀀스 기반 제어 방식에는 한계가 있을 수 있다. 관행의 방식과 같이 시계열 상에서 획득한 충분한 데이터를 이용하여 제어의 양과 시점을 결정하는 방식은 예외 상황에 충분히 대처하기 어려운 단점이 있을 수 있다. 이러한 예외 상황은 자연적인 조건의 변화에 따라 불가피하게 발생하는 경우와 시스템의 오류에 기인하는 경우로 나뉠 수 있다. 본 연구에서는 실시간으로 변하는 시설환경 내의 다양한 환경요소를 실시간으로 분석하고 상응하는 제어를 수행하여 수학적이며 예측 가능한 논리에 의해 준비된 제어시스템을 보완할 방법을 연구하였다. 과거의 고성능 컴퓨팅(HPC; High Performance Computing)은 다수의 컴퓨터를 고속 네트워크로 연동하여 집적적으로 연산능력을 향상시킨 기술로 비용과 규모의 측면에서 많은 투자를 필요로 하는 첨단 고급 기술이었다. 핸드폰과 모바일 장비의 발달로 인해 소형 마이크로프로세서가 발달하여 근래 2 Ghz의 클럭 속도에 이르는 어플리케이션 프로세서(AP: Application Processor)가 등장하기도 하였다. 상대적으로 낮은 성능에도 불구하고 저전력 소모와 플랫폼의 소형화를 장점으로 한 AP를 시설환경의 실시간 제어에 응용하기 위한 방안을 연구하였다. CPU의 클럭, 메모리의 양, 코어의 수량을 다음과 같이 달리한 3가지 시스템을 비교하여 AP를 이용한 마이크로 클러스터링 기술의 성능을 비교하였다.1) 1.5 Ghz, 8 Processors, 32 Cores, 1GByte/Processor, 32Bit Linux(ARMv71). 2) 2.0 Ghz, 4 Processors, 32 Cores, 2GByte/Processor, 32Bit Linux(ARMv71). 3) 1.5 Ghz, 8 Processors, 32 Cores, 2GByte/Processor, 64Bit Linux(Arch64). 병렬 컴퓨팅을 위한 개발 라이브러리로 MPICH(www.mpich.org)와 Open-MP(www.openmp.org)를 이용하였다. 2,500,000,000에 이르는 정수 중 소수를 구하는 연산에 소요된 시간은 1)17초, 2)13초, 3)3초 이었으며, $12800{\times}12800$ 크기의 행렬에 대한 2차원 FFT 연산 소요시간은 각각 1)10초, 2)8초, 3)2초 이었다. 3번 경우는 클럭속도가 3Gh에 이르는 상용 데스크탑의 연산 속도보다 빠르다고 평가할 수 있다. 라이브러리의 따른 결과는 근사적으로 동일하였다. 선행 연구에서 획득한 3차원 계측 데이터를 1초 단위로 3차원 선형 보간법을 수행한 경우 코어의 수를 4개 이하로 한 경우 근소한 차이로 동일한 결과를 보였으나, 코어의 수를 8개 이상으로 한 경우 앞선 결과와 유사한 경향을 보였다. 현장 보급 가능성, 구축비용 및 전력 소모 등을 종합적으로 고려한 AP 활용 마이크로 클러스터링 기술을 지속적으로 연구할 것이다.

  • PDF

초분광 표적 탐지를 위한 L2,1-norm Regression 기반 밴드 선택 기법 (Band Selection Using L2,1-norm Regression for Hyperspectral Target Detection)

  • 김주창;양유경;김준형;김준모
    • 대한원격탐사학회지
    • /
    • 제33권5_1호
    • /
    • pp.455-467
    • /
    • 2017
  • 초분광 영상을 이용한 표적 탐지를 수행할 때에는 인접한 분광 밴드의 중복성의 문제 및 고차원 데이터로 인해 발생하는 방대한 계산량의 문제점을 해결하기 위한 특징 추출 과정이 필수적이다. 본 연구는 기계 학습 분야의 특징 선택 기법을 초분광 밴드 선택에 적용하기 위해 $L_{2,1}$-norm regression 모델을 이용한 새로운 밴드 선택 기법을 제안하였으며, 제안한 밴드 선택 기법의 성능 분석을 위해 표적이 존재하는 초분광영상을 직접 촬영하고 이를 바탕으로 표적 탐지를 수행한 결과를 분석하였다. 350 nm~2500 nm 파장 대역에서 밴드 수를 164개에서 약 30~40개로 감소시켰을 때 Adaptive Cosine Estimator(ACE) 탐지 성능이 유지되거나 향상되는 결과를 보였다. 실험 결과를 통해 제안한 밴드 선택 기법이 초분광 영상에서 탐지에 효율적인 밴드를 추출해 내며, 이를 통해 성능의 감소 없이 데이터의 차원 감소를 수행할 수 있어 향후 실시간 표적 탐지 시스템의 처리 속도 향상에 도움을 줄 수 있을 것으로 보인다.

토지 보상비 결정 요인 분석 - 건설CALS 데이터 중심으로 (Analysis on the Determinants of Land Compensation Cost: The Use of the Construction CALS Data)

  • 이상규;서명배;김진욱
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.461-470
    • /
    • 2020
  • 본 연구는 건설 전주기 (기획, 설계, 시공, 관리) 과정에서 생성되는 건설 CALS(Continuous Acquisition & Life-Cycle Support) 시스템 내의 데이터 셋 (443개)을 활용하여 토지보상비에 영향을 주는 주요 결정 요인을 분석한다. 해당 분석을 위해 기존 토지 비용 관련 연구에서 활용된 주요 변수를 활용하였다. 이를 기반으로 8개 (토지면적, 개별 공시지가, 감정평가액, 지목, 용도지역 1, 지형 고저, 지형 형상, 도로 접면)의 주요 변수를 활용하였다. 더불어, 해당 변수는 기계학습 알고리즘 기반의 Xgboost 알고리즘을 통해 변수별 중요도 평가를 진행하였고, 해당 변수 중, 개별공시지가가 가장 중요도가 높은 변수로 확인하였다. 토지보상비 결정 요인에 대한 분석 및 검증을 위해 선형다중회귀분석을 사용하였다. 검증을 위해 구성되는 변수로 종속변수는 개별공시지가 변수를 활용하였고, 독립변수는 연속형 변수 1개 (면적), 범주형 변수는 5개 (지목, 용도지역1, 지형고저, 지형형상, 도로접면)를 활용하였다. 본 연구의 모델에 대한 검증결과, 지목, 용도지역 1, 도로접면에 대한 독립 변수가 유의미한 것으로 확인하였다.

GMM 기반 실시간 문맥독립화자식별시스템의 성능향상을 위한 프레임선택 및 가중치를 이용한 Hybrid 방법 (Hybrid Method using Frame Selection and Weighting Model Rank to improve Performance of Real-time Text-Independent Speaker Recognition System based on GMM)

  • 김민정;석수영;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제5권5호
    • /
    • pp.512-522
    • /
    • 2002
  • 본 논문에서는 GMM(Gaussian Mixture Model)에 기반한 실시간문맥독립화자식별시스템[1][2]의 성능향상을 위하여 프레임선택(Frame Selection)방법과 프레임가중치(Weighting Model Rank)방법을 혼합한 hybrid방법을 제안한다. 본 시스템에서는 GMM의 파라미터를 최적화하기 위하여 MLE(Maximum likelihood estimation)방법과 인식 알고리즘으로 ML(Maximum Likelihood)을 기본적으로 사용하였다. 제안한 hybrid 방법은 두 단계로 이루어진다. 첫째, 화자모델과 테스트 데이터를 이용하여 프레임단위로 유사도를 계산하고, 가장 큰 유사도 값과 두 번째로 큰 유사도 값의 차를 계산한 후, 차가 문턱치보다 큰 프레임만을 선택한다 두 번째로, 선택되어진 프레임에서 계산되어진 유사도 값 대신에 가중치 값을 사용하여 전체 스코어를 계산한다. 특징 파라미터로서는 켑스트럼과 회귀계수를 사용하였으며, 학습과 테스트를 위한 데이터베이스는 채집기간이 다른 여러 데이터베이스들로 구성되어 있으며, 실험을 위한 데이터는 임의의 단어를 선택하여 사용하였다. 화자인식실험은 기본 시스템에 프레임선택방법, 프레임가중치방법, 제안한 Hybrid방법을 각각 적용하여 실험하였다. 실험결과, 프레임선택방법에 비해 평균 4%, 프레임가중치방법에 비해 평균 1%의 인식률 향상을 보여, 본 논문에서 적용한 hybrid방법의 유효성을 확인하였다.

  • PDF

안티 포렌식 행위 탐지를 위한 퍼지 전문가 시스템 (Fuzzy Expert System for Detecting Anti-Forensic Activities)

  • 김세령;김휘강
    • 인터넷정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.47-61
    • /
    • 2011
  • 최근 사이버 범죄의 증가와 그 대상 시스템의 다양화로 인하여 디지털 포렌식의 중요성이 커지고 있다. 일부 시스템들은 전원이나 네트워크를 차단하지 않고 수사하는 live forensic의 방법을 채택하고 있는데, 인터넷 사용이 일반화됨에 따라 live forensic 방법이 채택되는 횟수가 증가하고 있다. 그러나 live forensic 기술이 상당한 발전을 거듭하였음에도 불구하고 원격으로 접근하여 행해지는 Anti-forensic 행위에는 여전히 취약한 실정이다. 이와 같은 문제를 해결하기 위하여 첫 번째로 우리는 Anti-forensic 행위를 5개의 계층으로 분류하고 각 계층별로 가능한 Anti-forensic 행위의 시나리오를 생성하는 방법을 제안하였다. 두 번째로 fuzzy 전문가 시스템을 제안하여 효과적으로 Anti-forensic 행위를 탐지할 수 있도록 하였다. 몇몇 Anti-forensic 행위에 사용되는 명령어들은 일반적인 시스템 관리를 위하여 사용되는 명령어와 매우 유사하다. 따라서 우리는 fuzzy logic을 사용하여 모호한 데이터를 다룰 수 있도록 하였다. 미리 정의된 시나리오에서 명령어와 옵션 및 인자 값을 이용하여 룰을 생성하고 fuzzy 전문가 시스템에 이 룰을 학습하도록 하여 유사한 행위가 탐지되었을 때 추론을 통하여 수사관에게 얼마나 위험한 행위인지 알려준다. 이 시스템은 live forensic 수사가 진행될 때 발생할 수 있는 Anti-forensic 행위를 실시간으로 탐지할 수 있도록 하여 증거 데이터의 무결성을 유지하도록 한다.

베이지안 확률 및 폐쇄 순차패턴 마이닝 방식을 이용한 설명가능한 로그 이상탐지 시스템 (An Interpretable Log Anomaly System Using Bayesian Probability and Closed Sequence Pattern Mining)

  • 윤지영;신건윤;김동욱;김상수;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.77-87
    • /
    • 2021
  • 인터넷과 개인용 컴퓨터가 발달하면서 다양하고 복잡한 공격들이 등장하기 시작했다. 공격들이 복잡해짐에 따라 기존에 사용하던 시그니처 기반의 탐지 방식으로 탐지가 어려워졌으며 이를 해결하기 위해 행위기반의 탐지를 위한 로그 이상탐지에 대한 연구가 주목 받기 시작했다. 최근 로그 이상탐지에 대한 연구는 딥러닝을 활용해 순서를 학습하는 방식으로 이루어지고 있으며 좋은 성능을 보여준다. 하지만 좋은 성능에도 불구하고 판단에 대한 근거를 제공하지 못한다는 한계점을 지닌다. 판단에 대한 근거 및 설명을 제공하지 못할 경우, 데이터가 오염되거나 모델 자체에 결함이 발생해도 이를 발견하기 어렵다는 문제점을 지닌다. 결론적으로 사용자의 신뢰성을 잃게 된다. 이를 해결하기 위해 본 연구에서는 설명가능한 로그 이상탐지 시스템을 제안한다. 본 연구는 가장 먼저 로그 파싱을 진행해 로그 전처리를 수행한다. 이후 전처리된 로그들을 이용해 베이지안 확률 기반 순차 규칙추출을 진행한다. 결과적으로 "If 조건 then 결과, 사후확률(θ)" 형식의 규칙집합을 추출하며 이와 매칭될 경우 정상, 매칭되지 않을 경우, 이상행위로 판단하게 된다. 실험으로는 HDFS 로그 데이터셋을 활용했으며, 그 결과 F1score 92.7%의 성능을 나타내었다.