초록
네트워크 데이터 분석에 있어서 추정모델이 얼마나 모집단을 대표하느냐는 반드시 연구되어야 한다. 본 논문에서는 네트워크 데이터의 각 추출 가능한 표준 정보를 이용하여 현재 공개되어 사용하고 있는 MIT Lincoln Lab의 네트워크 데이터와 모델링 된 KDD CUP 99 데이터를 비교 분석한다. 비교, 분석에 있어서 두 데이터에 공통으로 포함되고 표준 정보인 프로토콜 정보를 이용하여 분석한다. 분석은 통계적 분석 방법인 대응 분석 방법을 이용하여 분석하고, SVD를 이용해 2차원 공간에 표현하며, 가중 유클리드 거리를 이용해 네트워크 데이터를 수량화하였다.
In the field of network data analysis, the research of how much the estimation data reflects the population data is inevitable. This paper compares and analyzes the well known MIT Lincoln Lab network data, which is composed of collectable standard information from the network with the KDD CUP 99 dataset which was composed from the MIT/LL data. For comparison and analysis, the protocol information of both the data was used. Correspondence analysis was used for analysis, SVD was used for 2 dimensional visualization and weigthed euclidean distance was used for network data quantification.