• 제목/요약/키워드: Large Data Set

검색결과 1,058건 처리시간 0.029초

침입탐지시스템에서의 특징 선택에 대한 연구 (A Study for Feature Selection in the Intrusion Detection System)

  • 한명묵
    • 융합보안논문지
    • /
    • 제6권3호
    • /
    • pp.87-95
    • /
    • 2006
  • 침입은 컴퓨터 자원의 무결성, 기밀성, 유효성을 저해하고 컴퓨터 시스템의 보안정책을 파괴하는 일련의 행위의 집합이다. 이러한 침입을 탐지하는 침입탐지시스템은 데이터 수집, 데이터의 가공 및 축약, 침입 분석 및 탐지 그리고 보고 및 대응의 4 단계로 구성되어진다. 침입탐지시스템의 방대한 데이터가 수집된 후, 침입을 효율적으로 탐지하기 위해서는 특징 선택이 중요하다. 이 논문에서 유전자 알고리즘과 결정트리를 활용한 특징 선택 방법을 제안한다. 또한 KDD 데이터에서 실험을 통해 방법의 유효성을 검증한다.

  • PDF

A Simple and Efficient One-to-Many Large File Distribution Method Exploiting Asynchronous Joins

  • Lee, Soo-Jeon;Kang, Kyung-Ran;Lee, Dong-Man;Kim, Jae-Hoon
    • ETRI Journal
    • /
    • 제28권6호
    • /
    • pp.709-720
    • /
    • 2006
  • In this paper, we suggest a simple and efficient multiple-forwarder-based file distribution method which can work with a tree-based application layer multicast. Existing multiple-forwarder approaches require high control overhead. The proposed method exploits the assumption that receivers join a session at different times. In tree-based application layer multicast, a set of data packets is delivered from its parent after a receiver has joined but before the next receiver joins without overlapping that of other receivers. The proposed method selects forwarders from among the preceding receivers and the forwarder forwards data packets from the non-overlapping data packet set. Three variations of forwarder selection algorithms are proposed. The impact of the proposed algorithms is evaluated using numerical analysis. A performance evaluation using PlanetLab, a global area overlay testbed, shows that the proposed method enhances throughput while maintaining the data packet duplication ratio and control overhead significantly lower than the existing method, Bullet.

  • PDF

신경망 학습앙상블에 관한 연구 - 주가예측을 중심으로 - (A Study on Training Ensembles of Neural Networks - A Case of Stock Price Prediction)

  • 이영찬;곽수환
    • 지능정보연구
    • /
    • 제5권1호
    • /
    • pp.95-101
    • /
    • 1999
  • In this paper, a comparison between different methods to combine predictions from neural networks will be given. These methods are bagging, bumping, and balancing. Those are based on the analysis of the ensemble generalization error into an ambiguity term and a term incorporating generalization performances of individual networks. Neural Networks and AI machine learning models are prone to overfitting. A strategy to prevent a neural network from overfitting, is to stop training in early stage of the learning process. The complete data set is spilt up into a training set and a validation set. Training is stopped when the error on the validation set starts increasing. The stability of the networks is highly dependent on the division in training and validation set, and also on the random initial weights and the chosen minimization procedure. This causes early stopped networks to be rather unstable: a small change in the data or different initial conditions can produce large changes in the prediction. Therefore, it is advisable to apply the same procedure several times starting from different initial weights. This technique is often referred to as training ensembles of neural networks. In this paper, we presented a comparison of three statistical methods to prevent overfitting of neural network.

  • PDF

변경 집합을 이용한 온톨로지 버전 관리 기법 (Ontology Versions Management Schemes using Change Set)

  • 윤홍원;이중화;김정원
    • Journal of Information Technology Applications and Management
    • /
    • 제12권3호
    • /
    • pp.27-39
    • /
    • 2005
  • The Semantic Web has increased the interest in ontologies recently Ontology is an essential component of the semantic web and continues to change and evolve. We consider versions management schemes in ontology. We study a set of changes based on domain changes, changes in conceptualization, metadata changes, and temporal dimension. Our change specification is represented by a set of changes. A set of changes consists of instance data change, structural change, and identifier change. In order to support a query in ontology versions, we consider temporal dimension includes valid time. Ontology versioning brings about massive amount of versions to be stored and maintained. We present the ontology versions management schemes that are 1) storing all the change sets, 2) storing the aggregation of change sets periodically, and 3) storing the aggregation of change sets using an adaptive criterion. We conduct a set of experiments to compare the performance of each versions management schemes. We present the experimental results for evaluating the performance of the three version management schemes from scheme 1 to scheme 3. Scheme 1 has the least storage usage. The average response time in Scheme 1 is extremely large, those of Scheme 3 is smaller than Scheme 2. Scheme 3 shows a good performance relatively.

  • PDF

반복적 영역분할법을 이용한 대용량의 점데이터로부터의 형상 재구성 (Shape Reconstruction from Large Amount of Point Data using Repetitive Domain Decomposition Method)

  • 유동진
    • 한국정밀공학회지
    • /
    • 제23권11호
    • /
    • pp.93-102
    • /
    • 2006
  • In this study an advanced domain decomposition method is suggested in order to construct surface models from very large amount of points. In this method the spatial domain of interest that is occupied by the input set of points is divided in repetitive manner. First, the space is divided into smaller domains where the problem can be solved independently. Then each subdomain is again divided into much smaller domains where the problem can be solved locally. These local solutions of subdivided domains are blended together to obtain a solution of each subdomain using partition of unity function. Then the solutions of subdomains are merged together in order to construct whole surface model. The suggested methods are conceptually very simple and easy to implement. Since RDDM(Repetitive Domain Decomposition Method) is effective in the computation time and memory consumption, the present study is capable of providing a fast and accurate reconstructions of complex shapes from large amount of point data containing millions of points. The effectiveness and validity of the suggested methods are demonstrated by performing numerical experiments for the various types of point data.

A Hybrid Mechanism of Particle Swarm Optimization and Differential Evolution Algorithms based on Spark

  • Fan, Debin;Lee, Jaewan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권12호
    • /
    • pp.5972-5989
    • /
    • 2019
  • With the onset of the big data age, data is growing exponentially, and the issue of how to optimize large-scale data processing is especially significant. Large-scale global optimization (LSGO) is a research topic with great interest in academia and industry. Spark is a popular cloud computing framework that can cluster large-scale data, and it can effectively support the functions of iterative calculation through resilient distributed datasets (RDD). In this paper, we propose a hybrid mechanism of particle swarm optimization (PSO) and differential evolution (DE) algorithms based on Spark (SparkPSODE). The SparkPSODE algorithm is a parallel algorithm, in which the RDD and island models are employed. The island model is used to divide the global population into several subpopulations, which are applied to reduce the computational time by corresponding to RDD's partitions. To preserve population diversity and avoid premature convergence, the evolutionary strategy of DE is integrated into SparkPSODE. Finally, SparkPSODE is conducted on a set of benchmark problems on LSGO and show that, in comparison with several algorithms, the proposed SparkPSODE algorithm obtains better optimization performance through experimental results.

동시발생 행렬과 하둡 분산처리를 이용한 추천시스템에 관한 연구 (A Study On Recommend System Using Co-occurrence Matrix and Hadoop Distribution Processing)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.468-475
    • /
    • 2014
  • 추천시스템은 선호 데이터가 대형화, 컴퓨터 처리능력과 추천 알고리즘 등에 의해 실시간 추천이 어려워지고 있다. 이에 따라 추천시스템은 대형 선호데이터를 분산처리 하는 방법에 대한 연구가 활발히 진행되고 있다. 본 논문은 하둡 분산처리 플랫폼과 머하웃 기계학습 라이브러리를 이용하여, 선호데이터를 분산 처리하는 방법을 연구하였다. 추천 알고리즘은 아이템 협업필터링과 유사한 동시발생 행렬을 이용하였다. 동시발생 행렬은 하둡 클러스터의 여러 노드에서 분산처리를 할 수 있으며, 기본적으로 많은 계산량이 필요하지만, 분산처리과정에서 계산량을 줄일 수 있다. 또한, 본 논문은 동시발생 행렬처리의 분산 처리과정을 4 단계에서 3 단계로 단순화하였다. 결과로서, 맵리듀스 잡을 감소할 수 있으며, 동일한 추천 파일을 생성할 수 있었다. 또한, 하둡 의사 분산모드를 이용하여 데이터를 처리하였을 때 빠른 처리속도를 보였으며, 맵 출력 데이터가 감소되었다.

대용량 훈련 데이타의 점진적 학습에 기반한 얼굴 검출 방법 (Face Detection Based on Incremental Learning from Very Large Size Training Data)

  • 박지영;이준호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.949-958
    • /
    • 2004
  • 본 연구는 대용량 훈련 데이타를 사용하는 얼굴 검출 분류기의 학습과정에서 새로운 데이터의 추가 학습이 가능한 새로운 방법을 제안한다. 추가되는 데이타로부터 새로운 정보를 학습하여 이미 습득된 기존의 지식을 갱신하는 것이 점진적 학습의 목표이다. 이러한 학습 기법에 기반한 분류기의 설계에서는 최종 분류기가 전체 훈련 데이타 집합의 특성을 반영하는 것이 매우 중요한 문제이다. 제안하는 알고리즘은 최적화된 최종 분류기 획득을 위하여 훈련 집합의 전역적인 특성을 대표하는 검증집합을 생성하고, 이 집단 내에서의 분류성능을 기준으로 중간단계 분류기들의 가중치를 결정한다. 각 중간단계 분류기는 개변 데이타 집합의 학습 결과로써 가중치 기반 결합 방식에 의해 최종 분류기로 구성된다. 반복적인 실험을 통해, 제안한 알고리즘을 사용하여 학습한 얼굴 검출 분류기의 성능이 AdaBoost 및 Learn++기반의 분류기보다 우수한 검출 성능을 보임을 확인하였다.

Modified Bagging Predictors를 이용한 SOHO 부도 예측 (SOHO Bankruptcy Prediction Using Modified Bagging Predictors)

  • 김승혁;김종우
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.15-26
    • /
    • 2007
  • 본 연구에서는 기존 Bagging Predictors에 수정을 가한 Modified Bagging Predictors를 이용하여 SOHO에 대한 부도예측 모델을 제시한다. 대기업 및 중소기업에 대한 기업부도예측 모델에 대한 많은 선행 연구가 있어왔지만 SOHO만의 기업부도 예측 모델에 관한 연구는 미비한 상태이다. 금융기관들의 대출 심사 시 대기업 및 중소기업과는 달리 SOHO에 대한 대출심사는 아직은 체계화되지 못한 채 신용정보점수 등의 단편적인 요소를 사용하고 있는 것이 현실이고 이에 따라 잘못된 대출로 인한 금융기관의 부실화를 초래할 위험성이 크다. 본 연구에서는 실제국내은행의 SOHO 대출 데이터 집합이 사용되었다. 먼저, 기업부도 예측 모델에서 우수하다고 연구되어진 인공신경망과 의사결정나무 추론 기법을 적용하여 보았지만 만족할 만한 성과를 이끌어내지 못하여, 기존 기업부도 예측 모델 연구에서 적용이 미비하였던 Bagging Predictors와 이를 개선한 Modified Bagging Predictors를 제시하고 이를 적용하여 보았다. 연구결과, SOHO 부도 예측에 있어서 본 연구에서 제시한 Modified Bagging Predictors가 인공신경망과 Bagging Predictors 등의 기존 기법에 비해서 성과가 향상됨을 알 수 있었다.

  • PDF

New Secret Sharing Scheme for Privacy Data Management

  • 송유진;이동혁
    • 한국정보보호학회:학술대회논문집
    • /
    • 한국정보보호학회 2006년도 하계학술대회
    • /
    • pp.765-773
    • /
    • 2006
  • In ubiquitous environment, private enterprise or public institution's privacy data are sometimes exposed to hackers because of the lack of the sense of information security. We apply secret sharing scheme to solve the privacy problems. But, the existing secret sharing scheme are not suitable for the management of large a quantity of data because that required operation of large capacity. In this paper, We propose new secret sharing scheme for privacy data management. Our scheme makes high-speed operation possible, and it also allows for set weight for each secret pieces depending on weight of participants. The scheme proposed in this paper makes it efficient to collect and manage secure privacy data in ubiquitous environment.

  • PDF