• 제목/요약/키워드: training data set

검색결과 812건 처리시간 0.025초

Classification in Different Genera by Cytochrome Oxidase Subunit I Gene Using CNN-LSTM Hybrid Model

  • Meijing Li;Dongkeun Kim
    • Journal of information and communication convergence engineering
    • /
    • 제21권2호
    • /
    • pp.159-166
    • /
    • 2023
  • The COI gene is a sequence of approximately 650 bp at the 5' terminal of the mitochondrial Cytochrome c Oxidase subunit I (COI) gene. As an effective DeoxyriboNucleic Acid (DNA) barcode, it is widely used for the taxonomic identification and evolutionary analysis of species. We created a CNN-LSTM hybrid model by combining the gene features partially extracted by the Long Short-Term Memory ( LSTM ) network with the feature maps obtained by the CNN. Compared to K-Means Clustering, Support Vector Machines (SVM), and a single CNN classification model, after training 278 samples in a training set that included 15 genera from two orders, the CNN-LSTM hybrid model achieved 94% accuracy in the test set, which contained 118 samples. We augmented the training set samples and four genera into four orders, and the classification accuracy of the test set reached 100%. This study also proposes calculating the cosine similarity between the training and test sets to initially assess the reliability of the predicted results and discover new species.

능동적 학습을 위한 군집기반 초기훈련집합 선정 (Selection of An Initial Training Set for Active Learning Using Cluster-Based Sampling)

  • 강재호;류광렬;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권7호
    • /
    • pp.859-868
    • /
    • 2004
  • 본 논문에서는 능동적 학습이 보다 적은 수의 훈련예제로도 높은 학습성능을 달성할 수 있도록 군집화기법을 이용하여 초기훈련집합을 선정하는 방안을 제안한다. 본 제안 방안은 유사한 예제들보다는 다양한 예제들로 그리고 특수한 예제들보다는 보편적인 예제들로 구성한 집합이 학습에 유리할 것이라는 가정을 바탕으로, 먼저 k-means 군집화 기법으로 예제들을 군집화한 후, 각 군집을 가장 잘 표현하는 대표예제로 개별 군집의 중심점과 가장 가까운 예제를 선정하여 초기훈련집합을 구성한다. 또한 개별 군집의 중심점을 가상의 예제로 가정하여, 이와 연관된 대표예제의 카테고리를 부여함으로써 추가의 훈련예제로 활용하는 방안을 함께 제안한다. 여러 문서 분류 문제를 대상으로 실험한 결과, 본 제안 방안으로 선정한 초기훈련집합에서 출발한 능동적 학습이 임의로 선정한 초기훈련집합에서 출발한 경우에 비해 보다 적은 수의 훈련예제로도 동등한 성능을 달성할 수 있음을 확인하였다.

계층적 군집화를 이용한 능동적 학습 (Active Learning based on Hierarchical Clustering)

  • 우호영;박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권10호
    • /
    • pp.705-712
    • /
    • 2013
  • 능동적 학습(active learning)은 소수의 라벨 데이터로 구성된 훈련 집합이 주어진 경우에 분류기 학습에 가장 도움이 될 만한 언라벨드 데이터를 선택하여 전문가에 의한 라벨링을 통해 훈련 집합에 포함시키는 과정을 반복함으로써 분류기의 성능을 향상시키는 것을 목적으로 한다. 본 논문에서는 워드 연결(ward's linkage)을 이용한 계층적 군집화(hierarchical clustering)를 바탕으로 한 능동적 학습 방법을 제안한다. 제안된 방법은 각 군집에서 적어도 하나의 샘플을 포함하도록 초기 훈련 집합을 능동적으로 구성하거나 또는 기존의 훈련 집합을 확장함으로써 전체 데이터 분포를 반영할 수 있게 한다. 기존의 능동적 학습 방법들 중 대부분은 초기 훈련 집합이 주어져 있을 경우를 가정하는 반면에 제안하는 방법은 초기 클래스 정보를 가진 훈련 데이터가 주어지지 않은 경우와 주어진 경우에 모두 적용 가능하다. 실험을 통하여 제안하는 방법이 비교 방법들에 비해 분류기 성능을 크게 향상시킬 수 있는 효과적인 데이터 선택을 수행함을 보인다.

프로토타입 선택을 이용한 최근접 분류 학습의 성능 개선 (Performance Improvement of Nearest-neighbor Classification Learning through Prototype Selections)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 최근접 이웃 분류에서 입력 데이터의 클래스는 선택된 근접 학습 데이터들 중에서 가장 빈번한 클래스로 예측된다. 최근접분류 학습은 학습 단계가 없으나, 준비된 데이터가 모두 예측 분류에 참여하여 일반화 성능이 학습 데이터의 질에 의존된다. 그러므로 학습 데이터가 많아지면 높은 기억 장치 용량과 예측 분류 시 높은 계산 시간이 요구된다. 본 논문에서는 분리 경계면에 위치한 학습 데이터들로 구성된 새로운 학습 데이터를 생성시켜 분류 예측을 수행하는 프로토타입 선택 알고리즘을 제안한다. 제안하는 알고리즘에서는 분리 경계 영역에 위치한 데이터를 Tomek links와 거리를 이용하여 선별하며, 이미 선택된 데이터와 클래스와 거리 관계 분석을 이용하여 프로토타입 집합에 추가 여부를 결정한다. 실험에서 선택된 프로토타입의 수는 원래 학습 데이터에 비해 적은 수의 데이터 집합이 되어 최근접 분류의 적용 시 기억장소의 축소와 빠른 예측 시간을 제공할수 있다.

혼화재 혼입에 따른 콘크리트 배합요소 산정을 위한 DNN 기반의 예측모델 제안 (Proposal of DNN-based predictive model for calculating concrete mixing proportions accroding to admixture)

  • 최주희;이광수;이한승
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2022년도 가을 학술논문 발표대회
    • /
    • pp.57-58
    • /
    • 2022
  • Concrete mix design is used as essential data for the quality of concrete, analysis of structures, and stable use of sustainable structures. However, since most of the formulation design is established based on the experience of experts, there is a lack of data to base it on. are suffering Accordingly, in this study, the purpose of this study is to build a predictive model to use the concrete mixing factor as basic data for calculation using the DNN technique. As for the data set for DNN model learning, OPC and ternary concrete data were collected according to the presence or absence of admixture, respectively, and the model was separated for OPC and ternary concrete, and training was carried out. In addition, by varying the number of hidden layers of the DNN model, the prediction performance was evaluated according to the model structure. The higher the number of hidden layers in the model, the higher the predictive performance for the prediction of the mixing elements except for the compressive strength factor set as the output value, and the ternary concrete model showed higher performance than the OPC. This is expected because the data set used when training the model also affected the training.

  • PDF

Estimation of Collapse Moment for Wall Thinned Elbows Using Fuzzy Neural Networks

  • Na, Man-Gyun;Kim, Jin-Weon;Shin, Sun-Ho;Kim, Koung-Suk;Kang, Ki-Soo
    • 비파괴검사학회지
    • /
    • 제24권4호
    • /
    • pp.362-370
    • /
    • 2004
  • In this work, the collapse moment due to wall-thinning defects is estimated by using fuzzy neural networks. The developed fuzzy neural networks have been applied to the numerical data obtained from the finite element analysis. Principal component analysis is used to preprocess the input signals into the fuzzy neural network to reduce the sensitivity to the input change and the fuzzy neural networks are trained by using the data set prepared for training (training data) and verified by using another data set different (independent) from the training data. Also, two fuzzy neural networks are trained for two data sets divided into the two classes of extrados and intrados defects, which is because they have different characteristics. The relative 2-sigma errors of the estimated collapse moment are 3.07% for the training data and 4.12% for the test data. It is known from this result that the fuzzy neural networks are sufficiently accurate to be used in the wall-thinning monitoring of elbows.

유사물체 치환증강을 통한 기동장비 물체 인식 성능 향상 (Object Detection Accuracy Improvements of Mobility Equipments through Substitution Augmentation of Similar Objects)

  • 허지성;박지훈
    • 한국군사과학기술학회지
    • /
    • 제25권3호
    • /
    • pp.300-310
    • /
    • 2022
  • A vast amount of labeled data is required for deep neural network training. A typical strategy to improve the performance of a neural network given a training data set is to use data augmentation technique. The goal of this work is to offer a novel image augmentation method for improving object detection accuracy. An object in an image is removed, and a similar object from the training data set is placed in its area. An in-painting algorithm fills the space that is eliminated but not filled by a similar object. Our technique shows at most 2.32 percent improvements on mAP in our testing on a military vehicle dataset using the YOLOv4 object detector.

Displacement prediction of precast concrete under vibration using artificial neural networks

  • Aktas, Gultekin;Ozerdem, Mehmet Sirac
    • Structural Engineering and Mechanics
    • /
    • 제74권4호
    • /
    • pp.559-565
    • /
    • 2020
  • This paper intends to progress models to accurately estimate the behavior of fresh concrete under vibration using artificial neural networks (ANNs). To this end, behavior of a full scale precast concrete mold was investigated numerically. Experimental study was carried out under vibration with the use of a computer-based data acquisition system. In this study measurements were taken at three points using two vibrators. Transducers were used to measure time-dependent lateral displacements at these points on mold while both mold is empty and full of fresh concrete. Modeling of empty and full mold was made using ANNs. Benefiting ANNs used in this study for modeling fresh concrete, mold design can be performed. For the modeling of ANNs: Experimental data were divided randomly into two parts such as training set and testing set. Training set was used for ANN's learning stage. And the remaining part was used for testing the ANNs. Finally, ANN modeling was compared with measured data. The comparisons show that the experimental data and ANN results are compatible.

YOLOv4 네트워크를 이용한 자동운전 데이터 분할이 검출성능에 미치는 영향 (Influence of Self-driving Data Set Partition on Detection Performance Using YOLOv4 Network)

  • 왕욱비;진락;이추담;손진구;정석용;송정영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.157-165
    • /
    • 2020
  • 뉴-럴 네트워크와 자동운전 데이터 셋을 개발하는 목표중의 하나가 데이터 셋을 분할함에 따라서 움직이는 물체를 검출하는 성능을 개선하는 방법이 있다. 다크넷 (DarkNet) 프레임 워크에 있어서, YOLOv4 네트워크는 Udacity 데이터 셋에서 훈련하는 셋과 검증 셋으로 사용되었다. Udacity 데이터 셋의 7개 비율에 따라서 이 데이터 셋은 훈련 셋, 검증 셋, 테스트 셋을 포함한 3개의 부분 셋으로 나누어진다. K-means++ 알고리즘은 7개 그룹에서 개체 Box 차원 군집화를 수행하기 위해 사용되었다. 훈련을 위한 YOLOv4 네트워크의 슈퍼 파라메타를 조절하여 7개 그룹들에 대하여 최적 모델 파라메타가 각각 구해졌다. 이 모델 파라메타는 각각 7 개 테스트 셋 데이터에 비교하고 검출에 사용되었다. 실험결과에서 YOLOv4 네트워크는 Udacity 데이터 셋에서 트럭, 자동차, 행인으로 표현되는 움직이는 물체에 대하여 대/중/소 물체 검출을 할수 있음을 보여 주었다. 훈련 셋과 검증 셋, 테스트 셋의 비율이 7 ; 1.5 ; 1.5 일 때 최적의 모델 파라메타로서 가장 높은 검출 성능이었다. 그 결과값은, mAP50가 80.89%, mAP75가 47.08%에 달하고, 검출 속도는 10.56 FPS에 달한다.

Effects of Hyper-parameters and Dataset on CNN Training

  • Nguyen, Huu Nhan;Lee, Chanho
    • 전기전자학회논문지
    • /
    • 제22권1호
    • /
    • pp.14-20
    • /
    • 2018
  • The purpose of training a convolutional neural network (CNN) is to obtain weight factors that give high classification accuracies. The initial values of hyper-parameters affect the training results, and it is important to train a CNN with a suitable hyper-parameter set of a learning rate, a batch size, the initialization of weight factors, and an optimizer. We investigate the effects of a single hyper-parameter while others are fixed in order to obtain a hyper-parameter set that gives higher classification accuracies and requires shorter training time using a proposed VGG-like CNN for training since the VGG is widely used. The CNN is trained for four datasets of CIFAR10, CIFAR100, GTSRB and DSDL-DB. The effects of the normalization and the data transformation for datasets are also investigated, and a training scheme using merged datasets is proposed.