• Title/Summary/Keyword: Training Datasets

Search Result 344, Processing Time 0.031 seconds

다중 스태킹을 가진 새로운 앙상블 학습 기법 (A New Ensemble Machine Learning Technique with Multiple Stacking)

  • 이수은;김한준
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.1-13
    • /
    • 2020
  • 기계학습(machine learning)이란 주어진 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델(model) 생성 기술을 의미한다. 우수한 성능의 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 준비되어야 한다. 성능 개선을 위한 한 가지 방법으로서 앙상블(Ensemble) 기법은 단일 모델(single model)을 생성하기보다 다중 모델을 생성하며, 이는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 학습 기법을 포함한다. 본 논문은 기존 스태킹 기법을 개선한 다중 스태킹 앙상블(Multiple Stacking Ensemble) 학습 기법을 제안한다. 다중 스태킹 앙상블 기법의 학습 구조는 딥러닝 구조와 유사하고 각 레이어가 스태킹 모델의 조합으로 구성되며 계층의 수를 증가시켜 각 계층의 오분류율을 최소화하여 성능을 개선한다. 4가지 유형의 데이터셋을 이용한 실험을 통해 제안 기법이 기존 기법에 비해 분류 성능이 우수함을 보인다.

Genome-Wide Analysis of Type VI System Clusters and Effectors in Burkholderia Species

  • Nguyen, Thao Thi;Lee, Hyun-Hee;Park, Inmyoung;Seo, Young-Su
    • The Plant Pathology Journal
    • /
    • 제34권1호
    • /
    • pp.11-22
    • /
    • 2018
  • Type VI secretion system (T6SS) has been discovered in a variety of gram-negative bacteria as a versatile weapon to stimulate the killing of eukaryotic cells or prokaryotic competitors. Type VI secretion effectors (T6SEs) are well known as key virulence factors for important pathogenic bacteria. In many Burkholderia species, T6SS has evolved as the most complicated secretion pathway with distinguished types to translocate diverse T6SEs, suggesting their essential roles in this genus. Here we attempted to detect and characterize T6SSs and potential T6SEs in target genomes of plant-associated and environmental Burkholderia species based on computational analyses. In total, 66 potential functional T6SS clusters were found in 30 target Burkholderia bacterial genomes, of which 33% possess three or four clusters. The core proteins in each cluster were specified and phylogenetic trees of three components (i.e., TssC, TssD, TssL) were constructed to elucidate the relationship among the identified T6SS clusters. Next, we identified 322 potential T6SEs in the target genomes based on homology searches and explored the important domains conserved in effector candidates. In addition, using the screening approach based on the profile hidden Markov model (pHMM) of T6SEs that possess markers for type VI effectors (MIX motif) (MIX T6SEs), 57 revealed proteins that were not included in training datasets were recognized as novel MIX T6SE candidates from the Burkholderia species. This approach could be useful to identify potential T6SEs from other bacterial genomes.

고밀도 그리드 모델과 앵커모델을 이용한 동적 객체검지 향상에 관한 연구 (A Study on Improvement of Dynamic Object Detection using Dense Grid Model and Anchor Model)

  • 윤보른;이선우;최경호;이상민;권장우
    • 한국ITS학회 논문지
    • /
    • 제17권3호
    • /
    • pp.98-110
    • /
    • 2018
  • 본 논문은, 동적인 객체의 인식률 향상을 위해 고밀도 그리드 모델과 앵커 모델을 제안하였다. 두 가지 실험은 수행하여 제안하는 CNN 모델들을 제안하였다. 첫 번째 실험에 있어서, YOLO-v2모델을 KITTI 데이터 셋에 적용시켜 보았고, 고밀도 그리드 모델과 앵커 모델을 기존 YOLO-v2와 비교하였다. 실험에 있어서, 본 논문에서 제안하는 두 가지 모델은 기존의 YOLO-v2모델에 비하여 '어려움' 난이도의 자동차 검지에 있어서 6.26%에서 10.99%까지 우수한 성능을 나타낸 것을 확인하였다. 두 번째 실험에 있어서는 새로운 데이터 셋을 학습하였고, 두 가지 모델은 기존의 YOLO-v2모델보다 22.4%까지 '어려움' 난이도의 자동차 인식률 향상이 있음을 확인할 수 있었다.

나이브 베이스 분류기를 이용한 유전발현 데이타기반 암 분류를 위한 순위기반 다중클래스 유전자 선택 (Rank-based Multiclass Gene Selection for Cancer Classification with Naive Bayes Classifiers based on Gene Expression Profiles)

  • 홍진혁;조성배
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권8호
    • /
    • pp.372-377
    • /
    • 2008
  • 최근 활발히 연구가 진행 중인 유전발현 데이타를 이용한 다중클래스 암 분류는 DNA 마이크로어레이로부터 획득된 대규모의 유전자 정보를 분석하여 암의 종류를 판단한다. 수집된 유전발현 데이타에는 대상 암과 관련이 없는 유전자도 포함되어 있기 때문에 높은 성능의 분류 결과를 얻기 위해서 유용한 유전자를 선택하는 것이 필요하다. 기존의 순위기반 유전자 선택은 이진클래스를 대상으로 고안되었고 이상표식 유전자(Ideal marker gene)를 이용하기 때문에 다중클래스 암 분류에 직접 적용하기에는 한계가 있다. 본 논문에서는 이상표식 유전자를 사용하지 않고 유전발현 수준의 분포를 직접 분석하는 순위기반 다중클래스 유전자 선택 기법을 제안한다. 유전발현 수준을 이산화하고 학습 데이타로부터 빈도를 계산하여 클래스 간 분별력을 측정한 후, 선택된 유전자를 이용하여 나이브 베이즈 분류기를 사용해 다중 암 분류를 수행한다. 제안하는 방법을 다수의 다중클래스 암 분류 데이타에 적용하여 기존 유전자 선택 방법에 비해 우수함을 확인하였다.

Deep Convolutional Neural Network를 이용한 주차장 차량 계수 시스템 (Parking Lot Vehicle Counting Using a Deep Convolutional Neural Network)

  • 림 쿠이 송;권장우
    • 한국ITS학회 논문지
    • /
    • 제17권5호
    • /
    • pp.173-187
    • /
    • 2018
  • 본 논문에서는 주차장 관리 시스템의 한 부분으로 차량 계수를 위한 감시 카메라 시스템의 컴퓨터 비전과 심층 학습 기반 기법을 제안하고자 한다. You Only Look Once 버전 2 (YOLOv2) 탐지기를 적용하고 YOLOv2 기반의 심층 컨볼루션 신경망(CNN)을 다른 아키텍처와 두 가지 모델로 구성하였다. 제안 된 아키텍처의 효과를 Udacity의 자체 운전 차량 데이터 세트를 사용하여 설명하였다. 학습 및 테스트 결과, 자동차, 트럭 및 보행자 탐지 시 원래 구조(YOLOv2)의 경우 47.89%의 mAP를 나타내는 것에 비하여, 제안하는 모델의 경우 64.30 %의 mAP를 달성하여 탐지 정확도가 향상되었음을 증명하였다.

Diagnosis and prediction of periodontally compromised teeth using a deep learning-based convolutional neural network algorithm

  • Lee, Jae-Hong;Kim, Do-hyung;Jeong, Seong-Nyum;Choi, Seong-Ho
    • Journal of Periodontal and Implant Science
    • /
    • 제48권2호
    • /
    • pp.114-123
    • /
    • 2018
  • Purpose: The aim of the current study was to develop a computer-assisted detection system based on a deep convolutional neural network (CNN) algorithm and to evaluate the potential usefulness and accuracy of this system for the diagnosis and prediction of periodontally compromised teeth (PCT). Methods: Combining pretrained deep CNN architecture and a self-trained network, periapical radiographic images were used to determine the optimal CNN algorithm and weights. The diagnostic and predictive accuracy, sensitivity, specificity, positive predictive value, negative predictive value, receiver operating characteristic (ROC) curve, area under the ROC curve, confusion matrix, and 95% confidence intervals (CIs) were calculated using our deep CNN algorithm, based on a Keras framework in Python. Results: The periapical radiographic dataset was split into training (n=1,044), validation (n=348), and test (n=348) datasets. With the deep learning algorithm, the diagnostic accuracy for PCT was 81.0% for premolars and 76.7% for molars. Using 64 premolars and 64 molars that were clinically diagnosed as severe PCT, the accuracy of predicting extraction was 82.8% (95% CI, 70.1%-91.2%) for premolars and 73.4% (95% CI, 59.9%-84.0%) for molars. Conclusions: We demonstrated that the deep CNN algorithm was useful for assessing the diagnosis and predictability of PCT. Therefore, with further optimization of the PCT dataset and improvements in the algorithm, a computer-aided detection system can be expected to become an effective and efficient method of diagnosing and predicting PCT.

Plant breeding in the 21st century: Molecular breeding and high throughput phenotyping

  • Sorrells, Mark E.
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2017년도 9th Asian Crop Science Association conference
    • /
    • pp.14-14
    • /
    • 2017
  • The discipline of plant breeding is experiencing a renaissance impacting crop improvement as a result of new technologies, however fundamental questions remain for predicting the phenotype and how the environment and genetics shape it. Inexpensive DNA sequencing, genotyping, new statistical methods, high throughput phenotyping and gene-editing are revolutionizing breeding methods and strategies for improving both quantitative and qualitative traits. Genomic selection (GS) models use genome-wide markers to predict performance for both phenotyped and non-phenotyped individuals. Aerial and ground imaging systems generate data on correlated traits such as canopy temperature and normalized difference vegetative index that can be combined with genotypes in multivariate models to further increase prediction accuracy and reduce the cost of advanced trials with limited replication in time and space. Design of a GS training population is crucial to the accuracy of prediction models and can be affected by many factors including population structure and composition. Prediction models can incorporate performance over multiple environments and assess GxE effects to identify a highly predictive subset of environments. We have developed a methodology for analyzing unbalanced datasets using genome-wide marker effects to group environments and identify outlier environments. Environmental covariates can be identified using a crop model and used in a GS model to predict GxE in unobserved environments and to predict performance in climate change scenarios. These new tools and knowledge challenge the plant breeder to ask the right questions and choose the tools that are appropriate for their crop and target traits. Contemporary plant breeding requires teams of people with expertise in genetics, phenotyping and statistics to improve efficiency and increase prediction accuracy in terms of genotypes, experimental design and environment sampling.

  • PDF

A Comparison of Deep Reinforcement Learning and Deep learning for Complex Image Analysis

  • Khajuria, Rishi;Quyoom, Abdul;Sarwar, Abid
    • Journal of Multimedia Information System
    • /
    • 제7권1호
    • /
    • pp.1-10
    • /
    • 2020
  • The image analysis is an important and predominant task for classifying the different parts of the image. The analysis of complex image analysis like histopathological define a crucial factor in oncology due to its ability to help pathologists for interpretation of images and therefore various feature extraction techniques have been evolved from time to time for such analysis. Although deep reinforcement learning is a new and emerging technique but very less effort has been made to compare the deep learning and deep reinforcement learning for image analysis. The paper highlights how both techniques differ in feature extraction from complex images and discusses the potential pros and cons. The use of Convolution Neural Network (CNN) in image segmentation, detection and diagnosis of tumour, feature extraction is important but there are several challenges that need to be overcome before Deep Learning can be applied to digital pathology. The one being is the availability of sufficient training examples for medical image datasets, feature extraction from whole area of the image, ground truth localized annotations, adversarial effects of input representations and extremely large size of the digital pathological slides (in gigabytes).Even though formulating Histopathological Image Analysis (HIA) as Multi Instance Learning (MIL) problem is a remarkable step where histopathological image is divided into high resolution patches to make predictions for the patch and then combining them for overall slide predictions but it suffers from loss of contextual and spatial information. In such cases the deep reinforcement learning techniques can be used to learn feature from the limited data without losing contextual and spatial information.

신문기사와 소셜 미디어를 활용한 한국어 문서요약 데이터 구축 (Building a Korean Text Summarization Dataset Using News Articles of Social Media)

  • 이경호;박요한;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권8호
    • /
    • pp.251-258
    • /
    • 2020
  • 문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다. 그렇기 때문에 온라인으로 쉽게 수집 가능하며 문서의 품질이 우수한 인터넷 신문기사가 문서 요약 연구에 많이 활용되어 왔다. 본 연구에서는 언론사가 소셜 미디어에 게시한 설명글과 제목, 부제를 본문의 요약으로 사용하여 한국어 문서 요약 데이터를 구성하는 것을 제안한다. 약 425,000개의 신문기사와 그 요약데이터를 구축할 수 있었다. 구성한 데이터의 유용성을 보이기 위해 추출 요약 시스템을 구현하였다. 본 연구에서 구축한 데이터로 학습한 교사 학습 모델과 비교사 학습 모델의 성능을 비교하였다. 실험 결과 제안한 데이터로 학습한 모델이 비교사 학습 알고리즘에 비해 더 높은 ROUGE 점수를 보였다.

베이지안 신경망을 이용한 보행자 사망확률모형 개발 (Development of Pedestrian Fatality Model using Bayesian-Based Neural Network)

  • 오철;강연수;김범일
    • 대한교통학회지
    • /
    • 제24권2호
    • /
    • pp.139-145
    • /
    • 2006
  • 본 논문에서는 보행-차량 충돌사고 시 보행자 사망 여부를 확률적으로 예측할 수 있는 모형을 개발하였다. 베이지안 신경망을 적용하여 보행자 사망확률모형을 개발하고, 로지스틱 회귀분석 기법 기반의 모형과 예측력을 비교하였다. 본 연구를 위하여 개별 교통사고 자료를 수집하였으며, 교통사고 재현을 통해 사고 당시의 충돌속도를 추정하여 보행자 연령, 차종과 함께 모형의 독립변수로 사용하였다. 보다 정확하고 신뢰성 있는 모형개발을 위해 반복적 샘플링기법을 적용하여, 다양한 학습자료 및 테스트 자료를 구성하고 모형의 성능을 평가하였다 본 연구를 통해 개발된 모형은 보행자 보호를 위한 첨단차량기술 개발, 제한속도의 설정 등 다양한 정책 및 관련기술의 개발을 지원하는 유용한 도구로 사용될 것으로 기대된다.