• 제목/요약/키워드: training data

검색결과 7,367건 처리시간 0.031초

트리 기법을 사용하는 세미감독형 결함 예측 모델 (Semi-supervised Model for Fault Prediction using Tree Methods)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.107-113
    • /
    • 2020
  • 매우 많은 소프트웨어 결함 예측에 관한 연구들이 수행되어왔지만 대부분은 라벨 데이터를 훈련 데이터로 사용하는 감독형 모델들이었다. 언라벨 데이터만을 사용하는 비감독형 모델이나 언라벨 데이터와 매우 적은 라벨 데이터 정보를 함께 사용하는 세미감독형 모델에 관한 연구는 극소수에 불과하다. 본 논문은 Self-training 기법에 트리 알고리즘들을 사용하여 새로운 세미감독형 모델들을 제작하였다. 세미감독형 기법인 Self-training 모델에 트리 기법들을 사용하는 새로운 세미감독형 모델들을 제작하였다. 모델 평가 실험 결과 새롭게 제작한 트리 모델들이 기존 모델들보다 더 나은 성능을 보였으며, 특히 CollectiveWoods는 타 모델들에 비해 압도적으로 우월한 성능을 보였다. 또한 매우 적은 라벨 데이터 보유 상황에서도 매우 안정적인 성능을 보였다.

벡터양자화기의 코드북을 구하는 새로운 고속 학습 알고리듬 (A New Fast Training Algorithm for Vector Quantizer Design)

  • 이대룡;백성준;성굉모
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.107-112
    • /
    • 1996
  • 본 논문에서는 코드북 학습 알고리듬의 대표적인 LBG 알고리듬의 탐색시간을 줄이기 위한 새로운 고속 학습 알고리듬을 제안한다. 제안한 알고리듬은 각 학습데이타가 모든 코드워드를 탐색하지 않고, 먼저 첫 번째 단계에서 각 학습데이타의 주위에 있는 일정한 개수의 코드워드에 대한 인덱스(index) 정보를 저장하고, 다음 단계에서부터는 이 인덱스가 가리키는 코드워드만을 탐색대상으로 함으로써 학습시간을 줄이는 것이다. 제안한 알고리듬을 기존의 고속 탐색 알고리듬인 FSLBG 알고리듬과 비교하면 제안한 알고리듬이 더 짧은 학습시간으로 더 좋은 성능을 갖는 코드북을 얻을 수 있음을 보인다. 또한 제안한 알고리듬을 LBG 알고리듬과 비교하면 영상데이타에 대해 코드북의 크기가 256인 경우에는 약 6%, 코드북의 크기가 1024인 경우에는 약 1.6%인 16개의 코드워드만을 탐색대상으로 해서 PSNR(peak signal-to-noise ratio)면에서 거의 성능이 같은 코드북을 생성할 수 있음을 보이고 있다.

  • PDF

Deep survey using deep learning: generative adversarial network

  • Park, Youngjun;Choi, Yun-Young;Moon, Yong-Jae;Park, Eunsu;Lim, Beomdu;Kim, Taeyoung
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.78.1-78.1
    • /
    • 2019
  • There are a huge number of faint objects that have not been observed due to the lack of large and deep surveys. In this study, we demonstrate that a deep learning approach can produce a better quality deep image from a single pass imaging so that could be an alternative of conventional image stacking technique or the expensive large and deep surveys. Using data from the Sloan Digital Sky Survey (SDSS) stripe 82 which provide repeatedly scanned imaging data, a training data set is constructed: g-, r-, and i-band images of single pass data as an input and r-band co-added image as a target. Out of 151 SDSS fields that have been repeatedly scanned 34 times, 120 fields were used for training and 31 fields for validation. The size of a frame selected for the training is 1k by 1k pixel scale. To avoid possible problems caused by the small number of training sets, frames are randomly selected within that field each iteration of training. Every 5000 iterations of training, the performance were evaluated with RMSE, peak signal-to-noise ratio which is given on logarithmic scale, structural symmetry index (SSIM) and difference in SSIM. We continued the training until a GAN model with the best performance is found. We apply the best GAN-model to NGC0941 located in SDSS stripe 82. By comparing the radial surface brightness and photometry error of images, we found the possibility that this technique could generate a deep image with statistics close to the stacked image from a single-pass image.

  • PDF

준지도 지지 벡터 회귀 모델을 이용한 반응 모델링 (Response Modeling with Semi-Supervised Support Vector Regression)

  • 김동일
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.125-139
    • /
    • 2014
  • 본 논문에서는 준지도 지지 벡터 회귀 모델(semi-supervised support vector regression)을 이용한 반응 모델링(response modeling)을 제안한다. 반응 모델링의 성능 및 수익성을 높이기 위해, 고객 데이터 셋의 대부분을 차지하는 레이블이 존재하지 않는 데이터를 기존 레이블이 존재하는 데이터와 함께 학습에 이용한다. 제안하는 알고리즘은 학습 복잡도를 낮은 수준으로 유지하기 위해 일괄 학습(batch learning) 방식을 사용한다. 레이블 없는 데이터의 레이블 추정에서 불확실성(uncertainty)을 고려하기 위해, 분포추정(distribution estimation)을 하여 레이블이 존재할 수 있는 영역을 정의한다. 그리고 추정된 레이블 영역으로부터 오버샘플링(oversampling)을 통해 각 레이블이 없는 데이터에 대한 레이블을 복수 개 추출하여 학습 데이터 셋을 구성한다. 이 때, 불확실성의 정도에 따라 샘플링 비율을 다르게 함으로써, 불확실한 영역에 대해 더 많은 정보를 발생시킨다. 마지막으로 지능적 학습 데이터 선택 기법을 적용하여 학습 복잡도를 최종적으로 감소시킨다. 제안된 반응 모델링의 성능 평가를 위해, 실제 마케팅 데이터 셋에 대해 다양한 레이블 데이터 비율로 실험을 진행하였다. 실험 결과 제안된 준지도 지지 벡터 회귀 모델을 이용한 반응 모델이 기존 모델에 비해 더 높은 정확도 및 수익을 가질 수 있다는 점을 확인하였다.

Efficient Training Data Construction Scheme for Prediction of Transferring Students

  • Lee, Ji-Young;Song, Gyu-Moon;Kim, Tae-Yoon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.481-488
    • /
    • 2003
  • Kim et al.(2003) studied a prediction model for students likely to transfer. In their study they claim that a training data construction scheme is better than other schemes, which trains neural network on the data from the year right before prediction year. One problem with their claim is that it is based on rather high prediction error rate. In this paper we establish a more sound comparison for various training data construction schemes and check validity of their claim. It turns out that the favored scheme has sufficient advantages over other schemes.

  • PDF

계급불균형자료의 분류: 훈련표본 구성방법에 따른 효과 (Classification of Class-Imbalanced Data: Effect of Over-sampling and Under-sampling of Training Data)

  • 김지현;정종빈
    • 응용통계연구
    • /
    • 제17권3호
    • /
    • pp.445-457
    • /
    • 2004
  • 두 계급의 분류문제에서 두 계급의 관측 개체수가 심하게 불균형을 이룬 자료를 분석할 때, 흔히 인위적으로 두 계급의 크기를 비슷하게 해준 다음 분석한다. 본 연구에서는 이런 훈련표본 구성방법의 타당성에 대해 알아보았다. 또한 훈련표본의 구성방법이 부스팅에 미치는 효과에 대해서도 알아보았다. 12개의 실제 자료에 대한 실험 결과 나무모형으로 부스팅 기법을 적용할 때는 훈련표본을 그대로 둔 채 분석하는 것이 좋다는 결론을 얻었다.

위치인식 기반의 군사 시뮬레이션 및 가상훈련 관리 시스템 (Location-Based Military Simulation and Virtual Training Management System)

  • 전현민;김재완
    • 한국멀티미디어학회논문지
    • /
    • 제20권1호
    • /
    • pp.51-57
    • /
    • 2017
  • The purpose of this study is to design a system that can be used for military simulation and virtual training using the location information of individual soldier's weapons. After acquiring the location information using Arduino's GPS shield, it is designed to transmit data to the Smartphone using Bluetooth Shield, and transmit the data to the server using 3G/4G of Smartphone in real time. The server builds the system to measure, analyze and manage the current position and the tracking information of soldier. Using this proposed system makes it easier to analyze the training situation for individual soldiers and expect better training results.

Video augmentation technique for human action recognition using genetic algorithm

  • Nida, Nudrat;Yousaf, Muhammad Haroon;Irtaza, Aun;Velastin, Sergio A.
    • ETRI Journal
    • /
    • 제44권2호
    • /
    • pp.327-338
    • /
    • 2022
  • Classification models for human action recognition require robust features and large training sets for good generalization. However, data augmentation methods are employed for imbalanced training sets to achieve higher accuracy. These samples generated using data augmentation only reflect existing samples within the training set, their feature representations are less diverse and hence, contribute to less precise classification. This paper presents new data augmentation and action representation approaches to grow training sets. The proposed approach is based on two fundamental concepts: virtual video generation for augmentation and representation of the action videos through robust features. Virtual videos are generated from the motion history templates of action videos, which are convolved using a convolutional neural network, to generate deep features. Furthermore, by observing an objective function of the genetic algorithm, the spatiotemporal features of different samples are combined, to generate the representations of the virtual videos and then classified through an extreme learning machine classifier on MuHAVi-Uncut, iXMAS, and IAVID-1 datasets.

온라인 교육이 훈련교과성에 미치는 영향에 관한 실증적 연구 (Effect of Online Education on Training Effectiveness: Conceptual Framework and Empirical Validation)

  • 김정욱;남기찬
    • 한국전자거래학회지
    • /
    • 제12권4호
    • /
    • pp.185-209
    • /
    • 2007
  • 최근의 정보기술 개발은 온라인 훈련에 기여하였으며 이러닝 혹은 가상 교육 등과 같이 유사한 개념으로 사용되고 있는 기업에서의 온라인 교육은 피교육자에게 다양한 방법으로 교육 기회를 제공하고 있다. 또한 전자적인 측면에서 일괄 서비스 체계의 솔류션을 제공하는 혁신 서비스로서의 기능을 제공하고 있으며 온라인 교육 환경하에서는 교육자와 피교육자가 시간과 장소에 구애받지 않고 개인화된 교육 패키지를 공급할 수 있게 한다. 본 논문에서는 온라인 교육에 영향을 미치는 요인들을 독립 변수로 하고 교육 성과와 전달 성과의 두 가지 측면에서의 교육 효과성을 종속 변수로 하는 관계를 실증적으로 검증하였다. 기존의 연구 결과를 기반으로 8개의 가정을 설정하고 설문서를 작성하여 LISREL을 이용하여 분석 한 결과 피교육자에 기인된 개별적 변수와 조직 변수가 훈련 효과성과 유의성이 있는 것으로 나타났다

  • PDF

최근 배출된 전문의의 개원지역 선택에 영향을 미치는 개인요인 분석 (Individual factors influencing the location decisions of practicing physicians)

  • 김창엽;윤석준;이진석;김용익
    • 보건행정학회지
    • /
    • 제9권3호
    • /
    • pp.21-32
    • /
    • 1999
  • The purpose of this study is to assess individual decisive factors for distribution of medical specialists in Korea. A data set was constructed using several published data sources. including the Korean Medical Association's physician master file as a principal source for physician information. Linear logistic regression analysis was performed to assess the relationship between the location of private specialist clinic for practice with six variables related with individual characteristics: age. sex. location of postgraduate training hospital. location of medical school graduated, size of hospital for training, and specialty. Analysis showed that location of practice. classified into urban and rural areas, was significantly associated with the variables of sex. location of postgraduate training hospital. location of medical school. In addition, significant association was found between the location of practice which was categorized into "near-Seoul area" and others, and sex, location of postgraduate training hospital. and location of medical school. We could conclude that to improve area maldistribution of physicians locations of hospitals for training and medical schools have to have the highest priority in the policymaking.icymaking.

  • PDF