• 제목/요약/키워드: Number of training data

검색결과 948건 처리시간 0.025초

The Effect of the Number of Training Data on Speech Recognition

  • Lee, Chang-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권2E호
    • /
    • pp.66-71
    • /
    • 2009
  • In practical applications of speech recognition, one of the fundamental questions might be on the number of training data that should be provided for a specific task. Though plenty of training data would undoubtedly enhance the system performance, we are then faced with the problem of heavy cost. Therefore, it is of crucial importance to determine the least number of training data that will afford a certain level of accuracy. For this purpose, we investigate the effect of the number of training data on the speaker-independent speech recognition of isolated words by using FVQ/HMM. The result showed that the error rate is roughly inversely proportional to the number of training data and grows linearly with the vocabulary size.

훈련 데이터 개수와 훈련 횟수에 따른 과도학습과 신뢰도 분석에 대한 연구 (A Study on Reliability Analysis According to the Number of Training Data and the Number of Training)

  • 김성혁;오상진;윤근영;김완기
    • 한국인공지능학회지
    • /
    • 제5권1호
    • /
    • pp.29-37
    • /
    • 2017
  • The range of problems that can be handled by the activation of big data and the development of hardware has been rapidly expanded and machine learning such as deep learning has become a very versatile technology. In this paper, mnist data set is used as experimental data, and the Cross Entropy function is used as a loss model for evaluating the efficiency of machine learning, and the value of the loss function in the steepest descent method is We applied the Gradient Descent Optimize algorithm to minimize and updated weight and bias via backpropagation. In this way we analyze optimal reliability value corresponding to the number of exercises and optimal reliability value without overfitting. And comparing the overfitting time according to the number of data changes based on the number of training times, when the training frequency was 1110 times, we obtained the result of 92%, which is the optimal reliability value without overfitting.

비분류표시 데이타를 이용하는 분류 기반 Co-training 방법 (A Co-training Method based on Classification Using Unlabeled Data)

  • 윤혜성;이상호;박승수;용환승;김주한
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.991-998
    • /
    • 2004
  • 생물 정보학 등 많은 응용 분야에서 데이타 분석을 할 때는 적은 수의 분류표시된 데이터 (labeled data)와 많은 수의 비분류표시된 데이타(unlabeled data)가 있을 수 있다 분류표시된 자료는 사람의 노력이 요구되기 때문에 얻기가 어렵고 비용이 많이 들지만, 비분류표시된 자료는 별 어려움 없이 쉽게 얻을 수 있다. 이때 비분류표시된 자료를 이용하여 자료를 분류하고 분석하는데 널리 이용되고 있는 방법이 co-training 알고리즘이다. 이 방법은 적은 수의 분류표시된 자료에서 두 가지 뷰(view)로 각 분류자를 학습한다. 그리고 각 분류자는 분석하고자 하는 모든 비분류표시된 자료에서 가장 만족할만한 예측자들을 만들어 나간다. 이렇게 훈련 데이타 셋에서 실험을 여러 번 반복적으로 하게 되면 각 뷰에서 새로운 분류자가 학습되어 분류표시된 자료의 수가 증가한다. 본 논문에서는 비분류표시된 데이타를 이용하여 새로운 co-training 방법을 제시한다. 이 방법은 두 가지 분류자와 WebKB 및 BIND XML의 2가지 실험 데이타를 가지고 평가하였다. 실험 결과로서, 이 논문에서 제안한 co-training 방법이 분류표시된 자료의 수가 매우 적을 때 분류정확성을 효과적으로 향상시킬 수 있음을 보였다.

병원의 특성에 따른 의료 인력의 진료 생산성 결정요인 (Factors Affecting Productivity of Medical Personnel in Training Hospital)

  • 이명근
    • Journal of Preventive Medicine and Public Health
    • /
    • 제20권1호
    • /
    • pp.56-66
    • /
    • 1987
  • Information on productivity of hospital personnel is required for optimum staffing and hospital management. This study deals with the quantitative aspects of workload of medical personnel in training hospitals by their specific characteristics. Specifically this study attempted to find relevant determinants of the productivity of medical personnel using multiple stepwise regression analysis based on data obtained from 135 training hospitals. The findings of this study were as follows: 1) Daily average number of outpatients and inpatients treated by a physician were 20.4 and 10.2, respectively. 2) Daily average number of patients cared by a nurse was 8.2. Daily average number of tests performed by pathologic technician and radiologic technician were 83.2 and 21.5, respectively. 3) Productivity of medical personnel were significantly different for the three groups of factors: hospital sire (number of beds, number of medical personnel per 100 beds): institutional characteristics (medical school affiliation, training type, profit status); and environmental factors (location, number of physician and beds per 1,000 population in the region). 4) The factors a(footing the productivity varied according to the types of medical profession: the number if beds, the number of physicians per 100 beds, training type, and profit status for physicians; the number of nurses per 100 beds, the number of beds, medical school affiliation for nurses; the number of physicians per 100 beds, the number of technicians per 100 beds, and ownership for pathologic technicians; the number o( technicians, training type, and the number of physicians per 100 beds for radiologic technician.

  • PDF

Study on the Effect of Discrepancy of Training Sample Population in Neural Network Classification

  • Lee, Sang-Hoon;Kim, Kwang-Eun
    • 대한원격탐사학회지
    • /
    • 제18권3호
    • /
    • pp.155-162
    • /
    • 2002
  • Neural networks have been focused on as a robust classifier for the remotely sensed imagery due to its statistical independency and teaming ability. Also the artificial neural networks have been reported to be more tolerant to noise and missing data. However, unlike the conventional statistical classifiers which use the statistical parameters for the classification, a neural network classifier uses individual training sample in teaming stage. The training performance of a neural network is know to be very sensitive to the discrepancy of the number of the training samples of each class. In this paper, the effect of the population discrepancy of training samples of each class was analyzed with three layered feed forward network. And a method for reducing the effect was proposed and experimented with Landsat TM image. The results showed that the effect of the training sample size discrepancy should be carefully considered for faster and more accurate training of the network. Also, it was found that the proposed method which makes teaming rate as a function of the number of training samples in each class resulted in faster and more accurate training of the network.

3축 가속도 데이터를 이용한 장단기 메모리의 노드수에 따른 낙상감지 시스템 연구 (Study of Fall Detection System According to Number of Nodes of Hidden-Layer in Long Short-Term Memory Using 3-axis Acceleration Data)

  • 정승수;김남호;유윤섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.516-518
    • /
    • 2022
  • 본 논문에서는 낙상상태를 감지할 수 있는 장단기 메모리(Long Short-Term Memory)를 이용한 낙상감지 시스템에서 은닉층 노드 수 변경에 따른 영향을 소개한다. 3축 가속도 센서를 이용하여 x, y, z축 데이터를 중력 방향과 이루는 각도를 나타내는 파라미터 theta(θ)를 이용하여 훈련을 진행한다. 학습에서는 validation이 진행되어 8:2의 비율로 훈련 데이터와 테스트 데이터로 나뉘며, 효율성을 높이기 위해 은닉층의 노드 수를 변화하며 훈련을 진행한다. 노드 수가 128일 때 Accuracy 99.82%, Specificity 99.58%, Sensitivity 100%로 가장 좋은 정확도를 나타내었다.

  • PDF

심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘 (Time-domain Sound Event Detection Algorithm Using Deep Neural Network)

  • 김범준;문현기;박성욱;정영호;박영철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.472-484
    • /
    • 2019
  • 본 논문에서는 심층신경망을 이용한 시간 영역 음향 이벤트 검출 알고리즘을 제시한다. 본 시스템에서는 주파수 영역으로 변환되지 않은 시간 영역의 음향 데이터를 심층신경망의 입력으로 사용한다. 전반적인 구조는 CRNN 구조를 사용하였으며, GLU, ResNet, Squeeze-and-excitation 블럭을 적용하였다. 그리고 여러 계층에서 추출된 특징을 함께 고려하는 구조를 제안하였다. 또한 본 연구에서는 강한 라벨이 있는 훈련 데이터를 확보하는 것이 현실적으로 어렵다는 전제 아래에서 약한 라벨이 있는 훈련 데이터 약간 그리고 다수의 라벨이 없는 훈련 데이터를 활용하여 훈련을 수행하였다. 적은 수의 훈련 데이터를 효과적으로 사용하기 위해 타임 스트레칭, 피치 변화, 동적 영역 압축, 블럭 혼합 등의 데이터 증강 방법을 적용하였다. 라벨이 없는 데이터에는 의사 라벨을 붙여 부족한 훈련 데이터를 보완하였다. 본 논문에서 제안한 신경망과 데이터 증강 방법을 사용하는 경우, 종래의 방식으로 CRNN 구조의 신경망을 훈련하여 사용하는 경우보다, 음향 이벤트 검출 성능이 약 6 % (f-score 기준)가 개선되었다.

Influence on overfitting and reliability due to change in training data

  • Kim, Sung-Hyeock;Oh, Sang-Jin;Yoon, Geun-Young;Jung, Yong-Gyu;Kang, Min-Soo
    • International Journal of Advanced Culture Technology
    • /
    • 제5권2호
    • /
    • pp.82-89
    • /
    • 2017
  • The range of problems that can be handled by the activation of big data and the development of hardware has been rapidly expanded and machine learning such as deep learning has become a very versatile technology. In this paper, mnist data set is used as experimental data, and the Cross Entropy function is used as a loss model for evaluating the efficiency of machine learning, and the value of the loss function in the steepest descent method is We applied the GradientDescentOptimize algorithm to minimize and updated weight and bias via backpropagation. In this way we analyze optimal reliability value corresponding to the number of exercises and optimal reliability value without overfitting. And comparing the overfitting time according to the number of data changes based on the number of training times, when the training frequency was 1110 times, we obtained the result of 92%, which is the optimal reliability value without overfitting.

저수지 유입량 예측을 위한 신경망 모형의 특성 연구 (A Study on Characteristics of Neural Network Model for Reservoir Inflow Forecasting)

  • 김재형;윤용남
    • 한국방재학회 논문집
    • /
    • 제2권4호
    • /
    • pp.123-129
    • /
    • 2002
  • 본 연구에서는 3층 신경망 모형에 의해 충주호의 유입량을 예측한 결과들을 이용하여 신경망 모형의 저수지 유입량 예측 특성을 분석하였다. 신경망 모형의 적절한 입력층 및 은닉층 뉴런 개수, 학습회수를 제시하였으며, 학습 첨두유량 크기가 예측된 첨두유량보다 작을 경우 예측 값이 과소평가되는 특징을 확인하였다. 또한 뉴런 개수, 학습회수가 과다할 경우 발생 가능한 과적합 현상을 확인하였으며, 정확한 예측을 위해 필요한 최소 학습자료 기간도 제시하였다. 결과적으로 충주호의 경우 $8{\sim}10$개의 뉴런 개수 및 $1500{\sim}3000$회의 학습회수를 이용한 신경망 모형이 적합한 것으로, 학습자료 기간 수는 최소한 600개 이상의 자료를 적용하여야 정확한 예측이 가능한 것으로 결과되었다.

진화전략을 이용한 뉴로퍼지 시스템의 학습방법 (Training Algorithms of Neuro-fuzzy Systems Using Evolution Strategy)

  • 정성훈
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.173-176
    • /
    • 2001
  • This paper proposes training algorithms of neuro-fuzzy systems. First, we introduce a structure training algorithm, which produces the necessary number of hidden nodes from training data. From this algorithm, initial fuzzy rules are also obtained. Second, the parameter training algorithm using evolution strategy is introduced. In order to show their usefulness, we apply our neuro-fuzzy system to a nonlinear system identification problem. It was found from experiments that proposed training algorithms works well.

  • PDF