• 제목/요약/키워드: hyperparameters

검색결과 158건 처리시간 0.024초

Hyperparameter experiments on end-to-end automatic speech recognition

  • Yang, Hyungwon;Nam, Hosung
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.45-51
    • /
    • 2021
  • End-to-end (E2E) automatic speech recognition (ASR) has achieved promising performance gains with the introduced self-attention network, Transformer. However, due to training time and the number of hyperparameters, finding the optimal hyperparameter set is computationally expensive. This paper investigates the impact of hyperparameters in the Transformer network to answer two questions: which hyperparameter plays a critical role in the task performance and training speed. The Transformer network for training has two encoder and decoder networks combined with Connectionist Temporal Classification (CTC). We have trained the model with Wall Street Journal (WSJ) SI-284 and tested on devl93 and eval92. Seventeen hyperparameters were selected from the ESPnet training configuration, and varying ranges of values were used for experiments. The result shows that "num blocks" and "linear units" hyperparameters in the encoder and decoder networks reduce Word Error Rate (WER) significantly. However, performance gain is more prominent when they are altered in the encoder network. Training duration also linearly increased as "num blocks" and "linear units" hyperparameters' values grow. Based on the experimental results, we collected the optimal values from each hyperparameter and reduced the WER up to 2.9/1.9 from dev93 and eval93 respectively.

Supervised learning-based DDoS attacks detection: Tuning hyperparameters

  • Kim, Meejoung
    • ETRI Journal
    • /
    • 제41권5호
    • /
    • pp.560-573
    • /
    • 2019
  • Two supervised learning algorithms, a basic neural network and a long short-term memory recurrent neural network, are applied to traffic including DDoS attacks. The joint effects of preprocessing methods and hyperparameters for machine learning on performance are investigated. Values representing attack characteristics are extracted from datasets and preprocessed by two methods. Binary classification and two optimizers are used. Some hyperparameters are obtained exhaustively for fast and accurate detection, while others are fixed with constants to account for performance and data characteristics. An experiment is performed via TensorFlow on three traffic datasets. Three scenarios are considered to investigate the effects of learning former traffic on sequential traffic analysis and the effects of learning one dataset on application to another dataset, and determine whether the algorithms can be used for recent attack traffic. Experimental results show that the used preprocessing methods, neural network architectures and hyperparameters, and the optimizers are appropriate for DDoS attack detection. The obtained results provide a criterion for the detection accuracy of attacks.

비음수행렬분해 기반 연속파 잔향 제거 기법의 초매개변숫값에 따른 실험적 성능 분석 (Experimental performance analysis on the non-negative matrix factorization-based continuous wave reverberation suppression according to hyperparameters)

  • 이용곤;이석진;김기만;김근환
    • 한국음향학회지
    • /
    • 제42권1호
    • /
    • pp.32-41
    • /
    • 2023
  • 최근 비음수행렬분해 기법을 이용한 잔향 제거 연구가 활발히 이루어지고 있다. 비음수행렬분해 기법은 최적화를 위해 쿨백라이블러 발산 기반의 비용함수를 사용하며, 시간 연속성, 펄스 길이, 잔향과 표적 간 에너지 비율 등 제약사항들이 추가된다. 그리고 초매개변수를 이용하여 제약사항이 적용되는 경향을 조절한다. 따라서 효율적인 잔향 제거를 위해서는 초매개변수를 최적화해야 하지만 현재까지는 관련된 연구가 미흡한 실정이다. 본 논문에서는 실제 해상실험 데이터를 이용하여 비음수행렬분해 기반 잔향 제거 기법의 세 가지 초매개변수에 따른 잔향 제거 성능을 분석하였다. 분석결과, 시간 연속성과 펄스 길이에 대한 초매개변수는 값이 높을 경우 잔향과 표적 간의 에너지 비율은 0.4 이하에서 우수한 성능을 보였으나, 변화하는 송수신 환경에 따라서 성능의 변동성이 있음을 확인하였다. 본 논문의 분석 결과가 향후 비음수행렬분해 기반 연속파 잔향 제거 기법의 초매개변수를 최적화하기 위한 정밀한 실험을 계획하는 것에 유용한 지침표가 될 수 있을 것으로 기대한다.

Quantitative Analysis of Bayesian SPECT Reconstruction : Effects of Using Higher-Order Gibbs Priors

  • S. J. Lee
    • 대한의용생체공학회:의공학회지
    • /
    • 제19권2호
    • /
    • pp.133-142
    • /
    • 1998
  • Bayesian SPECT 영상재구성에 있어서 정교한 형태의 사전정보를 사용할 경우 bias 및 variance와 같은 통계적 차원에서의 정량적 성능을 향상시킬 수 있다. 특히, "thin plate" 와 같은 고차의 smoothing 사전정보는 "membrane"과 같은 일반적인 다른 사전 정보에 비해 bias를 개선시키는 것으로 알려져 있다. 그러나, 이와 같은 장점은 영상재구성 알고리즘에 내재하는 hyperparameters의 값을 최적으로 선택하였을 경우에만 적용된다. 본 연구에서는 thin plate와 membrane의 두가지 대표적인 사전정보를 포함하는 영상재구성 알고리즘의 정량적 성능에 대해 집중 고찰한다. 즉, 알고리즘에 내재하는 hyperparameters 가 통계적 차원에서 bias와 variance에 어떠한 영향을 미치는지 관찰한다. 실험에서 Monte Carlo noise trials를 사용하여 bias와 variance를 계산하며, 각 결과를 ML-EM 및 filtered backprojection으로부터 얻어진 bias 및 variance와 비교한다. 결론적으로 thin plate와 같은 고차의 사전정보는 hyperparameters의 선택에 민감하지 않으며, hyperparameters 값의 전 범위에 걸쳐 bias를 개선시킴을 보인다. 걸쳐 bias를 개선시킴을 보인다.

  • PDF

감성 분석을 위한 FinBERT 미세 조정: 데이터 세트와 하이퍼파라미터의 효과성 탐구 (FinBERT Fine-Tuning for Sentiment Analysis: Exploring the Effectiveness of Datasets and Hyperparameters)

  • 김재헌;정희도;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.127-135
    • /
    • 2023
  • 본 논문에서는 금융 뉴스 데이터로 추가적인 사전 학습이 진행된 BERT 기반 모델인 FinBERT 모델을 사용하여 금융 영역에서 감성 분석 시 학습시킬 데이터와 그에 맞는 하이퍼파라미터를 찾는 방법을 소개한다. 우리의 목표는 다양한 데이터 세트를 활용하고 하이퍼파라미터를 미세 조정하여 정확한 감성 분석을 위해 FinBERT 모델을 가장 잘 활용하는 방법에 대한 포괄적인 가이드를 제공하는 것이다. 이 연구에서는 제안된 FinBERT 모델 미세 조정 접근법의 아키텍처와 워크플로우를 개괄적으로 설명하고, 감성 분석 태스크를 위한 다양한 데이터 세트와 하이퍼파라미터의 성능을 강조한다. 또한, 감성 라벨링 작업에 GPT-3를 사용함으로써 GPT-3가 적절한 라벨러 역할을 하는지에 대한 신뢰성을 검증한다. 결과적으로 미세 조정된 FinBERT 모델이 다양한 데이터 세트에서 우수한 성능을 발휘 한다는 것을 보여주었고, 각 데이터 세트에 대해 전반적으로 우수한 성능을 보이는 학습률 5e-5와 배치 크기 64의 최적의 조합을 찾았다. 또 일반 도메인의 뉴스보다 일반 도메인의 트위터 데이터 세트에서 성능이 크게 향상됨을 기반으로 금융 뉴스 데이터만으로만 추가적으로 학습시키는 FinBERT 모델에 대한 의구심을 제시한다. 이를 통해 FinBERT 모델에 대한 최적의 접근 방식을 결정하는 복잡한 프로세스를 간소화하고 금융 분야 감성 분석 모델을 위한 추가적인 학습 데이터 세트와 미세 조정 시 하이퍼파라미터 선정에 대한 가이드라인을 제시한다.

Hyperparameter Selection for APC-ECOC

  • Seok, Kyung-Ha
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1219-1231
    • /
    • 2008
  • The main object of this paper is to develop a leave-one-out(LOO) bound of all pairwise comparison error correcting output codes (APC-ECOC). To avoid using classifiers whose corresponding target values are 0 in APC-ECOC and requiring pilot estimates we developed a bound based on mean misclassification probability(MMP). It can be used to tune kernel hyperparameters. Our empirical experiment using kernel mean squared estimate(KMSE) as the binary classifier indicates that the bound leads to good estimates of kernel hyperparameters.

  • PDF

베이지안 최적화를 통한 저서성 대형무척추동물 종분포모델 개발 (Development of benthic macroinvertebrate species distribution models using the Bayesian optimization)

  • 고병건;신지훈;차윤경
    • 상하수도학회지
    • /
    • 제35권4호
    • /
    • pp.259-275
    • /
    • 2021
  • This study explored the usefulness and implications of the Bayesian hyperparameter optimization in developing species distribution models (SDMs). A variety of machine learning (ML) algorithms, namely, support vector machine (SVM), random forest (RF), boosted regression tree (BRT), XGBoost (XGB), and Multilayer perceptron (MLP) were used for predicting the occurrence of four benthic macroinvertebrate species. The Bayesian optimization method successfully tuned model hyperparameters, with all ML models resulting an area under the curve (AUC) > 0.7. Also, hyperparameter search ranges that generally clustered around the optimal values suggest the efficiency of the Bayesian optimization in finding optimal sets of hyperparameters. Tree based ensemble algorithms (BRT, RF, and XGB) tended to show higher performances than SVM and MLP. Important hyperparameters and optimal values differed by species and ML model, indicating the necessity of hyperparameter tuning for improving individual model performances. The optimization results demonstrate that for all macroinvertebrate species SVM and RF required fewer numbers of trials until obtaining optimal hyperparameter sets, leading to reduced computational cost compared to other ML algorithms. The results of this study suggest that the Bayesian optimization is an efficient method for hyperparameter optimization of machine learning algorithms.

Model-independent Constraints on Type Ia Supernova Light-curve Hyperparameters and Reconstructions of the Expansion History of the Universe

  • Koo, Hanwool;Shafieloo, Arman;Keeley, Ryan E.;L'Huillier, Benjamin
    • 천문학회보
    • /
    • 제45권1호
    • /
    • pp.48.4-49
    • /
    • 2020
  • We reconstruct the expansion history of the universe using type Ia supernovae (SN Ia) in a manner independent of any cosmological model assumptions. To do so, we implement a nonparametric iterative smoothing method on the Joint Light-curve Analysis (JLA) data while exploring the SN Ia light-curve hyperparameter space by Markov Chain Monte Carlo (MCMC) sampling. We test to see how the posteriors of these hyperparameters depend on cosmology, whether using different dark energy models or reconstructions shift these posteriors. Our constraints on the SN Ia light-curve hyperparameters from our model-independent analysis are very consistent with the constraints from using different parameterizations of the equation of state of dark energy, namely the flat ΛCDM cosmology, the Chevallier-Polarski-Linder model, and the Phenomenologically Emergent Dark Energy (PEDE) model. This implies that the distance moduli constructed from the JLA data are mostly independent of the cosmological models. We also studied that the possibility the light-curve parameters evolve with redshift and our results show consistency with no evolution. The reconstructed expansion history of the universe and dark energy properties also seem to be in good agreement with the expectations of the standard ΛCDM model. However, our results also indicate that the data still allow for considerable flexibility in the expansion history of the universe. This work is published in ApJ.

  • PDF

A Bayesian Method for Narrowing the Scope fo Variable Selection in Binary Response t-Link Regression

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제29권4호
    • /
    • pp.407-422
    • /
    • 2000
  • This article is concerned with the selecting predictor variables to be included in building a class of binary response t-link regression models where both probit and logistic regression models can e approximately taken as members of the class. It is based on a modification of the stochastic search variable selection method(SSVS), intended to propose and develop a Bayesian procedure that used probabilistic considerations for selecting promising subsets of predictor variables. The procedure reformulates the binary response t-link regression setup in a hierarchical truncated normal mixture model by introducing a set of hyperparameters that will be used to identify subset choices. In this setup, the most promising subset of predictors can be identified as that with highest posterior probability in the marginal posterior distribution of the hyperparameters. To highlight the merit of the procedure, an illustrative numerical example is given.

  • PDF

Multinomial Kernel Logistic Regression via Bound Optimization Approach

  • Shim, Joo-Yong;Hong, Dug-Hun;Kim, Dal-Ho;Hwang, Chang-Ha
    • Communications for Statistical Applications and Methods
    • /
    • 제14권3호
    • /
    • pp.507-516
    • /
    • 2007
  • Multinomial logistic regression is probably the most popular representative of probabilistic discriminative classifiers for multiclass classification problems. In this paper, a kernel variant of multinomial logistic regression is proposed by combining a Newton's method with a bound optimization approach. This formulation allows us to apply highly efficient approximation methods that effectively overcomes conceptual and numerical problems of standard multiclass kernel classifiers. We also provide the approximate cross validation (ACV) method for choosing the hyperparameters which affect the performance of the proposed approach. Experimental results are then presented to indicate the performance of the proposed procedure.