• 제목/요약/키워드: Hyperparameter Optimization

검색결과 51건 처리시간 0.022초

Hyperparameter experiments on end-to-end automatic speech recognition

  • Yang, Hyungwon;Nam, Hosung
    • 말소리와 음성과학
    • /
    • 제13권1호
    • /
    • pp.45-51
    • /
    • 2021
  • End-to-end (E2E) automatic speech recognition (ASR) has achieved promising performance gains with the introduced self-attention network, Transformer. However, due to training time and the number of hyperparameters, finding the optimal hyperparameter set is computationally expensive. This paper investigates the impact of hyperparameters in the Transformer network to answer two questions: which hyperparameter plays a critical role in the task performance and training speed. The Transformer network for training has two encoder and decoder networks combined with Connectionist Temporal Classification (CTC). We have trained the model with Wall Street Journal (WSJ) SI-284 and tested on devl93 and eval92. Seventeen hyperparameters were selected from the ESPnet training configuration, and varying ranges of values were used for experiments. The result shows that "num blocks" and "linear units" hyperparameters in the encoder and decoder networks reduce Word Error Rate (WER) significantly. However, performance gain is more prominent when they are altered in the encoder network. Training duration also linearly increased as "num blocks" and "linear units" hyperparameters' values grow. Based on the experimental results, we collected the optimal values from each hyperparameter and reduced the WER up to 2.9/1.9 from dev93 and eval93 respectively.

Comparison of Stock Price Prediction Using Time Series and Non-Time Series Data

  • Min-Seob Song;Junghye Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.67-75
    • /
    • 2023
  • 주가 예측은 금융시장에서 중요하게 다뤄지고 있는 주제이지만 영향을 미칠 수 있는 다수의 요소들로 인해 어려운 주제로 고려되고 있다. 본 논문에서는 시계열 예측 모델 (LSTM, GRU)과 데이터의 시간적 의존성을 고려하지 않는 비 시계열 예측 모델 (RF, SVR, KNN, LGBM)을 주가 예측에 적용하여 성능을 비교하고 분석하였다. 또한 주가 데이터와 기술적 분석 보조지표, 재무제표 지표, 매수매도 지표, 공매도, 외국인 지표 등 다양한 데이터를 조합 및 활용하여 최적의 예측 요소를 찾아내고 업종별로 주가 예측에 영향을 미치는 주요 요소들을 분석했다. 하이퍼파라미터 최적화 과정을 통해 알고리즘별 예측 성능을 향상 시키는 과정도 진행하여 성능에 영향을 주는 요인을 분석하였다. 변수 선택과 하이퍼 파라미터 최적화 과정을 거친 결과, 시계열 예측 알고리즘인 GRU, 그리고 LSTM+GRU의 예측 정확도가 가장 높은 것으로 나타났다.

유전 알고리즘 기반의 심층 학습 신경망 구조와 초모수 최적화 (Genetic algorithm based deep learning neural network structure and hyperparameter optimization)

  • 이상협;강도영;박장식
    • 한국멀티미디어학회논문지
    • /
    • 제24권4호
    • /
    • pp.519-527
    • /
    • 2021
  • Alzheimer's disease is one of the challenges to tackle in the coming aging era and is attempting to diagnose and predict through various biomarkers. While the application of various deep learning-based technologies as powerful imaging technologies has recently expanded across the medical industry, empirical design is not easy because there are various deep earning neural networks architecture and categorical hyperparameters that rely on problems and data to solve. In this paper, we show the possibility of optimizing a deep learning neural network structure and hyperparameters for Alzheimer's disease classification in amyloid brain images in a representative deep earning neural networks architecture using genetic algorithms. It was observed that the optimal deep learning neural network structure and hyperparameter were chosen as the values of the experiment were converging.

BCI에서 EEG 기반 효율적인 감정 분류를 위한 LSTM 하이퍼파라미터 최적화 (LSTM Hyperparameter Optimization for an EEG-Based Efficient Emotion Classification in BCI)

  • ;;임창균
    • 한국전자통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1171-1180
    • /
    • 2019
  • 감정은 인간의 상호 작용에서 중요한 역할을 하는 심리 생리학적 과정이다. 감성 컴퓨팅은 감정을 이해하고 조절할 수 있는 인간 인지 인공 지능의 개발하는데 중점을 둔다. 우울증, 자폐증, 주의력 결핍 과잉 행동 장애 및 게임 중독과 같은 정신 질환이 감정과 관련되어 있기 때문에 이러한 분야의 연구가 중요하다. 감정 인식에 대한 노력에도 불구하고, 비정상적인 EEG 신호로부터의 감정 검출은 여전히 높은 수준의 추상화를 요구하기에 정교한 학습 알고리즘이 필요하다. 이 논문에서는 EEG 기반으로 효율적인 감정 분류를 위해 LSTM을 위한 최적의 하이퍼파라미터를 파악하고자 다양한 실험을 수행하여 이를 분석한 결과를 제시하였다.

위성영상을 활용한 토지피복 분류 항목별 딥러닝 최적화 연구 (A Study on Deep Learning Optimization by Land Cover Classification Item Using Satellite Imagery)

  • 이성혁;이명진
    • 대한원격탐사학회지
    • /
    • 제36권6_2호
    • /
    • pp.1591-1604
    • /
    • 2020
  • 본 연구는 고해상도 위성영상을 딥러닝 알고리즘에 적용하여 토지피복을 분류하고 공간객체별 알고리즘의 성능 검증에 대한 연구이다. 이를 Fully Convolutional Network계열의 알고리즘을 선정하였으며, Kompasat-3 위성영상, 토지피복지도 및 임상도를 활용하여 데이터셋을 구축하였다. 구축된 데이터셋을 알고리즘에 적용하여 각각 최적 하이퍼파라미터를 산출하였다. 하이퍼파라미터 최적화 이후 최종 분류를 시행하였으며, 전체 정확도는 DeeplabV3+가 81.7%로 가장 높게 산정되었다. 그러나 분류 항목별로 정확도를 살펴보면, 도로 및 건물에서 SegNet이 가장 우수한 성능을 나타내었으며, 활엽수, 논의 항목에서 U-Net이 가장 높은 정확도를 보였다. DeeplabV3+의 경우 밭과 시설재배지, 초지 등에서 다른 두 모델보다 우수한 성능을 나타내었다. 결과를 통해 토지피복 분류를 위해 하나의 알고리즘 적용에 대한 한계점을 확인하였으며, 향후 공간객체별로 적합한 알고리즘을 적용한다면, 높은 품질의 토지피복분류 결과를 산출할 수 있을 것으로 기대된다.

강건한 태양광 발전량 예측을 위한 2단계 신경망 최적화 (Two-Stage Neural Network Optimization for Robust Solar Photovoltaic Forecasting)

  • 오진영;소다영;문지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.31-34
    • /
    • 2024
  • 태양광 에너지는 탄소 중립 이행을 위한 주요 방안으로 많은 주목을 받고 있다. 태양광 발전량은 여러 환경적 요인에 따라 크게 달라질 수 있으므로, 정확한 발전량 예측은 전력 네트워크의 안정성과 효율적인 에너지 관리에 근본적으로 중요하다. 대표적인 인공지능 기술인 신경망(Neural Network)은 불안정한 환경 변수와 복잡한 상호작용을 효과적으로 학습할 수 있어 태양광 발전량 예측에서 우수한 성능을 도출하였다. 하지만, 신경망은 모델의 구조나 초매개변수(Hyperparameter)를 최적화하는 것은 복잡하고 시간이 많이 드는 작업이므로, 에너지 분야에서 실제 산업 적용에 한계가 존재한다. 본 논문은 2단계 신경망 최적화를 통한 태양광 발전량 예측 기법을 제안한다. 먼저, 태양광 발전량 데이터 셋을 훈련 집합과 평가 집합으로 분할한다. 훈련 집합에서, 각기 다른 은닉층의 개수로 구성된 여러 신경망 모델을 구성하고, 모델별로 Optuna를 적용하여 최적의 초매개변숫값을 선정한다. 다음으로, 은닉층별 최적화된 신경망 모델을 이용해 훈련과 평가 집합에서는 각각 5겹 교차검증을 적용한 발전량 추정값과 예측값을 출력한다. 마지막으로, 스태킹 앙상블 방식을 채택해 기본 초매개변숫값으로 설정해도 우수한 성능을 도출하는 랜덤 포레스트를 이용하여 추정값을 학습하고, 평가 집합의 예측값을 입력으로 받아 최종 태양광 발전량을 예측한다. 인천 지역으로 실험한 결과, 제안한 방식은 모델링이 간편할 뿐만 아니라 여러 신경망 모델보다 우수한 예측 성능을 도출하였으며, 이를 바탕으로 국내 에너지 산업에 이바지할 수 있을 것으로 기대한다.

  • PDF

자동 기계학습(AutoML) 기술 동향 (Recent Research & Development Trends in Automated Machine Learning)

  • 문용혁;신익희;이용주;민옥기
    • 전자통신동향분석
    • /
    • 제34권4호
    • /
    • pp.32-42
    • /
    • 2019
  • The performance of machine learning algorithms significantly depends on how a configuration of hyperparameters is identified and how a neural network architecture is designed. However, this requires expert knowledge of relevant task domains and a prohibitive computation time. To optimize these two processes using minimal effort, many studies have investigated automated machine learning in recent years. This paper reviews the conventional random, grid, and Bayesian methods for hyperparameter optimization (HPO) and addresses its recent approaches, which speeds up the identification of the best set of hyperparameters. We further investigate existing neural architecture search (NAS) techniques based on evolutionary algorithms, reinforcement learning, and gradient derivatives and analyze their theoretical characteristics and performance results. Moreover, future research directions and challenges in HPO and NAS are described.

재활 로봇을 위한 심전도(ECG) 실시간 데이터 베이지안 최적화 분석 기술 (Real-time ECG Data Bayesian Optimization Analysis for Rehabilitation Robots)

  • 최진탁;강경태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.53-56
    • /
    • 2022
  • 본 논문에서는 심전도(ECG) 센서와 에지 컴퓨팅(Edge computing)을 활용하여 실시간 데이터와 Bayesian optimization을 통한 기계학습 알고리즘으로 재활 로봇에서 발목을 제어할 수 있는 Parameter(외골격 관련) 최적값을 출력한다. 심전도 센서 적용을 기반으로 하는 바이오 데이터 기술, 기계 학습(Bayesian optimization) 모델 접근 방식과 하드웨어 결합으로 재활 로봇 모터를 제어할 수 있는 Parameter 제공과 실시간 모터 제어 운영할 수 있도록 분석 플랫폼을 구축한다. 이 플랫폼을 이용해보다 효과적인 이동형 로봇설계 및 처리 방법을 연결할 수 있는 발판을 마련하였고, 로봇제어에 많이 사용하고 있는 매트랩 시뮬링크(Matlab simulink)를 연결할 수 있는 범용 통신 지원한다. 센서-전처리-인공지능 알고리즘-모터 제어 Parameter로 연계되는 데이터 가공과 처리 방법으로 최근 분석 기법을 적용하여 바이오 데이터 연구 활동과 이동형 재활 로봇 관련 데이터 분석 분야를 쉽게 접근할 수 있도록 한다.

  • PDF

Genetic Algorithm based hyperparameter tuned CNN for identifying IoT intrusions

  • Alexander. R;Pradeep Mohan Kumar. K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권3호
    • /
    • pp.755-778
    • /
    • 2024
  • In recent years, the number of devices being connected to the internet has grown enormously, as has the intrusive behavior in the network. Thus, it is important for intrusion detection systems to report all intrusive behavior. Using deep learning and machine learning algorithms, intrusion detection systems are able to perform well in identifying attacks. However, the concern with these deep learning algorithms is their inability to identify a suitable network based on traffic volume, which requires manual changing of hyperparameters, which consumes a lot of time and effort. So, to address this, this paper offers a solution using the extended compact genetic algorithm for the automatic tuning of the hyperparameters. The novelty in this work comes in the form of modeling the problem of identifying attacks as a multi-objective optimization problem and the usage of linkage learning for solving the optimization problem. The solution is obtained using the feature map-based Convolutional Neural Network that gets encoded into genes, and using the extended compact genetic algorithm the model is optimized for the detection accuracy and latency. The CIC-IDS-2017 and 2018 datasets are used to verify the hypothesis, and the most recent analysis yielded a substantial F1 score of 99.23%. Response time, CPU, and memory consumption evaluations are done to demonstrate the suitability of this model in a fog environment.

순환 아키텍쳐 및 하이퍼파라미터 최적화를 이용한 데이터 기반 군사 동작 판별 알고리즘 (A Data-driven Classifier for Motion Detection of Soldiers on the Battlefield using Recurrent Architectures and Hyperparameter Optimization)

  • 김준호;채건주;박재민;박경원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.107-119
    • /
    • 2023
  • 군인의 동작 및 운동 상태를 인식하는 기술은 웨어러블 테크놀로지와 인공지능의 결합으로 최근 대두되어 병력 관리의 패러다임을 바꿀 기술로 주목받고 있다. 이때 훈련 상황에서의 평가 및 솔루션 제공, 전투 상황에서의 효율적 모니터링 기능을 의도한대로 제공하기 위해서는 상태 판별의 정확도가 매우 높은 수준으로 유지되어야만 한다. 하지만 입력 데이터가 시계열 또는 시퀀스로 주어지는 경우, 기존의 피드포워드 신경망으로는 분류 성능을 극대화하는데 한계가 발생한다. 전장에서의 군사 동작 인식을 위해 다뤄지는 인간의 행동양식 데이터(3축 가속도 및 3축 각속도)는 시의존적 특성의 분석이 요구되기 때문에, 본 논문은 순환 신경망인 LSTM(Long-short Term Memory) 네트워크를 활용하여 취득 데이터의 이동 양상 및 순서 의존성을 파악하고 여덟 가지의 대표적 군사 동작(Sitting, Standing, Walking, Running, Ascending, Descending, Low Crawl, High Crawl)을 분류하는 고성능 인공지능 모델을 제안한다. 이때, 학습 조건 및 모델 변수는 그 정확도에 결정적인 영향을 끼치지만 인간의 수동적 조정이 필요해 비용 비효율적이고 최적의 값을 보장하지 못한다. 본 논문은 기계 스스로 일반화 성능이 극대화된 조건들을 취득할 수 있도록 베이지안 최적화를 활용해 하이퍼파라미터를 최적화한다. 그 결과, 최종 아키텍쳐는 학습 가능한 파라미터의 개수가 유사한 기존의 인공 신경망과 비교해서 오차율이 62.56% 감소할 수 있었으며, 최종적으로 98.39%의 정확도로 군사 동작 인식 기능을 구현할 수 있었다.