• 제목/요약/키워드: Parametric Activation Function

검색결과 11건 처리시간 0.019초

결합된 파라메트릭 활성함수를 이용한 완전연결신경망의 성능 향상 (Performance Improvement Method of Fully Connected Neural Network Using Combined Parametric Activation Functions)

  • 고영민;이붕항;고선우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권1호
    • /
    • pp.1-10
    • /
    • 2022
  • 완전연결신경망은 다양한 문제를 해결하는데 널리 사용되고 있다. 완전연결신경망에서 비선형활성함수는 선형변환 값을 비선형 변환하여 출력하는 함수로써 비선형 문제를 해결하는데 중요한 역할을 하며 다양한 비선형활성함수들이 연구되었다. 본 연구에서는 완전연결신경망의 성능을 향상시킬 수 있는 결합된 파라메트릭 활성함수를 제안한다. 결합된 파라메트릭 활성함수는 간단히 파라메트릭 활성함수들을 더함으로써 만들어낼 수 있다. 파라메트릭 활성함수는 입력데이터에 따라 활성함수의 크기와 위치를 변환시키는 파라미터를 도입하여 손실함수를 최소화하는 방향으로 최적화할 수 있는 함수이다. 파라메트릭 활성함수들을 결합함으로써 더욱 다양한 비선형간격을 만들어낼 수 있으며 손실함수를 최소화하는 방향으로 파라메트릭 활성함수들의 파라미터를 최적화할 수 있다. MNIST 분류문제와 Fashion MNIST 분류문제를 통하여 결합된 파라메트릭 활성함수의 성능을 실험하였고 그 결과 기존에 사용되는 비선형활성함수, 파라메트릭 활성함수보다 우수한 성능을 가짐을 확인하였다.

결합된 파라메트릭 활성함수를 이용한 합성곱 신경망의 성능 향상 (Performance Improvement Method of Convolutional Neural Network Using Combined Parametric Activation Functions)

  • 고영민;이붕항;고선우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권9호
    • /
    • pp.371-380
    • /
    • 2022
  • 합성곱 신경망은 이미지와 같은 격자 형태로 배열된 데이터를 다루는데 널리 사용되고 있는 신경망이다. 일반적인 합성곱 신경망은 합성곱층과 완전연결층으로 구성되며 각 층은 비선형활성함수를 포함하고 있다. 본 논문은 합성곱 신경망의 성능을 향상시키기 위해 결합된 파라메트릭 활성함수를 제안한다. 결합된 파라메트릭 활성함수는 활성함수의 크기와 위치를 변환시키는 파라미터를 적용한 파라메트릭 활성함수들을 여러 번 더하여 만들어진다. 여러 개의 크기, 위치를 변환하는 파라미터에 따라 다양한 비선형간격을 만들 수 있으며, 파라미터는 주어진 입력데이터에 의해 계산된 손실함수를 최소화하는 방향으로 학습할 수 있다. 결합된 파라메트릭 활성함수를 사용한 합성곱 신경망의 성능을 MNIST, Fashion MNIST, CIFAR10 그리고 CIFAR100 분류문제에 대해 실험한 결과, 다른 활성함수들보다 우수한 성능을 가짐을 확인하였다.

파라메트릭 활성함수를 이용한 기울기 소실 문제의 완화 (Alleviation of Vanishing Gradient Problem Using Parametric Activation Functions)

  • 고영민;고선우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.407-420
    • /
    • 2021
  • 심층신경망은 다양한 문제를 해결하는데 널리 사용되고 있다. 하지만 은닉층이 깊은 심층신경망을 학습하는 동안 빈번히 발생하는 기울기 소실 또는 폭주 문제는 심층신경망 학습의 큰 걸림돌이 되고 있다. 본 연구에서는 기울기 소실이 발생하는 원인 중 비선형활성함수에 의해 발생할 수 있는 기울기 소실 문제를 완화하기 위해 파라메트릭 활성함수를 제안한다. 제안된 파라메트릭 활성함수는 입력 데이터의 특성에 따라 활성함수의 크기 및 위치를 변환시킬 수 있는 파라미터를 적용하여 얻을 수 있으며 역전파과정을 통해 활성함수의 미분 크기에 제한이 없는 손실함수를 최소화되도록 학습시킬 수 있다. 은닉층 수가 10개인 XOR문제와 은닉층 수가 8개인 MNIST 분류문제를 통하여 기존 비선형활성함수와 파라메트릭활성함수의 성능을 비교하였고 제안한 파라메트릭 활성함수가 기울기 소실 완화에 우월한 성능을 가짐을 확인하였다.

파라메트릭 활성함수를 이용한 심층신경망의 성능향상 방법 (Performance Improvement Method of Deep Neural Network Using Parametric Activation Functions)

  • 공나영;고선우
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.616-625
    • /
    • 2021
  • 심층신경망은 임의의 함수를 근사화하는 방법으로 선형모델로 근사화한 후에 비선형 활성함수를 이용하여 추가적 근사화를 반복하는 근사화 방법이다. 이 과정에서 근사화의 성능 평가 방법은 손실함수를 이용한다. 기존 심층학습방법에서는 선형근사화 과정에서 손실함수를 고려한 근사화를 실행하고 있지만 활성함수를 사용하는 비선형 근사화 단계에서는 손실함수의 감소와 관계가 없는 비선형변환을 사용하고 있다. 본 연구에서는 기존의 활성함수에 활성함수의 크기를 변화시킬 수 있는 크기 파라메터와 활성함수의 위치를 변화시킬 수 있는 위치 파라미터를 도입한 파라메트릭 활성함수를 제안한다. 파라메트릭 활성함수를 도입함으로써 활성함수를 이용한 비선형 근사화의 성능을 개선시킬 수 있다. 각 은닉층에서 크기와 위치 파라미터들은 역전파 과정에서 파라미터들에 대한 손실함수의 1차 미분계수를 이용한 학습과정을 통해 손실함수 값을 최소화시키는 파라미터를 결정함으로써 심층신경망의 성능을 향상시킬 수 있다. MNIST 분류 문제와 XOR 문제를 통하여 파라메트릭 활성함수가 기존의 활성함수에 비해 우월한 성능을 가짐을 확인하였다.

정규화 및 항등사상이 활성함수 성능에 미치는 영향 (The Effect of regularization and identity mapping on the performance of activation functions)

  • 류서현;윤재복
    • 한국산학기술학회논문지
    • /
    • 제18권10호
    • /
    • pp.75-80
    • /
    • 2017
  • 본 논문에서는 딥러닝에서 활용되는 정규화(regularization) 및 항등사상(identity mapping)이 활성함수(activation function) 성능에 미치는 영향에 대해 설명한다. 딥러닝에서 활성함수는 비선형 변환을 위해 사용된다. 초기에는 sigmoid 함수가 사용되었으며, 기울기가 사라지는 기존의 활성함수의 문제점을 극복하기 위해 ReLU(Rectified Linear Unit), LReLU(Leaky ReLU), PReLU(Parametric ReLU), ELU(Exponetial Linear Unit)이 개발되었다. 활성함수와의 연구와는 별도로 과적합(Overfitting)문제를 해결하기 위해, Dropout, 배치 정규화(Batch normalization) 등의 정규화 방법들이 개발되었다. 추가적으로 과적합을 피하기 위해, 일반적으로 기계학습 분야에서 사용되는 data augmentation 기법이 활용된다. 딥러닝 구조의 측면에서는 기존에 단순히 컨볼루션(Convolution) 층을 쌓아올리는 구조에서 항등사상을 추가하여 순방향, 역방향의 신호흐름을 개선한 residual network가 개발되었다. 위에서 언급된 활성함수들은 각기 서로 다른 특성을 가지고 있으나, 새로운 정규화 및 딥러닝 구조 연구에서는 가장 많이 사용되는 ReLU에 대해서만 검증되었다. 따라서 본 논문에서는 정규화 및 항등사상에 따른 활성함수의 성능에 대해 실험적으로 분석하였다. 분석을 통해, 정규화 및 항등사상 유무에 따른 활성함수 성능의 경향을 제시하였으며, 이는 활성함수 선택을 위한 교차검증 횟수를 줄일 수 있을 것이다.

복합운동과 복부 끌어당김 조정 훈련의 병행이 뇌졸중 환자의 호기 시 복부근육 활성도 및 노력성 폐기능에 미치는 영향 (The Effects of Combined Complex Exercise with Abdominal Drawing-in Maneuver on Expiratory Abdominal Muscles Activation and Forced Pulmonary Function for Post Stroke Patients)

  • 윤정현;김태수;이병기
    • 대한물리의학회지
    • /
    • 제8권4호
    • /
    • pp.513-523
    • /
    • 2013
  • PURPOSE: The purpose of this study was to investigate characteristics of the forced pulmonary function test effect and abdominal muscles activation by combined complex exercise with abdominal drawing-in maneuver training of chronic stroke patients. METHODS: 14 post stroke patients(10 males and 4 females) involved voluntary this study and we divided two groups into CEG(complex exercise group) and CEAG (complex exercise and abdominal drawing-in maneuver group).(n=7, per goup). Each groups implicated the 2 times, 30minute exercises for 6 weeks a day. The CEAG performed the complex exercise 15 minutes and 15 minutes of abdominal drawing-in maneuver. For data analysis, the mean and standard deviation were estimated; non-parametric independent t-test was carried out. RESULTS: According to the study, in the combined complex exercise with abdominal drawing-in maneuver group, FVC and activation of transversus abdominis/internal oblique were statistically significant difference compared to the complex exercise group. CONCLUSION: These results indicate that the combined complex with abdominal drawing-in maneuver was efficient in enhancing abdominal muscles activation and pulmonary function of chronic stroke patients.

Function Approximation Based on a Network with Kernel Functions of Bounds and Locality : an Approach of Non-Parametric Estimation

  • Kil, Rhee-M.
    • ETRI Journal
    • /
    • 제15권2호
    • /
    • pp.35-51
    • /
    • 1993
  • This paper presents function approximation based on nonparametric estimation. As an estimation model of function approximation, a three layered network composed of input, hidden and output layers is considered. The input and output layers have linear activation units while the hidden layer has nonlinear activation units or kernel functions which have the characteristics of bounds and locality. Using this type of network, a many-to-one function is synthesized over the domain of the input space by a number of kernel functions. In this network, we have to estimate the necessary number of kernel functions as well as the parameters associated with kernel functions. For this purpose, a new method of parameter estimation in which linear learning rule is applied between hidden and output layers while nonlinear (piecewise-linear) learning rule is applied between input and hidden layers, is considered. The linear learning rule updates the output weights between hidden and output layers based on the Linear Minimization of Mean Square Error (LMMSE) sense in the space of kernel functions while the nonlinear learning rule updates the parameters of kernel functions based on the gradient of the actual output of network with respect to the parameters (especially, the shape) of kernel functions. This approach of parameter adaptation provides near optimal values of the parameters associated with kernel functions in the sense of minimizing mean square error. As a result, the suggested nonparametric estimation provides an efficient way of function approximation from the view point of the number of kernel functions as well as learning speed.

  • PDF

Controcller design using parametric neural networks

  • HashemiNejad, M.;Murata, J.;Banihabib, M.E.
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1994년도 Proceedings of the Korea Automatic Control Conference, 9th (KACC) ; Taejeon, Korea; 17-20 Oct. 1994
    • /
    • pp.616-621
    • /
    • 1994
  • Neural Networks (henceforth NNs, with adjective "artificial" implied) has been used in the field of control however, has a long way to fit to its abilities. One of the best ways to aid it is "supporting it with the knowledge about the linear classical control theory". In this regard we hive developed two kinds of parametric activation function and then used them in both identification and control strategy. Then using a nonlinear tank system we are to test its capabilities. The simulation results for the identification phase is promising. phase is promising.

  • PDF

뉴런의 생성 및 병합 학습 기능을 갖는 자기 조직화 신경망을 이용한 n-각형 공업용 부품의 중심추정 (Center estimation of the n-fold engineering parts using self organizing neural networks with generating and merge learning)

  • 성효경;최흥문
    • 전자공학회논문지C
    • /
    • 제34C권11호
    • /
    • pp.95-103
    • /
    • 1997
  • A robust center estimation tecnique of n-fold engineering parts is presented, which use self-organizing neural networks with generating and merging learning for training neural units. To estimate the center of the n-fold engineering parts using neural networks, the segmented boundaries of the interested part are approximated to strainght lines, and the temporal estimated centers by thecosine theorem which formed between the approximaged straight line and the reference point, , are indexed as (.sigma.-.theta.) parameteric vecstors. Then the entries of parametric vectors are fed into self-organizing nerual network. Finally, the center of the n-fold part is extracted by mean of generating and merging learning of the neurons. To accelerate the learning process, neural network uses an adaptive learning rate function to the merging process and a self-adjusting activation to generating process. Simulation results show that the centers of n-fold engineering parts are effectively estimated by proposed technique, though not knowing the error distribution of estimated centers and having less information of boundaries.

  • PDF

Gas detonation cell width prediction model based on support vector regression

  • Yu, Jiyang;Hou, Bingxu;Lelyakin, Alexander;Xu, Zhanjie;Jordan, Thomas
    • Nuclear Engineering and Technology
    • /
    • 제49권7호
    • /
    • pp.1423-1430
    • /
    • 2017
  • Detonation cell width is an important parameter in hydrogen explosion assessments. The experimental data on gas detonation are statistically analyzed to establish a universal method to numerically predict detonation cell widths. It is commonly understood that detonation cell width, ${\lambda}$, is highly correlated with the characteristic reaction zone width, ${\delta}$. Classical parametric regression methods were widely applied in earlier research to build an explicit semiempirical correlation for the ratio of ${\lambda}/{\delta}$. The obtained correlations formulate the dependency of the ratio ${\lambda}/{\delta}$ on a dimensionless effective chemical activation energy and a dimensionless temperature of the gas mixture. In this paper, support vector regression (SVR), which is based on nonparametric machine learning, is applied to achieve functions with better fitness to experimental data and more accurate predictions. Furthermore, a third parameter, dimensionless pressure, is considered as an additional independent variable. It is found that three-parameter SVR can significantly improve the performance of the fitting function. Meanwhile, SVR also provides better adaptability and the model functions can be easily renewed when experimental database is updated or new regression parameters are considered.