• 제목/요약/키워드: Catastrophic Forgetting

검색결과 12건 처리시간 0.018초

인공 신경망의 Catastrophic forgetting 현상 극복을 위한 순차적 반복 학습에 대한 연구 (A study on sequential iterative learning for overcoming catastrophic forgetting phenomenon of artificial neural network)

  • 최동빈;박용범
    • Journal of Platform Technology
    • /
    • 제6권4호
    • /
    • pp.34-40
    • /
    • 2018
  • 현재 인공신경망은 단일 작업에 대해선 뛰어난 성능을 보이나, 다른 종류의 작업을 학습하면 이전 학습 내용을 잊어버리는 단점이 있다. 이를 catastrophic forgetting이라고 한다. 인공신경망의 활용도를 높이긴 위해선 이 현상을 극복해야 한다. catastrophic forgetting을 극복하기 위한 여러 노력이 있다. 하지만 많은 노력이 있었음에도 완벽하게 catastrophic forgetting을 극복하지는 못하였다. 본 논문에서는 여러 노력 중 elastic weight consolidation(EWC)에 사용되는 핵심 개념을 이용하여, 순차적 반복학습을 제시한다. 인공신경망 학습에 많이 쓰이는 MNIST를 확장한 EMNIST 데이터 셋을 이용하여 catastrophic forgetting 현상을 재현하고 이를 순차적 반복학습을 통해 극복하는 실험을 진행하였으며, 그 결과 모든 작업에 대해서 학습이 가능하였다.

데이터 유사도를 이용한 지속적 학습방법 (Continual Learning using Data Similarity)

  • 박성현;강석훈
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.514-522
    • /
    • 2020
  • Continuous Learning 환경에서 인공 신경망의 학습이 진행됨에 따라 이전에 학습했던 데이터의 정보를 잊는 Catastrophic Forgetting 현상이 있다. 서로 다른 Domain을 갖는 데이터 사이에서 쉽게 발생한다. 이 현상을 제어하기 위해 신경망의 출력 분포를 통해 이전에 학습된 데이터와 새로 학습할 데이터들의 관계를 측정하는 방법과 이 측정값을 사용하여 Catastrophic Forgetting 현상을 완화하는 방법을 제시한다. 평가를 위해 MNIST, EMNIST 데이터를 사용하였고 실험 결과, 이전 데이터에 대한 정확도가 평균적으로 약 22.37% 향상되었다.

가변 람다값을 이용한 EWC에서의 치명적 망각현상 개선 (Improvement of Catastrophic Forgetting using variable Lambda value in EWC)

  • 박성현;강석훈
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 논문에서는 인공 신경망이 과거 학습 데이터의 정보를 망각하는 치명적 망각(Catastrophic Forgetting) 현상을 개선하기 위해, 학습할 데이터에 따라서 가변적으로 정규화 강도를 조절하는 방법을 제안한다. 이를 위하여 과거에 학습된 데이터와 현재 학습할 데이터들의 관계를 측정하는 방법을 사용하였다. 성능 평가를 위해 MNIST, EMNIST 데이터를 사용하였다. 3가지 시나리오에서 실험한 결과, 같은 도메인을 갖는 데이터의 경우, 이전 태스크의 정확도가 0.1~3%, 다른 도메인을 갖는 데이터의 경우 이전 태스크(Task)의 정확도가 10~13% 향상 시킬 수 있었다. 이는 본 논문의 방법으로, 도메인이 다른 경우, 망각률이 줄어든 것을 의미한다. 다양한 도메인을 가진 데이터를 연속적으로 학습할 경우, 이전 태스크들의 정확도가 모두 50% 이상을 달성하였고 평균 정확도가 약 7% 향상되었다.

지속적 학습 환경에서 효율적 경로 선택 (Efficient Path Selection in Continuous Learning Environment)

  • Park, Seong-Hyeon;Kang, Seok-Hoon
    • 전기전자학회논문지
    • /
    • 제25권3호
    • /
    • pp.412-419
    • /
    • 2021
  • 본 논문에서는, 지속적 학습 환경에서 효율적 경로 선택에 의한 LwF방법의 성능향상을 제안한다. 이를 위해 콘볼루션 레이어를 분리하는 방법을 사용하여 기존의 LwF와 성능 및 구조를 비교한다. 비교를 위해 복잡도가 다른 구성을 가진 MNIST, EMNIST, Fashion MNIST, CIFAR10 데이터를 사용하여 성능을 실험하였다. 실험결과, 각 태스크 별 정확도가 최대 20% 향상되었으며, LwF 기반의 지속적 학습 환경에서 치명적 망각 현상이 개선되었다.

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

유전 알고리즘을 이용한 모듈화된 신경망의 비선형 함수 근사화 (Nonlinear Function Approximation of Moduled Neural Network Using Genetic Algorithm)

  • 박현철;김성주;김종수;서재용;전홍태
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.10-13
    • /
    • 2001
  • Nonlinear Function Approximation of Moduled Neural Network Using Genetic Algorithm Neural Network consists of neuron and synapse. Synapse memorize last pattern and study new pattern. When Neural Network learn new pattern, it tend to forget previously learned pattern. This phenomenon is called to catastrophic inference or catastrophic forgetting. To overcome this phenomenon, Neural Network must be modularized. In this paper, we propose Moduled Neural Network. Modular Neural Network consists of two Neural Network. Each Network individually study different pattern and their outputs is finally summed by net function. Sometimes Neural Network don't find global minimum, but find local minimum. To find global minimum we use Genetic Algorithm.

  • PDF

LwF에서 망각현상 개선을 위한 적응적 가중치 제어 방법 (Adaptive Weight Control for Improvement of Catastropic Forgetting in LwF)

  • 박성현;강석훈
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.15-23
    • /
    • 2022
  • 지속적 학습 환경을 위한 학습 방법 중 LwF(Learning without Forgetting)는 정규화 강도가 고정되어 있어 다양한 데이터가 들어오는 환경에서 성능이 하락 할 수 있다. 본 논문에서는 학습하려는 데이터의 특징을 파악하여 가중치를 가변적으로 설정할 수 있는 방법을 제안하고, 실험으로 성능을 검증한다. 상관 관계와 복잡도를 이용하여 적응적으로 가중치를 적용하도록 하였다. 평가를 위해 다양한 데이터를 가진 태스크가 들어오는 시나리오를 구성하여 실험을 진행하였고, 실험 결과 새로운 태스크의 정확도가 최대 5%, 이전 태스크의 정확도가 최대 11% 상승하였다. 또한, 본 논문에서 제안한 알고리즘으로 구한 적응적 가중치 값은, 각 실험 시나리오마다 반복적 실험에 의해, 수동으로 계산한 최적 가중치 값에 접근한 것을 알 수 있었다. 상관 계수 값은 0.739 이었고, 전체적으로 평균 태스크 정확도가 상승하였다. 본 논문의 방법은, 새로운 태스크를 학습할 때마다 적절한 람다 값을 적응적으로 설정하였으며, 본 논문에서 제시한 여러 가지 시나리오에서 최적의 결과값을 도출하고 있다는 것을 알 수 있다.

지속적 학습 환경에서 지식전달에 기반한 LwF 개선모델 (Advanced LwF Model based on Knowledge Transfer in Continual Learning)

  • 강석훈;박성현
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.347-354
    • /
    • 2022
  • 지속적 학습에서의 망각현상을 완화시키기 위해, 본 논문에서는 지식전달 방법에 기반한 개선된 LwF 모델을 제안하고, 이의 효율성을 실험 결과로 보인다. LwF에 지속적 학습을 적용할 경우, 학습되는 데이터의 도메인이 달라지거나 데이터의 복잡도가 달라지면, 이전에 학습된 결과는 망각현상에 의해 정확도가 떨어지게 된다. 특히 복잡한 데이터에서 단순한 데이터로 학습이 이어질 경우 그 현상이 더 심해지는 경향이 있다. 본 논문에서는 이전 학습 결과가 충분히 LwF 모델에 전달되게 하기 위해 지식전달 방법을 적용하고, 효율적인 사용을 위한 알고리즘을 제안한다. 그 결과 기존 LwF의 결과보다 평균 8% 정도의 망각현상 완화를 보였으며, 학습 태스크가 길어지는 경우에도 효과가 있었다. 특히, 복잡한 데이터가 먼저 학습된 경우에는 LwF 대비 최대 30% 이상 효율이 향상되었다.

Multi-channel Long Short-Term Memory with Domain Knowledge for Context Awareness and User Intention

  • Cho, Dan-Bi;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Information Processing Systems
    • /
    • 제17권5호
    • /
    • pp.867-878
    • /
    • 2021
  • In context awareness and user intention tasks, dataset construction is expensive because specific domain data are required. Although pretraining with a large corpus can effectively resolve the issue of lack of data, it ignores domain knowledge. Herein, we concentrate on data domain knowledge while addressing data scarcity and accordingly propose a multi-channel long short-term memory (LSTM). Because multi-channel LSTM integrates pretrained vectors such as task and general knowledge, it effectively prevents catastrophic forgetting between vectors of task and general knowledge to represent the context as a set of features. To evaluate the proposed model with reference to the baseline model, which is a single-channel LSTM, we performed two tasks: voice phishing with context awareness and movie review sentiment classification. The results verified that multi-channel LSTM outperforms single-channel LSTM in both tasks. We further experimented on different multi-channel LSTMs depending on the domain and data size of general knowledge in the model and confirmed that the effect of multi-channel LSTM integrating the two types of knowledge from downstream task data and raw data to overcome the lack of data.

대화 데이터 증강에 기반한 도메인에 강건한 종단형 목적지향 대화모델 (Domain-robust End-to-end Task-oriented Dialogue Model based on Dialogue Data Augmentation)

  • 이기영;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.531-534
    • /
    • 2022
  • 신경망 기반 심층학습 기술은 대화처리 분야에서 대폭적인 성능 개선을 가져왔다. 특히 GPT-2와 같은 대규모 사전학습 언어모델을 백본 네트워크로 하고 특정 도메인 타스크 대화 데이터에 대해서 미세조정 방식으로 생성되는 종단형 대화모델의 경우, 해당 도메인 타스크에 대해서 높은 성능을 내고 있다. 하지만 이런 연구들은 대부분 하나의 도메인에 대해서만 초점을 맞출 뿐 싱글 모델로 두 개 이상의 도메인을 고려하고 있지는 않다. 특히 순차적인 미세 조정은 이전에 학습된 도메인에 대해서는 catastrophic forgetting 문제를 발생시킴으로써 해당 도메인 타스크에 대한 성능 하락이 불가피하다. 본 논문에서는 이러한 문제를 해결하기 위하여 MultiWoz 목적지향 대화 데이터에 오픈 도메인 칫챗 대화턴을 유사도에 기반하여 추가하는 데이터 증강 방식을 통해 사용자 입력 및 문맥에 따라 MultiWoz 목적지향 대화와 오픈 도메인 칫챗 대화를 함께 생성할 수 있도록 하였다. 또한 목적지향 대화와 오픈 도메인 칫챗 대화가 혼합된 대화에서의 시스템 응답 생성 성능을 평가하기 위하여 오픈 도메인 칫챗 대화턴을 수작업으로 추가한 확장된 MultiWoz 평가셋을 구축하였다.

  • PDF