• Title/Summary/Keyword: 결합 학습 모델

Search Result 410, Processing Time 0.026 seconds

Parameter-Efficient Prompting for Few-Shot Learning (Prompting 기반 매개변수 효율적인 Few-Shot 학습 연구)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.343-347
    • /
    • 2022
  • 최근 자연어처리 분야에서는 BERT, RoBERTa, 그리고 BART와 같은 사전 학습된 언어 모델 (Pre-trained Language Models, PLM) 기반 미세 조정 학습을 통하여 여러 하위 과업에서 좋은 성능을 거두고 있다. 이는 사전 학습된 언어 모델 및 데이터 집합의 크기, 그리고 모델 구성의 중요성을 보여주며 대규모 사전 학습된 언어 모델이 각광받는 계기가 되었다. 하지만, 거대한 모델의 크기로 인하여 실제 산업에서 쉽게 쓰이기 힘들다는 단점이 명백히 존재함에 따라 최근 매개변수 효율적인 미세 조정 및 Few-Shot 학습 연구가 많은 주목을 받고 있다. 본 논문은 Prompt tuning, Prefix tuning와 프롬프트 기반 미세 조정 (Prompt-based fine-tuning)을 결합한 Few-Shot 학습 연구를 제안한다. 제안한 방법은 미세 조정 ←→ 사전 학습 간의 지식 격차를 줄일 뿐만 아니라 기존의 일반적인 미세 조정 기반 Few-Shot 학습 성능보다 크게 향상됨을 보인다.

  • PDF

A Hand Gesture Recognition Method Using a Hybrid Neural Network (복합형 신경망을 이용한 손동작 인식기법)

  • Lee, Joseph-S.;Cho, Il-Gook;Kim, Ho-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.59-62
    • /
    • 2006
  • 본 논문에서는 CNN 모델과 WFMM 신경망의 특성을 상호 결합한 손동작 인식기법을 제안한다. 특징 추출 모듈로 사용된 CNN 모델은 움직임 정보에 기초한 특징지도상에서 특징의 위치 이동이나 왜곡에 의한 성능 저하를 개선시키는 계층간 연결구조를 갖는다. WFMM 신경망에 기반한 패턴 분류 모듈은 간결하고 강력한 학습기능을 지원하며, 학습된 신경망은 분류 능력을 그대로 유지한 상태에서 추가 학습이 가능하다는 장점을 지닌다. 또한 이 패턴 분류 모델은 학습패턴으로부터 특징의 상대적 중요도를 평가하는, 이른바 특징 선정 기법을 지원한다. 본 논문에서는 제안된 모델의 동작 특성과 학습 알고리즘을 소개하고, 손동작 인식문제에 적용한 실험을 통하여 이론의 타당성을 평가한다.

  • PDF

Data Model Study of Teaching-Learning Activities for Learning analysis (학습분석을 위한 교수학습활동 데이터 모델 연구)

  • Kim, Kyungrog;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.672-673
    • /
    • 2015
  • 교수학습에서 발생하는 다양한 데이터를 분석하고 이를 바탕으로 학습자를 이해하기 위한 학습 분석에 대한 연구가 증가하고 있다. 그러나 교수학습지원시스템에서 생성되는 데이터는 다양한 형식으로 이를 결합하고 통합하기 위해서는 표준화된 사용 메타데이터가 필요하다. 이에 본 논문에서는 학습자 관점에서 교수학습 활동 중심의 데이터 모델을 제안한다. 이는 학습자의 학습양식을 바탕으로 학습 이벤트가 발생할 때 참여 활동한 데이터를 표현하기 위한 것이다. 이를 통해 학습자의 특성을 식별하고 학습활동에 참여 정도를 파악하여 학습자를 지원하기 위한 것이다.

Learning and Transferring Deep Neural Network Models for Image Caption Generation (이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이)

  • Kim, Dong-Ha;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.

Personality Learning Techniques for Intelligent Information System (지능형 정보시스템을 위한 개인성 학습 기법)

  • 김호준;박정선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.310-312
    • /
    • 2001
  • 본 연구에서는 정보시스템의 지능형 인터페이스를 위하여 사용자의 개인성을 학습하는 방법론으로서 신경망 이론의 활용가능성을 고찰한다. 입력형식의 유연성, 입력의 왜곡 및 소실가능성 등 시스템의 실용성과 연관하여 나타나는 자료의 특성을 수용하기 위하여, 학습과정에서 신호표현의 다양화와 부분 패턴의 의한 분류 기능 등을 개선한 신경망모델을 제안한다. 이를 위하여 퍼지 양방향 연상기억장치와 구간연산으로 일반화된 다층 신경망모델을 결합하여 혼합형 분류모형을 제시하고 그 유용성을 고찰한다. 실험은 전공분야 선택을 위한 개인의 적성분석시스템을 대상으로 구현하였다.

  • PDF

Fluent Text Generation Using GANs with Graph-search (GAN에서 그래프 탐색을 이용한 유창한 문장 생성)

  • Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.404-408
    • /
    • 2019
  • 비지도 학습 모델인 GAN은 학습 데이터 구축이 어려운 여러 분야에 활용되고 있으며, 알려진 문제점들을 보완하기 위해 다양한 모델 결합 및 변형으로 발전하고 있다. 하지만 문장을 생성하는 GAN은 풀어야 할 문제가 많다. 그중에서도 문제가 되는 것은 완성도가 높은 문장을 생성하는데 어려움이 있다는 것이다. 본 논문에서는 단어 그래프를 구성하여 GAN의 학습에 도움을 주며 완성도가 높은 문장을 생성하는 방법을 제안한다.

  • PDF

Korean Phoneme Recognition Model with Deep CNN (Deep CNN 기반의 한국어 음소 인식 모델 연구)

  • Hong, Yoon Seok;Ki, Kyung Seo;Gweon, Gahgene
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.398-401
    • /
    • 2018
  • 본 연구에서는 심충 합성곱 신경망(Deep CNN)과 Connectionist Temporal Classification (CTC) 알고리즘을 사용하여 강제정렬 (force-alignment)이 이루어진 코퍼스 없이도 학습이 가능한 음소 인식 모델을 제안한다. 최근 해외에서는 순환 신경망(RNN)과 CTC 알고리즘을 사용한 딥 러닝 기반의 음소 인식 모델이 활발히 연구되고 있다. 하지만 한국어 음소 인식에는 HMM-GMM 이나 인공 신경망과 HMM 을 결합한 하이브리드 시스템이 주로 사용되어 왔으며, 이 방법 은 최근의 해외 연구 사례들보다 성능 개선의 여지가 적고 전문가가 제작한 강제정렬 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 또한 RNN 은 학습 데이터가 많이 필요하고 학습이 까다롭다는 단점이 있어, 코퍼스가 부족하고 기반 연구가 활발하게 이루어지지 않은 한국어의 경우 사용에 제약이 있다. 이에 본 연구에서는 강제정렬 코퍼스를 필요로 하지 않는 CTC 알고리즘을 도입함과 동시에, RNN 에 비해 더 학습 속도가 빠르고 더 적은 데이터로도 학습이 가능한 합성곱 신경망(CNN)을 사용하여 딥 러닝 모델을 구축하여 한국어 음소 인식을 수행하여 보고자 하였다. 이 모델을 통해 본 연구에서는 한국어에 존재하는 49 가지의 음소를 추출하는 세 종류의 음소 인식기를 제작하였으며, 최종적으로 선정된 음소 인식 모델의 PER(phoneme Error Rate)은 9.44 로 나타났다. 선행 연구 사례와 간접적으로 비교하였을 때, 이 결과는 제안하는 모델이 기존 연구 사례와 대등하거나 조금 더 나은 성능을 보인다고 할 수 있다.

Generalization Abilities of Ensemble Learning Algorithms : OLA, Bagging, Boosting (앙상블 학습알고리즘의 일반화 성능 비교)

  • Shin, Hyun-Jung;Jang, Min;Cho, Sung-Zoon;Lee, Bong-Ki;Lim, Yong-Up
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.226-228
    • /
    • 2000
  • 최근 제안된 관찰학습(OLA: Observational Learning Algorithm)은 committee를 구성하는 각각의 학습 모델들이 다른 학습 모델들을 관찰함으로써 얻어진 가상데이터를 실제 데이터와 결합시켜 학습에 이용하는 방법이다. 본 논문에서는, UCI 데이터 셋의 분류(classification)와 예측(regression)문제에 대하여 다층 퍼셉트론을 학습 모델로 설정하고, 이에 대하여 OLA와 bagging, boosting의 성능을 비교, 분석하였다.

  • PDF

Improving Generalization in Neural Networks using Natural Gradient Learning with Adaptive Regularization and Natural Pruning (적응적 정규화 자연기울기 학습과 자연프루닝을 통한 신경망의 일반화 성능 향상)

  • 이현진;박혜영;지태창;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.265-267
    • /
    • 2002
  • 본 논문에서는 적응적 정규화 자연기울기 학습법과 자연 프루닝(pruning) 방법의 결합을 통하여 일반화 성능이 우수만 신경망을 구성하고자 한다. 먼저 적응적 정규화 자연기울기 학습을 통하여 신경망의 가중치를 최적화 시키고, 자연 프루닝에 의하여 신경망의 구조를 단순화 시킨다. 이러한 모델들 중 최적의 모델은 베이시안 정보 기준에 의해 선택함으로써 일반화 성능이 우수만 신경망을 구성하는 방법을 제안한다 벤치마크 (benchmark) 데이터로 제안하는 방법과 유클리디안(Euclidean) 거리에 기반한 결합 방법과 자연 프루닝만을 적용한 방법을 비교함으로써 우수성을 검증한다.

  • PDF

Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm (유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습)

  • Kim, Sang Hun;Chung, Byung Hee;Lee, Gun Ho
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.9
    • /
    • pp.351-360
    • /
    • 2018
  • The LWR (Locally Weighted Regression) model, which is traditionally a lazy learning model, is designed to obtain the solution of the prediction according to the input variable, the query point, and it is a kind of the regression equation in the short interval obtained as a result of the learning that gives a higher weight value closer to the query point. We study on an incremental ensemble learning approach for LWR, a form of lazy learning and memory-based learning. The proposed incremental ensemble learning method of LWR is to sequentially generate and integrate LWR models over time using a genetic algorithm to obtain a solution of a specific query point. The weaknesses of existing LWR models are that multiple LWR models can be generated based on the indicator function and data sample selection, and the quality of the predictions can also vary depending on this model. However, no research has been conducted to solve the problem of selection or combination of multiple LWR models. In this study, after generating the initial LWR model according to the indicator function and the sample data set, we iterate evolution learning process to obtain the proper indicator function and assess the LWR models applied to the other sample data sets to overcome the data set bias. We adopt Eager learning method to generate and store LWR model gradually when data is generated for all sections. In order to obtain a prediction solution at a specific point in time, an LWR model is generated based on newly generated data within a predetermined interval and then combined with existing LWR models in a section using a genetic algorithm. The proposed method shows better results than the method of selecting multiple LWR models using the simple average method. The results of this study are compared with the predicted results using multiple regression analysis by applying the real data such as the amount of traffic per hour in a specific area and hourly sales of a resting place of the highway, etc.