• 제목/요약/키워드: Pre-training Dataset

검색결과 69건 처리시간 0.032초

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

작물의 병충해 분류를 위한 이미지 활용 방법 연구 (Study on Image Use for Plant Disease Classification)

  • 정성호;한정은;정성균;봉재환
    • 한국전자통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.343-350
    • /
    • 2022
  • 서로 다른 특징을 가지는 이미지를 통합하여 작물의 병충해 분류를 위한 심층신경망을 훈련하는 것이 학습 결과에 어떤 영향을 미치는지 확인하고, 심층신경망의 학습 결과를 개선할 수 있는 이미지 통합방법에 대해 실험하였다. 실험을 위해 두 종류의 작물 이미지 공개 데이터가 사용되었다. 하나는 인도의 실제 농장 환경에서 촬영된 작물 이미지이고 다른 하나는 한국의 실험실 환경에서 촬영한 작물 이미지였다. 작물 잎 이미지는 정상인 경우와 4종류의 병충해를 포함하여 5개의 하위 범주로 구성되었다. 심층신경망은 전이학습을 통해 사전 훈련된 VGG16이 특징 추출부에 사용되었고 분류기에는 다층퍼셉트론 구조를 사용하였다. 두 공개 데이터는 세 가지 방법으로 통합되어 심층신경망의 지도학습에 사용되었다. 훈련된 심층신경망은 평가 데이터를 이용해 평가되었다. 실험 결과에 따르면 심층신경망을 실험실 환경에서 촬영한 작물 이미지로 학습한 이후에 실제 농장 환경에서 촬영한 작물 이미지로 재학습하는 경우에 가장 좋은 성능을 보였다. 서로 다른 배경의 두 공공데이터를 혼용하여 사용하면 심층신경망의 학습 결과가 좋지 않았다. 심층신경망의 학습 과정에서 여러 종류의 데이터를 사용하는 방법에 따라 심층신경망의 성능이 달라질 수 있음을 확인하였다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

Research on a handwritten character recognition algorithm based on an extended nonlinear kernel residual network

  • Rao, Zheheng;Zeng, Chunyan;Wu, Minghu;Wang, Zhifeng;Zhao, Nan;Liu, Min;Wan, Xiangkui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.413-435
    • /
    • 2018
  • Although the accuracy of handwritten character recognition based on deep networks has been shown to be superior to that of the traditional method, the use of an overly deep network significantly increases time consumption during parameter training. For this reason, this paper took the training time and recognition accuracy into consideration and proposed a novel handwritten character recognition algorithm with newly designed network structure, which is based on an extended nonlinear kernel residual network. This network is a non-extremely deep network, and its main design is as follows:(1) Design of an unsupervised apriori algorithm for intra-class clustering, making the subsequent network training more pertinent; (2) presentation of an intermediate convolution model with a pre-processed width level of 2;(3) presentation of a composite residual structure that designs a multi-level quick link; and (4) addition of a Dropout layer after the parameter optimization. The algorithm shows superior results on MNIST and SVHN dataset, which are two character benchmark recognition datasets, and achieves better recognition accuracy and higher recognition efficiency than other deep structures with the same number of layers.

다양한 유기화합물의 비등점 예측을 위한 QSPR 모델 및 이의 적용구역 (QSPR model for the boiling point of diverse organic compounds with applicability domain)

  • 신성은;차지영;김광연;노경태
    • 분석과학
    • /
    • 제28권4호
    • /
    • pp.270-277
    • /
    • 2015
  • 비등점은 유기물의 물리화학적 성질을 특정하는데 있어 매우 근본적 요소 중 하나이다. 그러나 기존의 정량적 구조-물성 상관관계식들은 고에너지 물질 등과 같은 특정 물질 군에 대한 실험값들의 부족 등으로 인해 제한적인 응용성을 가지고 있었다. 본 연구에서는 서로 다른 출처로부터의 5,923개의 비등점 자료를 확보하였으며, 이에는 일반적 유기화합물과 더불어 특수목적을 가지는 분자들을 포함하였고, 이들 수집된 데이터 셋을 이용하여 새로운 비등점 예측모델을 개발하는데 사용하였다. 다양한 학습 방법을 이용하여 새로이 수집된 데이터 셋을 이용한 2차원 분자 표현자에 기반한 비등점 모델을 도출하였다. 개발된 예측모델의 적정성과 견고성을 확인하였고, 훈련 셋의 표현자에 기반한 비등점 예측모델의 적용구역을 도출하였다.

A Hybrid Multi-Level Feature Selection Framework for prediction of Chronic Disease

  • G.S. Raghavendra;Shanthi Mahesh;M.V.P. Chandrasekhara Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권12호
    • /
    • pp.101-106
    • /
    • 2023
  • Chronic illnesses are among the most common serious problems affecting human health. Early diagnosis of chronic diseases can assist to avoid or mitigate their consequences, potentially decreasing mortality rates. Using machine learning algorithms to identify risk factors is an exciting strategy. The issue with existing feature selection approaches is that each method provides a distinct set of properties that affect model correctness, and present methods cannot perform well on huge multidimensional datasets. We would like to introduce a novel model that contains a feature selection approach that selects optimal characteristics from big multidimensional data sets to provide reliable predictions of chronic illnesses without sacrificing data uniqueness.[1] To ensure the success of our proposed model, we employed balanced classes by employing hybrid balanced class sampling methods on the original dataset, as well as methods for data pre-processing and data transformation, to provide credible data for the training model. We ran and assessed our model on datasets with binary and multivalued classifications. We have used multiple datasets (Parkinson, arrythmia, breast cancer, kidney, diabetes). Suitable features are selected by using the Hybrid feature model consists of Lassocv, decision tree, random forest, gradient boosting,Adaboost, stochastic gradient descent and done voting of attributes which are common output from these methods.Accuracy of original dataset before applying framework is recorded and evaluated against reduced data set of attributes accuracy. The results are shown separately to provide comparisons. Based on the result analysis, we can conclude that our proposed model produced the highest accuracy on multi valued class datasets than on binary class attributes.[1]

Paddle 기반의 중국어 Multi-domain Task-oriented 대화 시스템 (Chinese Multi-domain Task-oriented Dialogue System based on Paddle)

  • 등우진;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.308-310
    • /
    • 2022
  • With the rise of the Al wave, task-oriented dialogue systems have become one of the popular research directions in academia and industry. Currently, task-oriented dialogue systems mainly adopt pipelined form, which mainly includes natural language understanding, dialogue state decision making, dialogue state tracking and natural language generation. However, pipelining is prone to error propagation, so many task-oriented dialogue systems in the market are only for single-round dialogues. Usually single- domain dialogues have relatively accurate semantic understanding, while they tend to perform poorly on multi-domain, multi-round dialogue datasets. To solve these issues, we developed a paddle-based multi-domain task-oriented Chinese dialogue system. It is based on NEZHA-base pre-training model and CrossWOZ dataset, and uses intention recognition module, dichotomous slot recognition module and NER recognition module to do DST and generate replies based on rules. Experiments show that the dialogue system not only makes good use of the context, but also effectively addresses long-term dependencies. In our approach, the DST of dialogue tracking state is improved, and our DST can identify multiple slotted key-value pairs involved in the discourse, which eliminates the need for manual tagging and thus greatly saves manpower.

사전훈련된 모델구조를 이용한 심층신경망 기반 유방암 조직병리학적 이미지 분류 (Breast Cancer Histopathological Image Classification Based on Deep Neural Network with Pre-Trained Model Architecture)

  • 비키 무뎅;이언진;최세운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.399-401
    • /
    • 2022
  • 유방 악성 상태를 분류하기 위한 최종 진단은 침습적 생검을 이용한 현미경 분석을 통해 확인이 가능하나, 분석을 위해 일정 시간과 비용이 부과되며, 병리학적 지식을 보유한 전문가가 필요하다. 이러한 문제를 극복하기 위해, 딥 러닝을 활용한 진단 기법은 조직병리학적 이미지에서 유방암을 양성 및 악성으로 분류에 효율적인 방법으로 고려된다. 본 연구는 유방암 조직병리학적 이미지를 40배 확대한 BreaKHIS 데이터 세트를 사용하여 양성 및 악성으로 분류하였으며, 100% 미세 조정 체계와 Adagrad를 이용한 최적화로 사전 훈련된 컨볼루션 신경망 모델 아키텍처를 사용하였다. 사전 훈련된 아키텍처는 InceptionResNetV2 모델을 사용하여 마지막 계층을 고밀도 계층과 드롭아웃 계층으로 대체하여 수정된 InceptionResNetV2를 생성하도록 구성되었다. 훈련 손실 0.25%, 훈련 정확도 99.96%, 검증 손실 3.10%, 검증 정확도 99.41%, 테스트 손실 8.46%와 테스트 정확도 98.75%를 입증한 결과는 수정된 InceptionResNetV2 모델이 조직병리학적 이미지에서 유방 악성 유형을 예측하는 데 신뢰할 수 있음을 보여주었다. 향후 연구는 k-폴드 교차 검증, 최적화, 모델, 초 매개 변수 최적화 및 100×, 200× 및 400× 배율에 대한 분류에 초점을 맞추어 추가실험이 필요하다.

  • PDF

A new formulation for strength characteristics of steel slag aggregate concrete using an artificial intelligence-based approach

  • Awoyera, Paul O.;Mansouri, Iman;Abraham, Ajith;Viloria, Amelec
    • Computers and Concrete
    • /
    • 제27권4호
    • /
    • pp.333-341
    • /
    • 2021
  • Steel slag, an industrial reject from the steel rolling process, has been identified as one of the suitable, environmentally friendly materials for concrete production. Given that the coarse aggregate portion represents about 70% of concrete constituents, other economic approaches have been found in the use of alternative materials such as steel slag in concrete. Unfortunately, a standard framework for its application is still lacking. Therefore, this study proposed functional model equations for the determination of strength properties (compression and splitting tensile) of steel slag aggregate concrete (SSAC), using gene expression programming (GEP). The study, in the experimental phase, utilized steel slag as a partial replacement of crushed rock, in steps 20%, 40%, 60%, 80%, and 100%, respectively. The predictor variables included in the analysis were cement, sand, granite, steel slag, water/cement ratio, and curing regime (age). For the model development, 60-75% of the dataset was used as the training set, while the remaining data was used for testing the model. Empirical results illustrate that steel aggregate could be used up to 100% replacement of conventional aggregate, while also yielding comparable results as the latter. The GEP-based functional relations were tested statistically. The minimum absolute percentage error (MAPE), and root mean square error (RMSE) for compressive strength are 6.9 and 1.4, and 12.52 and 0.91 for the train and test datasets, respectively. With the consistency of both the training and testing datasets, the model has shown a strong capacity to predict the strength properties of SSAC. The results showed that the proposed model equations are reliably suitable for estimating SSAC strength properties. The GEP-based formula is relatively simple and useful for pre-design applications.