• 제목/요약/키워드: 학습 데이터

검색결과 6,438건 처리시간 0.031초

전이 학습 기반의 생성 이미지 판별 모델 설계 (Transfer Learning-based Generated Synthetic Images Identification Model)

  • 김채원;윤성연;한명은;박민서
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.465-470
    • /
    • 2024
  • 인공지능(Artificial Intelligence, AI) 기반 이미지 생성 기술의 발달로 다양한 이미지가 생성되고 있으며, 이를 정확하게 판별하는 기술이 필요하다. 생성된 이미지 데이터의 양에는 한계가 있으며, 한정된 데이터로 높은 성능을 내기 위해 본 연구에서는 전이 학습(Transfer Learning)을 활용한 생성 이미지를 판별하는 모델을 제안한다. ImageNet 데이터 셋으로 사전학습 된 모델을 입력 데이터 셋인 CIFAKE 데이터 셋에 그대로 적용하여 학습의 시간 비용을 줄인 후, 3개의 은닉층과 1개의 출력층을 더해 모델을 튜닝한다. 모델링 결과, 최종 레이어를 조정한 모델의 성능이 높아짐을 확인하였다. 딥러닝에서 전이 학습을 통해 학습한 후 출력층과 가까운 레이어를 데이터의 특성에 맞게 추가 및 조정하는 과정을 통해 적은 이미지 데이터로 인한 학습 정확도 이슈를 줄이고 생성된 이미지 판별을 할수 있다는 데 의의가 있다.

개별 맞춤형 학습을 위한 인공지능(AI) 기반 수학 디지털교과서의 학습자 데이터 구축 모델 (A Model for Constructing Learner Data in AI-based Mathematical Digital Textbooks for Individual Customized Learning)

  • 이화영
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제26권4호
    • /
    • pp.333-348
    • /
    • 2023
  • 인공지능 기반의 수학 디지털교과서의 가장 핵심적인 기능으로 여겨지는 개별 맞춤형 교수·학습이 실현되기 위해서는 개별 학생의 여러 가지 특성 요인에 대한 명확한 분석과 진단이 가장 관건이다. 본 연구에서는 수학 AI 디지털교과서에서 개별 맞춤형 학습 진단을 위한 분석 요인과 도구, 데이터 수집·분석을 위한 구축 모델을 도출하였다. 이를 위하여 최근 교육부의 AI 디지털교과서 적용 계획에 따른 수학 AI 디지털교과서에 대한 요구, 개별화 맞춤형 학습과 이를 위한 데이터에 대한 선행 연구, 수학 디지털플랫폼에서 학습자 분석에 대한 요인 등이 검토되었다. 연구 결과, 연구자는 학생 개인별로 수집해야 할 데이터로 학습 분석을 위한 요인으로 학습 준비도, 과정 및 수행도, 성취도, 취약점, 성향 분석을 위한 요인으로 학습 지속 시간, 문제해결에 걸린 시간, 집중도, 수학학습 습관, 정서 분석을 위한 요인으로 자신감, 흥미, 불안, 학습의욕, 가치 인식, 태도 분석을 위한 요인으로 자기 관리, 학습 전략으로 정리하였다. 또한, 이러한 요인에 대한 데이터 수집 도구로, 문제에 대한 정오 데이터, 학습 진도율, 학생 활동에 대한 화면 녹화 자료, 이벤트 데이터, 시선 추적 장치, 자기 응답 설문 등을 제안하였다. 최종적으로 이러한 요인들을 학습 전, 중, 후로 시계열화한 데이터 수집 모델이 제안되었다.

클라우드 컴퓨팅 환경에서의 학습용 빅 데이터 플랫폼 설계 (Big Data Platform for Learning in Cloud Computing Environment)

  • 김준헌
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.63-64
    • /
    • 2017
  • 정보 기술의 끊임없는 발전에 따라 광범위한 분야에서 방대한 양의 데이터가 발생하게 되면서 이를 처리하기 위한 빅 데이터에 대한 연구 및 교육이 활발히 진행되고 있다. 이를 위하여 데이터 분석 및 처리를 위한 고성능의 서버 및 분산 처리를 위한 다수의 컴퓨터가 필요하며 이는, 개인 혹은 저사양의 수업 환경에서 빅 데이터를 학습하는 데에 어려움을 겪게 한다. 때문에 가상 환경에서 원활한 빅 데이터 학습을 위한 클라우드 기반의 시스템이 필요하다. 이에 본 논문에서는, 빅 데이터 처리 기술의 하나인 Spark를 이용한 빅 데이터 플랫폼 구축에 대하여 기술한다.

  • PDF

빅 데이터에서 기계학습을 통한 온톨로지 생성에 관한 연구 (A Study on Ontology Generation by Machine Learning in Big Data)

  • 황치곤;윤창표
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.645-646
    • /
    • 2018
  • 최근 데이터 처리를 통한 의사결정 수단으로 기계학습 기법을 도입한 개념이 많이 등장하고 있다. 기계학습은 기존의 데이터를 기반으로 학습한 결과를 이용하여 의사결정의 수단이 된다. 기술의 발전으로 생성되는 데이터는 방대하다. 이러한 데이터를 빅 데이터라 한다. 이러한 데이터에서 필요한 데이터를 추출하는 것은 중요하다. 이를 위해 본 논문에서는 온톨로지를 구축하기 위한 연관데이터를 기계학습을 통해서 추출하는 방법을 제시한다. 기계학습의 결과는 의미론적 관점에서 관계성을 부여할 수 있으며, 이것은 온톨로지에 추가됨으로써 어플리케이션의 요구에 따라 관계성을 지원할 수 있다.

  • PDF

DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템 (Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data)

  • 유광훈;황창회;윤정우;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계 (An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model)

  • 장지형;최호윤;이건우;최명석;홍참길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.613-618
    • /
    • 2022
  • 효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

  • PDF

서로 다른 시계열 데이터들간 통합 활용을 고려한 해시 함수 기반 학습 모델 관리 플랫폼 (Learning model management platform based on hash function considering for integration from different timeseries data)

  • 유미선;문재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.45-48
    • /
    • 2022
  • IoT 기술의 발전 및 확산으로 다양한 도메인에서 서로 다른 특성의 시계열 데이터가 수집되고 있다. 이에 따라 단일 목적으로 수집된 시계열 데이터만 아니라, 다른 목적으로 수집된 시계열 데이터들 또한 통합하여 분석활용하려는 수요 또한 높아지고 있다. 본 논문은 파편화된 시계열 데이터들을 선택하여 통합한 후 딥러닝 모델을 생성하고 활용할 수 있는 해시함수 기반 학습 모델 관리 플랫폼을 설계하고 구현하였다. 특정되지 않은 데이터들을 기반하여 모델을 학습하고 활용할 경우 생성 모델이 개별적으로 어떤 데이터로 어떻게 생성되었는지 기술되어야 향후 활용에 용이하다. 특히 시계열 데이터의 경우 학습 데이터의 시간 정보에 의존적일 수밖에 없으므로 해당 정보의 관리도 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 해시 함수를 이용해서 생성된 모델을 계층적으로 저장하여 원하는 모델을 쉽게 검색하고 활용할 수 있도록 하였다.

  • PDF

토픽맵 기반 개인별 학습 콘텐츠 탐색 네비게이터 구조 설계 (Design of the Personalized Searching Navigator of Learning Contents Based on the Topic Maps)

  • 정경희;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.23-26
    • /
    • 2006
  • 최근 대부분의 이러닝(E-Learning)을 교육하는 사이트는 학습 콘텐츠를 검색하는 방법이 단순한 리스트의 나열과 택스트 매칭(Text matching)방법을 사용하는 단점이 있다. 이를 보완하기 위해 좀 더 컴퓨터가 정보 데이터의 의미를 분석하여 검색이 가능하도록 개념 네트워크인 시맨틱웹(Semantic Web)이 등장하였다. 본 논문에서는 이러한 시맨틱웹의 온톨로지(Ontology) 언어 중에 토픽맵(Topic Maps)을 사용하여 많은 양의 학습 정보 데이터를 쉽고도 정확하게 연결 지어 학습 콘텐츠에 대한 정보를 표현하고, 구조화할 수 있는 방법을 모색해 보고자 한다. 학습자의 관심분야 정보, 학습객체의 학습 권장자의 정보와 함께 학습 경험과 검색 빈도수를 분석한 협력 필터링과 학습 에이전트의 개인화 기법을 동시에 사용하여 선호도를 분석한다. 이 선호도를 가지고 학습자의 메타데이터를 생성하고, 로그 데이터를 따로 데이터베이스에 저장한다. 이러한 학습자의 정보와 학습 콘텐츠간의 정보를 상호 연결하여, 그 토픽맵을 사용하여 연관관계를 정의해 줌으로써 학업성취도를 높이고, 학습자 개개인의 성향에 가장 알맞은 학습 콘텐츠를 탐색해가는 네비게이터(Navigator)를 설계하였다.

  • PDF

데이터 유사도를 이용한 지속적 학습방법 (Continual Learning using Data Similarity)

  • 박성현;강석훈
    • 전기전자학회논문지
    • /
    • 제24권2호
    • /
    • pp.514-522
    • /
    • 2020
  • Continuous Learning 환경에서 인공 신경망의 학습이 진행됨에 따라 이전에 학습했던 데이터의 정보를 잊는 Catastrophic Forgetting 현상이 있다. 서로 다른 Domain을 갖는 데이터 사이에서 쉽게 발생한다. 이 현상을 제어하기 위해 신경망의 출력 분포를 통해 이전에 학습된 데이터와 새로 학습할 데이터들의 관계를 측정하는 방법과 이 측정값을 사용하여 Catastrophic Forgetting 현상을 완화하는 방법을 제시한다. 평가를 위해 MNIST, EMNIST 데이터를 사용하였고 실험 결과, 이전 데이터에 대한 정확도가 평균적으로 약 22.37% 향상되었다.