• Title/Summary/Keyword: 학습 데이터

Search Result 6,271, Processing Time 0.034 seconds

Improvement of Learner's learning Style Diagnosis System using Visualization Method (시각화 방법을 이용한 학습자의 학습 성향 진단 시스템의 개선)

  • Yoon, Tae-Bok;Choi, Mi-Ae;Lee, Jee-Hyong;Kim, Yong-Se
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.3
    • /
    • pp.226-230
    • /
    • 2009
  • Intelligent Tutoring System (ITS) is a procedure of analyzing collected data for teaming, making a strategy and performing adequate service for learners. To perform suitable service for learners, modeling is the first step to collect data from the process of their learning. The model, however, cannot be authentic if collected data can contain learners' inconsistent behaviors or unpredictable learning inclination. This study focused on how to sort normal and abnormal data by analyzing collected data from learners through visualization. A model has been set up to assort unusual data from collected learner's data by using DOLLS-HI which makes possible to diagnose learner's learning propensity based on housing interior learning contents in the experiment. The created model has been confirmed its improved reliability comparing to previous one.

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

Learning Achievement Prediction Model based on Deep Learning (딥러닝 기반의 학습 성취 예측 모델)

  • Lee, Myung-Suk;Pak, Ju-Geon;Lee, Joo-Hwa
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.245-247
    • /
    • 2021
  • 최근 코로나 19로 인하여 온라인 강의가 증가하고 있으며 이를 활용한 학습 분석에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 학습 분석 중 학습 결과에 영향을 미칠 수 있는 학습 활동 데이터를 수집하여 학습 결과를 예측하는 모델을 설계하고자 한다. 예측 모델은 기계학습을 이용하며 이전 학기의 학습 결과 데이터를 학습시켜 학습 결과에 영향을 미치는 학습 활동 데이터를 도출한다. 도출된 데이터를 이용하여 차후 학습자의 학습 결과를 예측한다. 학습 결과를 예측하기 위한 모델로 딥러닝의 DNN을 활용한다. 향후 연구로는 예측한 결과를 바탕으로 학습자의 학습 동기 부여와 학습 지도 방향을 정하는 것이다.

  • PDF

Incremental Superised Learning based on SVM with Unlabeled Documents (레이블이 없는 문서를 이용한 SVM 기반의 점증적 지도학습)

  • 김수영;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.301-303
    • /
    • 2002
  • 컴퓨터가 널리 보급되고 인터넷이 발전함에 따라 수없이 많은 정보가 디지털 형태로 생산되고 있다. 이러한 정보를 사람이 일일이 가공하고 분류하기에는 한계가 있으므로 자동으로 문서를 분류하고자 하는 연구가 대두되었다. 문서를 자동으로 분류하기 위해 기계학습 방법이 많이 이용되고 있다. 기계학습방법을 이용한 문서분류가 좋은 성능을 내기 위해서는 충분한 양의 학습데이터가 필요하다. 학습데이터를 만들기 위해서는 사람이 일일이 분류해야 하므로, 비용이 많이 든다. 본 논문에서는 적은양의 labeled 데이터로부터 시작하여, 점증적으로 unlabeled 데이터를 학습에 참여시킴으로써, 문서분류의 성능을 높이고자 한다. 실험을 통해 Unlabeled 문서데이터를 사용한 것이 좋은 성능을 보였음을 알 수 있다.

  • PDF

Big Data 분석을 위한 Machine Learning

  • Lee, Jae-Gu;Lee, Tae-Hun;Yun, Seong-Ro
    • Information and Communications Magazine
    • /
    • v.31 no.11
    • /
    • pp.14-26
    • /
    • 2014
  • 본고는 빅데이터 시대에 새로운 가치를 창출할 수 있는 정보 분석을 위한 기계학습을 설명하고자 한다. 기계학습의 일반적 정의와 특성, 그리고 빅데이터 특성에 의한 기계학습의 변화를 확인하고 특별히 다양한 변화 중에서 분산 및 병렬화를 통한 스케일러블 기계학습을 중점으로 주어진 빅데이터를 효율적으로 분석할 수 있는 다양한 플랫폼들과 프레임워크들을 설명한다. 더불어 실제 다양한 응용 활용을 제공하고 있는 Google API 같은 빅데이터 분석 기계학습 프로젝트들을 통해서 기계학습을 통한 빅데이터 분석에 대한 폭넓은 이해를 전달하고자 한다.

Domain-agnostic Pre-trained Language Model for Tabular Data (도메인 변화에 강건한 사전학습 표 언어모형)

  • Cho, Sanghyun;Choi, Jae-Hoon;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

Learning Method of Data Bias employing MachineLearningforKids: Case of AI Baseball Umpire (머신러닝포키즈를 활용한 데이터 편향 인식 학습: AI야구심판 사례)

  • Kim, Hyo-eun
    • Journal of The Korean Association of Information Education
    • /
    • v.26 no.4
    • /
    • pp.273-284
    • /
    • 2022
  • The goal of this paper is to propose the use of machine learning platforms in education to train learners to recognize data biases. Learners can cultivate the ability to recognize when learners deal with AI data and systems when they want to prevent damage caused by data bias. Specifically, this paper presents a method of data bias education using MachineLearningforKids, focusing on the case of AI baseball referee. Learners take the steps of selecting a specific topic, reviewing prior research, inputting biased/unbiased data on a machine learning platform, composing test data, comparing the results of machine learning, and present implications. Learners can learn that AI data bias should be minimized and the impact of data collection and selection on society. This learning method has the significance of promoting the ease of problem-based self-directed learning, the possibility of combining with coding education, and the combination of humanities and social topics with artificial intelligence literacy.

Support Vector Data Description using Mean Shift Clustering (평균 이동 알고리즘 기반의 지지 벡터 영역 표현 방법)

  • Chang, Hyung-Jin;Kim, Pyo-Jae;Choi, Jung-Hwan;Choi, Jin-Young
    • Proceedings of the KIEE Conference
    • /
    • 2007.04a
    • /
    • pp.307-309
    • /
    • 2007
  • SVDD의 scale prob1em을 해결하기 위하여, 학습 데이터를 sub-groupings하여 group 단위로 SVDD를 통해 학습함으로써 학습 시간을 줄이는, K-means clustering을 이용한 SVDD 방범(KMSVDD)이 제안되었다. 하지만 KMSVDD는 K-means clustering 알고리즘의 본질상 최적의 K값을 정하기 힘들다는 문제와, 동일한 데이터를 학습할지라도 clustered group이 램덤하게 형성되기 때문에 매번 학습의 결과가 달라지는 문제점이 있었다. 또한 데이터의 분포 상태와 관계없이 무조건 타원(dlliptic) 형태의 K개의 cluster로 나누기 때문에 각각의 나눠진 cluster들은 데이터 분포에 대한 특징을 나타내기 힘들게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 데이터 분포에서 mode를 먼저 찾은 후 이 mode를 기준으로 clustering하는 Mean Shift clustering 방법을 이용한 SVDD를 제안하고자 한다. 제안된 알고리즘은 KMSVDD와 비교해 데이터 학습 속도에서는 큰 차이가 없으면서도 데이터의 분포 상태를 고려한 형태로 clustering 한 sub-group을 학습하므로 학습의 정확도가 일정하게 되며, 각각의 cluster는 데이터 분표의 특징을 포함하는 효과가 있다. 또한 Mean Shift Kernel의 bandwidth의 결정은 K-Means의 K와는 달리 어느 정도 여유를 갖고 결정되어도 학습 결과에는 차이가 없다. 다양한 데이터들을 이용한 모의실험을 통하여 위의 내용들을 검증하도록 한다.

  • PDF

Self-learning Method Based Slot Correction for Spoken Dialog System (자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정)

  • Choi, Taekyoon;Kim, Minkyoung;Lee, Injae;Lee, Jieun;Park, Kyuyon;Kim, Kyungduk;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

A Study on Prediction of Parent School Satisfaction Using Educational Data Mining (교육데이터마이닝을 이용한 학부모 학교 만족도 예측에 관한 연구)

  • Yang, YouugBo;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.244-246
    • /
    • 2018
  • 학습관리시스템의 도입으로 학습자들은 다양한 형태로 학습하게 되고 데이터를 남기게 된다. 교육데이터마이닝은 다양한 형태로 기록되는 교육 데이터를 분석해서 유의미한 정보를 찾아 내는 방법이다. 교육데이터마이님을 활용하면 학생 개인의 학습성과 향상에 도움을 주거나 학습성과 예측 결과를 참고하여 부족한 부분을 지원해 줄 수도 있다. 기존 연구에서는 학습자의 행동 영역 특징이 학습성과에 영향을 끼친다는 것을 검증하기 위하여 나이브 베이즈, 의사결정트리, 신경망 기계학습알고리즘으로 데이터를 분석했다. 따라서 본 연구에서는 기존 연구를 확장하여 학습자의 행동 영역 특징이 학부모 학교 만족도에 영향을 끼치는지 여부를 확인하는 실험을 수행했으며 kNN, 의사결정트리, SVM 기계학습 알고리즘으로 데이터를 분석하였다. 분석결과 학습자의 행동 영역 특정이 학부모 학교 만족도에 영향을 미치는 것을 확인했다.