• 제목/요약/키워드: 학습 데이터

검색결과 6,271건 처리시간 0.043초

시각화 방법을 이용한 학습자의 학습 성향 진단 시스템의 개선 (Improvement of Learner's learning Style Diagnosis System using Visualization Method)

  • 윤태복;최미애;이지형;김용세
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.226-230
    • /
    • 2009
  • 지능형 학습 시스템은 학습자의 학습 과정에서 수집된 데이터를 분석하여 학습자에게 맞는 전략을 세우고 적합한 서비스를 제공하는 시스템이다. 학습자에게 적합한 서비스를 위해서는 학습자 모델링 작업이 우선시 되며, 이 모델 생성을 위해서 학습자의 학습 과정에서 발생한 데이터를 수집하고 분석하게 된다. 하지만, 수집된 데이터가 학습자의 일관되지 못한 행위나 비예측 학습 성향을 포함하고 있다면, 생성된 모델을 신뢰하기 어렵다. 본 논문에서는 학습자에게서 수집된 데이터를 시각화 분석 방법을 이용하여 비정상 데이터를 선별한다. 실험에서는 홈 인테리어 컨텐츠 기반에 학습자의 학습 행위에 대한 학습 성향을 진단하기 위한 DOLLS-HI를 이용하여, 수집된 학습자의 데이터에서 비정상 데이터를 분류하고 학습 성향 진단을 위한 모델을 생성하였다. 생성된 모델은 비정상 데이터 분류전과 비교하여 신뢰가 향상된 것을 확인하였다.

KcBERT: 한국어 댓글로 학습한 BERT (KcBERT: Korean comments BERT)

  • 이준범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

딥러닝 기반의 학습 성취 예측 모델 (Learning Achievement Prediction Model based on Deep Learning)

  • 이명숙;박주건;이주화
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.245-247
    • /
    • 2021
  • 최근 코로나 19로 인하여 온라인 강의가 증가하고 있으며 이를 활용한 학습 분석에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 학습 분석 중 학습 결과에 영향을 미칠 수 있는 학습 활동 데이터를 수집하여 학습 결과를 예측하는 모델을 설계하고자 한다. 예측 모델은 기계학습을 이용하며 이전 학기의 학습 결과 데이터를 학습시켜 학습 결과에 영향을 미치는 학습 활동 데이터를 도출한다. 도출된 데이터를 이용하여 차후 학습자의 학습 결과를 예측한다. 학습 결과를 예측하기 위한 모델로 딥러닝의 DNN을 활용한다. 향후 연구로는 예측한 결과를 바탕으로 학습자의 학습 동기 부여와 학습 지도 방향을 정하는 것이다.

  • PDF

레이블이 없는 문서를 이용한 SVM 기반의 점증적 지도학습 (Incremental Superised Learning based on SVM with Unlabeled Documents)

  • 김수영;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.301-303
    • /
    • 2002
  • 컴퓨터가 널리 보급되고 인터넷이 발전함에 따라 수없이 많은 정보가 디지털 형태로 생산되고 있다. 이러한 정보를 사람이 일일이 가공하고 분류하기에는 한계가 있으므로 자동으로 문서를 분류하고자 하는 연구가 대두되었다. 문서를 자동으로 분류하기 위해 기계학습 방법이 많이 이용되고 있다. 기계학습방법을 이용한 문서분류가 좋은 성능을 내기 위해서는 충분한 양의 학습데이터가 필요하다. 학습데이터를 만들기 위해서는 사람이 일일이 분류해야 하므로, 비용이 많이 든다. 본 논문에서는 적은양의 labeled 데이터로부터 시작하여, 점증적으로 unlabeled 데이터를 학습에 참여시킴으로써, 문서분류의 성능을 높이고자 한다. 실험을 통해 Unlabeled 문서데이터를 사용한 것이 좋은 성능을 보였음을 알 수 있다.

  • PDF

Big Data 분석을 위한 Machine Learning

  • 이재구;이태훈;윤성로
    • 정보와 통신
    • /
    • 제31권11호
    • /
    • pp.14-26
    • /
    • 2014
  • 본고는 빅데이터 시대에 새로운 가치를 창출할 수 있는 정보 분석을 위한 기계학습을 설명하고자 한다. 기계학습의 일반적 정의와 특성, 그리고 빅데이터 특성에 의한 기계학습의 변화를 확인하고 특별히 다양한 변화 중에서 분산 및 병렬화를 통한 스케일러블 기계학습을 중점으로 주어진 빅데이터를 효율적으로 분석할 수 있는 다양한 플랫폼들과 프레임워크들을 설명한다. 더불어 실제 다양한 응용 활용을 제공하고 있는 Google API 같은 빅데이터 분석 기계학습 프로젝트들을 통해서 기계학습을 통한 빅데이터 분석에 대한 폭넓은 이해를 전달하고자 한다.

도메인 변화에 강건한 사전학습 표 언어모형 (Domain-agnostic Pre-trained Language Model for Tabular Data)

  • 조상현;최제훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

머신러닝포키즈를 활용한 데이터 편향 인식 학습: AI야구심판 사례 (Learning Method of Data Bias employing MachineLearningforKids: Case of AI Baseball Umpire)

  • 김효은
    • 정보교육학회논문지
    • /
    • 제26권4호
    • /
    • pp.273-284
    • /
    • 2022
  • 본고의 목표는 데이터 편향 인식 교육에서 기계학습 플랫폼의 사용을 제안하는 것이다. 학습자들이 인공지능 데이터 및 시스템을 다루거나 인공지능윤리 요소 중 데이터 편향에 의한 피해를 방지하고자 할 때 인지할 수 있는 역량을 배양할 수 있다. 구체적으로, 머신러닝포키즈를 활용해 데이터편향 학습을 하는 방법을 AI야구심판 사례를 통해 제시한다. 학습자는 구체적 주제선정, 선행연구 검토, 기계학습 플랫폼에서 편향/비편향 데이터의 입력 및 테스트 데이터 구성, 기계학습의 결과 비교, 결과를 통해 얻을 수 있는 데이터 편향에 대한 함의를 제시한다. 이러한 과정을 통해서 학습자는 인공지능 데이터 편향이 최소화되어야 한다는 점과 데이터 수집 및 선정이 사회에 미치는 영향을 체험적으로 배울 수 있다. 이 학습방법은 문제기반의 자기주도 학습의 용이성, 코딩교육과의 결합가능성, 그리고 인문사회적 주제와 인공지능 리터러시와 결합을 추동한다는 의의를 가진다.

평균 이동 알고리즘 기반의 지지 벡터 영역 표현 방법 (Support Vector Data Description using Mean Shift Clustering)

  • 장형진;김표재;최정환;최진영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.307-309
    • /
    • 2007
  • SVDD의 scale prob1em을 해결하기 위하여, 학습 데이터를 sub-groupings하여 group 단위로 SVDD를 통해 학습함으로써 학습 시간을 줄이는, K-means clustering을 이용한 SVDD 방범(KMSVDD)이 제안되었다. 하지만 KMSVDD는 K-means clustering 알고리즘의 본질상 최적의 K값을 정하기 힘들다는 문제와, 동일한 데이터를 학습할지라도 clustered group이 램덤하게 형성되기 때문에 매번 학습의 결과가 달라지는 문제점이 있었다. 또한 데이터의 분포 상태와 관계없이 무조건 타원(dlliptic) 형태의 K개의 cluster로 나누기 때문에 각각의 나눠진 cluster들은 데이터 분포에 대한 특징을 나타내기 힘들게 된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 데이터 분포에서 mode를 먼저 찾은 후 이 mode를 기준으로 clustering하는 Mean Shift clustering 방법을 이용한 SVDD를 제안하고자 한다. 제안된 알고리즘은 KMSVDD와 비교해 데이터 학습 속도에서는 큰 차이가 없으면서도 데이터의 분포 상태를 고려한 형태로 clustering 한 sub-group을 학습하므로 학습의 정확도가 일정하게 되며, 각각의 cluster는 데이터 분표의 특징을 포함하는 효과가 있다. 또한 Mean Shift Kernel의 bandwidth의 결정은 K-Means의 K와는 달리 어느 정도 여유를 갖고 결정되어도 학습 결과에는 차이가 없다. 다양한 데이터들을 이용한 모의실험을 통하여 위의 내용들을 검증하도록 한다.

  • PDF

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

교육데이터마이닝을 이용한 학부모 학교 만족도 예측에 관한 연구 (A Study on Prediction of Parent School Satisfaction Using Educational Data Mining)

  • 양영보;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.244-246
    • /
    • 2018
  • 학습관리시스템의 도입으로 학습자들은 다양한 형태로 학습하게 되고 데이터를 남기게 된다. 교육데이터마이닝은 다양한 형태로 기록되는 교육 데이터를 분석해서 유의미한 정보를 찾아 내는 방법이다. 교육데이터마이님을 활용하면 학생 개인의 학습성과 향상에 도움을 주거나 학습성과 예측 결과를 참고하여 부족한 부분을 지원해 줄 수도 있다. 기존 연구에서는 학습자의 행동 영역 특징이 학습성과에 영향을 끼친다는 것을 검증하기 위하여 나이브 베이즈, 의사결정트리, 신경망 기계학습알고리즘으로 데이터를 분석했다. 따라서 본 연구에서는 기존 연구를 확장하여 학습자의 행동 영역 특징이 학부모 학교 만족도에 영향을 끼치는지 여부를 확인하는 실험을 수행했으며 kNN, 의사결정트리, SVM 기계학습 알고리즘으로 데이터를 분석하였다. 분석결과 학습자의 행동 영역 특정이 학부모 학교 만족도에 영향을 미치는 것을 확인했다.