• 제목/요약/키워드: 학습평가모델

검색결과 1,424건 처리시간 0.033초

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

거대언어모델에 대한 원자력 안전조치 용어 적용 가능성 평가 (A Training Feasibility Evaluation of Nuclear Safeguards Terms for the Large Language Model (LLM))

  • 윤성호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.479-480
    • /
    • 2024
  • 본 논문에서는 원자력 안전조치 용어를 미세조정(fine tuning) 알고리즘을 활용해 추가 학습한 공개 거대 언어모델(Large Language Model, LLM)이 안전조치 관련 질문에 대해 답변한 결과를 정성적으로 평가하였다. 평가 결과, 학습 데이터 범위 내 질문에 대해 학습 모델은 기반 모델 답변에 추가 학습 데이터를 활용한 낮은 수준의 추론을 수행한 답변을 출력하였다. 평가 결과를 통해 추가 학습 개선 방향을 도출하였으며 저비용 전문 분야 언어 모델 구축에 활용할 수 있을 것으로 보인다.

  • PDF

역량기반 학습성과 평가 시스템 구현을 위한 데이터 모델링 및 알고리즘 설계 (Data modeling and algorithms design for implementing Competency-based Learning Outcomes Assessment System)

  • 정현숙;김정민
    • 융합정보논문지
    • /
    • 제11권11호
    • /
    • pp.335-344
    • /
    • 2021
  • 본 논문의 목적은 교과기반 학습성취평가 시스템 구현을 위한 교과 데이터 모델 및 학습 성취도 산출 알고리즘 개발이다. 현재 대학 교육의 방향인 역량기반 교육을 위해서는 교과기반 학습성취 평가가 필수적이지만 기존 연구들은 교육학적 관점으로서 컴퓨터 시스템 관점의 해결책이 매우 부족하다. 본 논문에서는 코스맵 데이터 구조 분석을 통해 계층 구조의 학습성과 모델, 학습모듈 및 학습활동 모델, 학습성과와 학습활동 연계 매트릭스 모델 및 자동화된 성취도 산출 및 성취수준 평가를 위한 성취도 계산 알고리즘을 제안한다. 이를 통해 교과기반 학습성취 평가 시스템을 개발할 수 있으며 시스템 활용을 통해 학습자의 역량 성취를 효과적으로 평가할 수 있다. 제안된 모델과 알고리즘의 평가를 위해 실제 운영중인 자바프로그래밍 교과목에 적용하였으며 이를 통해 교과기반 학습성과 성취평가 시스템 구현의 핵심요소로 활용할 수 있음을 확인하였다. 향후 연구는 학습성과 성취도 산출을 기반으로 적응형 학습 피드백과 개인화된 학습 추천 알고리즘 개발 및 시스템 구현이다.

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

가상학습 지원시스템의 품질평가 모델에 관한 연구 (A Study on the Quality Evaluation Model for Cyber Education Supporting System)

  • 강호영;박만곤
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.432-436
    • /
    • 2000
  • 가상학습은 지식 정보화시대를 맞이하여 국내외으로 새로운 교육훈련 패러다임으로서 시간과 공간을 초월한 얼린 학습공간으로 부각되고 있다. 특히 정보처리 기술의 급속한 발전으로 국내외 각종 정규·사회 교육기관에서는 인터넷을 이용한 가상학습 교육훈련을 전극 도입하고 있는 추세이다. 가상학습을 기반으로 하는 코스웨어 개발이냐 학습평가에 관한 연구는 많으나 품질평가에 관한 연구는 아직까지 미비하여 본 논문에서는 가상학습 지원시스템의 품질평가 모델을 제시하여 교육 현장에서 가상학습 지원시스템 구축 시 품질평가 기준으로 활용하고자 한다.

  • PDF

학습 데이터 용량 및 반복 학습 횟수에 따른 이미지 기반 GPT 문장생성 및 성능 분석 (Analyze GPT sentence generation performance based on Image by training data capacity and number of iterations)

  • 이동희;최봉준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.363-364
    • /
    • 2023
  • 현재 많은 사람이 GPT를 통해 다양한 활동 및 연구를 진행하고 있다. 사람들은 GPT를 통해 문장생성 시 문장에 대한 정확도를 중요하게 생각한다. 하지만 용도에 따라 GPT를 통해 생성하는 문장의 문체와 같은 표현방식이 다르다. 그래서 생성된 문장이 유의미한 문장이라는 것에 판단이 매우 주관적이기 때문에 수치적 평가가 어렵다. 본 논문에서는 자연어처리 모델이 생성한 문장의 유의미함을 판단하기 위해 각 모델을 학습하는 데이터 용량과 반복 학습의 횟수에 따른 결과물을 비교하였다. 본 연구에서는 Fine-Tuning을 통해 총 4개의 GPT 모델을 구축하였다. 각 모델로 생성 문장을 BLEU 평가지표를 통해 평가한 결과 본 연구에 BLEU 모델은 부적합하다는 결과를 도출하였다. 이를 해결하기 위해 본 연구에서는 생성된 모델을 평가하고자 설문지를 만들어 평가를 진행하였다. 그 결과 사람에게 긍정적인 평가를 받는 결과를 얻을 수 있었다.

  • PDF

교과기반 학습성취 평가 및 적응형 피드백 시스템 설계 (Study on Course-Embedded Learning Achievement Evaluation and Adaptive Feedback)

  • 정현숙;김정민
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.553-560
    • /
    • 2022
  • 고등교육기관의 역량 중심 교육과정 운영을 위해서는 교과목 수준에서 교과 학습목표(성과기준)의 성취수준을 다각도로 평가하여 학습자의 역량 함양 정도를 파악하는 교과기반 학습평가 방법에 대한 연구가 지속적으로 필요하다. 본 연구에서는 교과목 학습성과, 학습주제, 학습개념 기반의 학습평가 모델 및 성취수준에 따른 개인화된 학습 피드백 모델을 제안한다. 먼저 데이터 모델링 과정에서 교과목의 계층화된 학습성과, 학습주제 및 학습개념 그래프 및 학습성과-평가 매트릭스 모델을 정의하고 이를 기반으로 학습성과별, 학습주제별, 학습자별 등 다각도의 학습성취 수준을 측정하고 피드백하는 알고리즘을 제안한다. 제안한 학습성취평가 모델의 유효성을 검증하기 위해 자바프로그래밍 교과목에 적용하여 실제 데이터를 기반으로 실험을 진행하였으며 그 결과 성취수준의 산출 및 학습 피드백이 가능함을 보였다.

개체명 문맥의미표현 학습을 통한 기계 요약의 사실 불일치 교정 (Learning Contextual Meaning Representations of Named Entities for Correcting Factual Inconsistent Summary)

  • 박준모;노윤석;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2020
  • 사실 불일치 교정은 기계 요약 시스템이 요약한 결과를 실제 사실과 일치하도록 만드는 작업이다. 실제 요약 생성연구에서 가장 공통적인 문제점은 요약을 생성할 때 잘못된 사실을 생성하는 것이다. 이는 요약 모델이 실제 서비스로 상용화 하는데 큰 걸림돌이 되는 부분 중 하나이다. 본 논문에서는 원문으로부터 개체명을 가져와 사실과 일치하는 문장으로 고치는 방법을 제안한다. 이를 위해서 언어 모델이 개체명에 대한 문맥적 표현을 잘 생성할 수 있도록 학습시킨다. 그리고 학습된 모델을 이용하여 원문과 요약문에 등장한 개체명들의 문맥적 표현 비교를 통해 적절한 단어로 교체함으로써 요약문의 사실 불일치를 해소한다. 제안 모델을 평가하기 위해 추상 요약 데이터를 이용해 학습데이터를 만들어 학습하고, 실제 시나리오에서 적용가능성을 검증하기 위해 모델이 요약한 요약문을 이용해 실험을 수행했다. 실험 결과, 자동 평가와 사람 평가에서 제안 모델이 비교 모델보다 높은 성능을 보여주었다.

  • PDF

학습발달과정에 근거한 과정중심 STEAM 역량 평가 모델에 대한 이론적 탐색 (Theoretical Exploration of a Process-centered Assessment Model for STEAM Competency Based on Learning Progressions)

  • 유선아;곽영순;양성호
    • 과학교육연구지
    • /
    • 제42권2호
    • /
    • pp.132-147
    • /
    • 2018
  • 본 연구에서는 과정중심 평가에 대한 이론적 모델을 STEAM 교육 맥락에서 핵심역량의 학습발달과정에 근거하여 개발, 제안하였다. 본 연구에서 제안하는 '과정-결과를 결합한 모듈 타입(Process-Products Combined Module-type)의 STEAM 평가모델(P2CM STEAM 평가모델)'은 문헌분석을 통해 도출된 것으로, STEAM 수업 맥락에서 핵심역량 학습발달과정에 초점을 둔 모델이다. 의 특징은 STEAM 수업과 평가를 연계하고, 과정평가와 결과평가가 동시에 가능하며, 다양한 STEAM 주제와 수업유형에 실제로 적용 가능한 점이다. 은 3개의 축으로 구성되는데, 첫 번째 축(X축)은 STEAM에서 중점을 두어야 할 4C 역량을, 두 번째 축(Y축)은 STEAM 수업유형의 종류와 위계를 나타내며, 세 번째 축은 학습발달 수준인 평가기준을 나타낸다. 에 기반으로 하여 창조기반의 창의역량에 초점을 둔 평가모듈(창의역량${\times}$창조기반)에서, 학생들의 학습발달과정을 평가할 수 있는 평가기준을 예시하였다. 연구결과를 토대로 한국형 LP에 대한 연구성과를 토대로 평가모델 개발하기, 현장밀착형 심층연구를 통한 증거기반 평가모델 개발 제공, 교사공동체 및 현장교사들의 참여를 통한 형성 평가 모델 수정보완, 학습발달수준 추적을 위한 평가모델에 대한 지속적인 연구의 필요성 등을 제안하였다.

학습자 참여도 정보기반 가상강좌 출석평가 모델 (Attendance Appraisal for Learner Participation Degree Based Virtual Lecture)

  • 김현주
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권4호
    • /
    • pp.119-129
    • /
    • 2009
  • 최근 컴퓨터 보급의 대중화와 초고속 통신망 사용의 보편화는 전통적인 교육형식에 많은 변화를 주는 계기가 되었다. 그 중에서도 웹 기반의 다양한 멀티미디어 매체 기술, 컴퓨터 네트워크를 통한 정보의 상호작용 등은 시 공간을 초월한 가상교육 등장에 촉진제 역할을 하고 있다. 이러한 가상교육은 교수자와 학습자간의 상호작용이 가상공간에서 이루어져 학습지도, 학습평가, 피드백 등의 학습수행 측면에서 문제점이 제기되고 있다. 이에 본 논문에서는 가상강좌의 학습평가요수 중 하나인 출석평가에 대해 학습자 참여도를 기반으로 평가하는 모델을 제안한다. 학습자 참여도란 개설된 가상교육에 학습자의 자발적인 참여 정도를 말한다. 본 논문에서 제안한 학습자 참여도 기반 출석 평가모델은 교수자에게는 자동화된 출석평가 기능을 제공하며, 학습자에게는 가상강좌의 능동적인 참여 동기유발 효과를 기대한다.