• 제목/요약/키워드: Automatic Scoring Model

검색결과 21건 처리시간 0.024초

프롬프트 엔지니어링을 통한 GPT-4 모델의 수학 서술형 평가 자동 채점 탐색: 순열과 조합을 중심으로 (Exploring automatic scoring of mathematical descriptive assessment using prompt engineering with the GPT-4 model: Focused on permutations and combinations)

  • 신병철;이준수;유연주
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제63권2호
    • /
    • pp.187-207
    • /
    • 2024
  • 본 연구에서는 GPT-4 기반의 ChatGPT를 활용한 서술형 평가 문항의 자동 채점 가능성을 탐색하기 위해 교사와 GPT-4 기반의 ChatGPT의 채점 결과를 비교, 분석하였다. 이를 위해 학생평가지원포털에 있는 고등학교 1학년 순열과 조합 단원에서 3개의 서술형 문항을 선정하였다. 문항 1, 2는 문제 해결 전략이 1가지인 문항이고, 문항 3은 문제 해결 전략이 2가지 이상인 문항이었다. 8년 이상의 교육 경력이 있는 교사 2명이 학생 204명의 답안을 채점하고, GPT-4 기반의 ChatGPT의 채점 결과와 비교하였다. 문항별로 Few-Shot-CoT, SC, 구조화, 반복 프롬프트 기법 등을 활용하여 채점을 위한 프롬프트를 구성하였고, 이를 GPT-4 기반의 ChatGPT에 입력하여 채점하였다. 채점 결과, 문항 1, 2는 교사의 채점 결과와 GPT-4의 채점 결과 사이에 강한 상관관계를 충족하였다. 문제 해결 전략이 2가지인 문항 3은 먼저 채점 전 학생 답안을 문제 해결전략별로 분류하는 프롬프트를 GPT-4 기반의 ChatGPT에 입력하여 답안을 분류하였다. 이후 유형별로 채점 프롬프트를 적용하여 GPT-4 기반의 ChatGPT에 입력하여 채점하였고, 채점 결과 역시 교사의 채점 결과와 강한 상관관계가 나타났다. 이를 통해 프롬프트 엔지니어링을 활용한 GPT-4 모델이 교사의 채점을 보조할 수 있는 가능성을 확인하였으며 본 연구의 한계점 및 향후 연구 방향을 제시하였다.

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF

기계 학습을 활용한 논증 수준 자동 채점 및 논증 패턴 분석 (Automated Scoring of Argumentation Levels and Analysis of Argumentation Patterns Using Machine Learning)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제41권3호
    • /
    • pp.203-220
    • /
    • 2021
  • 이 연구는 과학적 논증 담화에 대한 자동 채점의 성능 개선 방향을 탐색하였으며, 자동 채점 모델을 활용하여 논증 담화의 양상과 패턴을 분석하였다. 이를 위해 과학적 논증 수업에서 발생한 학생 발화를 대상으로 논증 수준을 평가하는 자동 채점을 수행하였다. 이 자동 채점의 데이터셋은 4가지 단위의 논증 피처와 논증 수준 평가틀로 구성되었다. 특히, 자동 채점에 논증 패턴을 반영하기 위하여 논증 클러스터와 n-gram을 활용하였다. 자동 채점 모델은 3가지의 지도 학습 기법으로 구성되었으며, 그 결과 총 33개의 자동 채점 모델이 구성되었다. 자동 채점의 결과, 최대 85.37%, 평균 77.59%의 채점 정확도를 얻었다. 이 과정에서 논증 담화의 패턴이 자동 채점의 성능을 개선하는 주요한 피처임을 확인하였다. 또한, 의사결정 나무와 랜덤 포레스트의 모델을 통하여 과학적 논증 수준에 따른 논증의 양상과 패턴을 분석하였다. 이를 통하여 주장, 자료와 함께 정당화가 체계적으로 구성된 과학적 논증과 자료에 대한 활발한 상호작용이 이루어진 과학적 논증이 논증 수준의 발달을 이끈다는 점 등을 확인하였다. 이와 같은 자동 채점 모델의 해석은 논증 패턴을 분석하는 새로운 연구 방법을 제언하는 것이다.

준지도학습 방법을 이용한 한국어 서답형 문항 반자동 채점 (Semi-Automatic Scoring for Short Korean Free-Text Responses Using Semi-Supervised Learning)

  • 천민아;서형원;김재훈;노은희;성경희;임은영
    • 인지과학
    • /
    • 제26권2호
    • /
    • pp.147-165
    • /
    • 2015
  • 서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다. 본 논문에서는 준지도학습 방법을 이용한 한국어 서답형 문항의 채점 시스템을 제안한다. 제안된 시스템은 모범답안을 초기 모델로 학생답안의 일부를 채점하고 그 결과를 이용해서 점진적으로 학생답안의 채점을 늘려가는 준지도학습 방법을 이용한다. 제안된 시스템을 평가하기 위해서 2013학년도 학업성취도 평가의 국어 및 사회 과목의 서답형 문항을 사용했다. 채점 시간과 일관성에 관해서 매우 좋은 결과를 얻었다. 그 결과 채점 시간을 크게 단출할 수 있었으며 다양한 채점 방법을 적용하여 객관성을 확보한다면 현장에서 바로 적용할 수 있을 것으로 기대된다.

Hybrid Fungal Genome Annotation Pipeline Combining ab initio, Evidence-, and Homology-based gene model evaluation

  • Min, Byoungnam;Choi, In-Geol
    • 한국균학회소식:학술대회논문집
    • /
    • 한국균학회 2018년도 춘계학술대회 및 임시총회
    • /
    • pp.22-22
    • /
    • 2018
  • Fungal genome sequencing and assembly have been trivial in these days. Genome analysis relies on high quality of gene prediction and annotation. Automatic fungal genome annotation pipeline is essential for handling genomic sequence data accumulated exponentially. However, building an automatic annotation procedure for fungal genomes is not an easy task. FunGAP (Fungal Genome Annotation Pipeline) is developed for precise and accurate prediction of gene models from any fungal genome assembly. To make high-quality gene models, this pipeline employs multiple gene prediction programs encompassing ab initio, evidence-, and homology-based evaluation. FunGAP aims to evaluate all predicted genes by filtering gene models. To make a successful filtering guide for removal of false-positive genes, we used a scoring function that seeks for a consensus by estimating each gene model based on homology to the known proteins or domains. FunGAP is freely available for non-commercial users at the GitHub site (https://github.com/CompSynBioLab-KoreaUniv/FunGAP).

  • PDF

A Novel, Deep Learning-Based, Automatic Photometric Analysis Software for Breast Aesthetic Scoring

  • Joseph Kyu-hyung Park;Seungchul Baek;Chan Yeong Heo;Jae Hoon Jeong;Yujin Myung
    • Archives of Plastic Surgery
    • /
    • 제51권1호
    • /
    • pp.30-35
    • /
    • 2024
  • Background Breast aesthetics evaluation often relies on subjective assessments, leading to the need for objective, automated tools. We developed the Seoul Breast Esthetic Scoring Tool (S-BEST), a photometric analysis software that utilizes a DenseNet-264 deep learning model to automatically evaluate breast landmarks and asymmetry indices. Methods S-BEST was trained on a dataset of frontal breast photographs annotated with 30 specific landmarks, divided into an 80-20 training-validation split. The software requires the distances of sternal notch to nipple or nipple-to-nipple as input and performs image preprocessing steps, including ratio correction and 8-bit normalization. Breast asymmetry indices and centimeter-based measurements are provided as the output. The accuracy of S-BEST was validated using a paired t-test and Bland-Altman plots, comparing its measurements to those obtained from physical examinations of 100 females diagnosed with breast cancer. Results S-BEST demonstrated high accuracy in automatic landmark localization, with most distances showing no statistically significant difference compared with physical measurements. However, the nipple to inframammary fold distance showed a significant bias, with a coefficient of determination ranging from 0.3787 to 0.4234 for the left and right sides, respectively. Conclusion S-BEST provides a fast, reliable, and automated approach for breast aesthetic evaluation based on 2D frontal photographs. While limited by its inability to capture volumetric attributes or multiple viewpoints, it serves as an accessible tool for both clinical and research applications.

비즈니스 사이트 평가에 관한 연구 - I-Evaluation 모형 중심으로- (A Study on the Appraisal of Site - on focus I-Evaluation model-)

  • 양승권
    • 대한안전경영과학회지
    • /
    • 제3권3호
    • /
    • pp.151-164
    • /
    • 2001
  • Currently, there are little evaluated model for each industry and systematic analysis for each item about current business web sites. And the approach way to improve it all depends on individual. This research is about two different points of view on I-Evaluation development as an approach method to provide analysis, evaluation, and guideline on business web sites. The one is about developing a working step and a site evaluation model that are necessary to improve the quality of site. The other is about a framework development to apply a feedback on site most rapidly and site optimization. The former is from the methodological point of view for I-Evaluation, and the latter is from the point of view for I-Evaluation Framework. In terms of methodology, developing site evaluation model and defining a working step belong to it. Site evaluation model means customizing each customers web site, using each evaluated scoring model which can be a standard for each industry to analyze a similar business web site. Defining a working step means defining input and output parameters for composed elements, working processes, and results analysis on an evaluated model. And also it includes building a working environments to automatic steps mentioned the above by clarifying them.

  • PDF

발성 평가를 위한 영어 음성인식기의 개발 (Development of English Speech Recognizer for Pronunciation Evaluation)

  • 박전규;이준조;김영창;허용수;이석재;이종현
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.37-40
    • /
    • 2003
  • This paper presents the preliminary result of the automatic pronunciation scoring for non-native English speakers, and shows the developmental process for an English speech recognizer for the educational and evaluational purposes. The proposed speech recognizer, featuring two refined acoustic model sets, implements the noise-robust data compensation, phonetic alignment, highly reliable rejection, key-word and phrase detection, easy-to-use language modeling toolkit, etc., The developed speech recognizer achieves 0.725 as the average correlation between the human raters and the machine scores, based on the speech database YOUTH for training and K-SEC for test.

  • PDF

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 (Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model)

  • 김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권3호
    • /
    • pp.34-43
    • /
    • 2012
  • 두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소 변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2~80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4~14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1~11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다.

SWAT-CUP을 이용한 SWAT 모형 검·보정 I: 목적함수에 따른 불확실성 분석 (SWAT model calibration/validation using SWAT-CUP I: analysis for uncertainties of objective functions)

  • 유지수;노준우;조영현
    • 한국수자원학회논문집
    • /
    • 제53권1호
    • /
    • pp.45-56
    • /
    • 2020
  • 본 연구는 SWAT-CUP을 이용한 SWAT 모형 매개변수 보정을 수행할 때, 목적함수로 인해 발생할 수 있는 불확실성을 정량화하는 것을 목표로 수행되었다. 먼저 낙동강 권역의 내성천 유역을 대상으로 유출량 산정을 위한 SWAT 모형을 구축한 후, SWAT-CUP을 이용하여 8개 목적함수(R2, bR2, NS, MNS, KGE, PBIAS, RSR 및 SSQR)를 기준으로 자동 보정을 수행하였다. 최종 매개변수는 목적함수에 따라 서로 다른 범위를 나타내었으며, 모의 결과의 수문특성 또한 상이하게 도출되는 것을 확인하였다. 이것은 각각의 목적함수가 특정 수문특성에 대하여 민감하게 반응하여 서로 다른 모의 성능을 평가하기 때문이다. 즉, 특정 목적함수는 극치값의 잔차에 대해 민감하게 반응하여 첨두값을 잘 모의하는 반면, 저유량 또는 평균유량에 대한 모의 성능이 떨어질 수 있다. 따라서 본 연구에서는 최적 목적함수를 선정하기 위해 8개의 목적함수에 따라 산정된 모의값과 관측값 사이의 수문학적 유사성을 평가하였다. 단순히 유량의 크기 비교 뿐 아니라 유량의 발생 시기, 유역의 반응 및 증가·감소 경향성을 함께 고려하기 위해 수문곡선의 증수부 및 감수부 유지시간 비율을 수문특성으로 정의하여 SWAT 모형을 평가하였으며, 평가 결과를 점수로 정량화하여 나타냈다. 그 결과 최종적으로 SWAT 매개변수 보정을 위한 최적 목적함수는 총점이 높은 MNS (342.48) 및 SSQR (346.45)로 선정되었다.