• 제목/요약/키워드: GPT-4기반의 ChatGPT

검색결과 19건 처리시간 0.023초

프롬프트 엔지니어링을 통한 GPT-4 모델의 수학 서술형 평가 자동 채점 탐색: 순열과 조합을 중심으로 (Exploring automatic scoring of mathematical descriptive assessment using prompt engineering with the GPT-4 model: Focused on permutations and combinations)

  • 신병철;이준수;유연주
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제63권2호
    • /
    • pp.187-207
    • /
    • 2024
  • 본 연구에서는 GPT-4 기반의 ChatGPT를 활용한 서술형 평가 문항의 자동 채점 가능성을 탐색하기 위해 교사와 GPT-4 기반의 ChatGPT의 채점 결과를 비교, 분석하였다. 이를 위해 학생평가지원포털에 있는 고등학교 1학년 순열과 조합 단원에서 3개의 서술형 문항을 선정하였다. 문항 1, 2는 문제 해결 전략이 1가지인 문항이고, 문항 3은 문제 해결 전략이 2가지 이상인 문항이었다. 8년 이상의 교육 경력이 있는 교사 2명이 학생 204명의 답안을 채점하고, GPT-4 기반의 ChatGPT의 채점 결과와 비교하였다. 문항별로 Few-Shot-CoT, SC, 구조화, 반복 프롬프트 기법 등을 활용하여 채점을 위한 프롬프트를 구성하였고, 이를 GPT-4 기반의 ChatGPT에 입력하여 채점하였다. 채점 결과, 문항 1, 2는 교사의 채점 결과와 GPT-4의 채점 결과 사이에 강한 상관관계를 충족하였다. 문제 해결 전략이 2가지인 문항 3은 먼저 채점 전 학생 답안을 문제 해결전략별로 분류하는 프롬프트를 GPT-4 기반의 ChatGPT에 입력하여 답안을 분류하였다. 이후 유형별로 채점 프롬프트를 적용하여 GPT-4 기반의 ChatGPT에 입력하여 채점하였고, 채점 결과 역시 교사의 채점 결과와 강한 상관관계가 나타났다. 이를 통해 프롬프트 엔지니어링을 활용한 GPT-4 모델이 교사의 채점을 보조할 수 있는 가능성을 확인하였으며 본 연구의 한계점 및 향후 연구 방향을 제시하였다.

ChatGPT를 활용한 대학 교육 방안 연구 (A Study on A Study on the University Education Plan Using ChatGPTfor University Students)

  • 김현주;이진영
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.71-79
    • /
    • 2024
  • 미국 오픈AI사가 개발한 대화형 인공지능(AI) 챗봇 'ChatGPT'가 전 세계적으로 큰 반향을 일으키고 있다. 일부 학계에서는 ChatGPT를 학생들이 표절에 사용할 수 있다며 우려를 표하고 있는 실정이나, ChatGPT는 마케팅문구나 웹사이트 문구를 쓰는 데 활용되는 등 긍정적인 방향으로도 많이 사용되고 있다. 또한 ChatGPT가 '검색'의 새로운 미래가 될 수 있다는 의견도 생겨나고 있으며, 지나친 규제보다 육성에 초점을 맞춰야 한다는 분석도 제기되는 상황이다. 본 연구는 ChatGPT와 표절검사시스템에 대한 인식도 조사를 통해 대학생들의 ChatGPT에 대한 의식을 분석하고, ChatGPT와 표절검사시스템을 활용한 교육지원 모델 구축 방안을 마련하였고 ChatGPT와 표절검사시스템을 활용한 교육지원 모델 구축 방안을 제시하기 위하여 ChatGPT에 대한 기존의 연구들과 표절검사시스템에 대하여 조사하고 분석하였다. 그리고, 이것을 토대로 ChatGPT를 활용한 대학 교육 지원 모델을 구축하였다. ChatGPT를 활용한 교육 모델은 텍스트, 디지털, 예술 등의 기반으로 교육 모델를 설정하고 그 아래로 4차 산업혁명시대에 필요한 세부적인 역략으로 구성하였다. 그리고, 학습 목표에 따라 수업의 교수자가 ChatGPT가 생성하는 콘텐츠의 허용 범위를 결정한 후, 표절검사시스템에서 제공하는 ChatGPT 감지 기능을 활용하여 학생들이 허용된 범위 내에서 ChatGPT를 활용하도록 지도하도록 구성하였다. 이와 같은 방식으로 ChatGPT와 표절검사시스템을 연계하여 활용함으로써 ChatGPT의 우수한 능력이 교육에 악용되는 상황을 막을 수 있을 것으로 기대된다.

ChatGPT의 교육적 활용 고려 요소 탐색을 위한 질적 연구 (A Qualitative Research on Exploring Consideration Factors for Educational Use of ChatGPT)

  • 한형종
    • 문화기술의 융합
    • /
    • 제9권4호
    • /
    • pp.659-666
    • /
    • 2023
  • 생성형 인공지능 기술을 기반으로 한 도구 중 하나로 ChatGPT에 대한 활용 가능성이 모색되고 있다. 하지만 이를 교육적으로 활용할 때, 어떠한 요소를 고려해야 하는지를 학습자의 실제적인 인식을 기반으로 확인한 연구는 미흡하다. 본 연구는 교육 현장에서 ChatGPT를 활용할 때, 고려해야 하는 요소가 무엇인지를 질적 연구를 통해 도출하고자 하였다. 연구 결과, 교육에 있어서 ChatGPT를 효과적으로 활용하기 위해서는 생성된 정보에 대한 비판적 사고, 학습을 지원하는 한 가지 도구로서 인식하여 의존적인 활용 지양, 올바른 윤리적 활용에 대한 사전 교육 실시, 명확하고 적절한 질문 생성, 답변에 대한 재검토와 종합화 총 다섯 가지의 핵심 고려 요소를 확인하였다. 향후 이상의 요소를 종합적으로 구성한 교수설계 모형 개발이 이루어질 필요가 있다.

ChatGPT는 한국작업치료사면허시험에 합격할 수 있을까? (Can ChatGPT Pass the National Korean Occupational Therapy Licensure Examination?)

  • 홍준화;김나연;민혜민;양하민;이시현;최서진;박진혁
    • 재활치료과학
    • /
    • 제13권1호
    • /
    • pp.65-74
    • /
    • 2024
  • 목적 : 본 연구는 대규모 언어 모델에 기반한 인공지능인 ChatGPT가 한국작업치료사면허시험에 통과할 수 있는지 알아보고자 하였다. 연구방법 : 한국보건의료인국가시험원에서 제공하는 2018년부터 2022년도까지의 한국작업치료사면허시험 문항 중 공개되지 않은 작업치료실기 문항을 제외하고 작업치료학기초, 의료관계법규, 작업치료학 문항을 활용하였다. 시험문항과 함께 가장 적절한 정답을 제시하도록 프롬프트를 영어로 구성하였고 이를 입력한 후 ChatGPT가 제시하는 답을 채점하였다. 2명의 연구자가 독립적으로 전체 과정을 진행하였으며, 2명의 연구자 채점한 정확도를 평균으로 5개년도의 시험에 대한 합격 여부를 확인하였고 연구자 간 ChatGPT 답에 대한 일치도를 확인하였다. 결과 : ChatGPT는 2020년에서만 합격하였고 나머지 4개년도 시험은 탈락권 점수를 보였다. 구체적으로 의료관계법규 문항의 정확도는 25~57% 범위를 보였고 다른 문항의 정확도는 모두 60% 이상을 기록하였다. 또한 의료관계법규 문항을 제외한 연구자 간 ChatGPT는 높은 일치도를 보였으며, 이는 정확도와 유의미한 상관관계를 보였다. 결론 : 언어나 문화권에 영향을 받는 문항의 경우 아직 ChatGPT를 적용하는 데 제한이 있음을 확인하였다. 추후 프롬프트의 최적화 작업과 함께 지속적인 데이터의 학습에 따라 작업치료학을 전공하는 학생들의 학습 도구로서 활용될 수 있는지에 대한 지속적인 연구가 필요하다.

생성형 AI 모델을 활용한 요약 성능 평가 연구 ( A Study on Evaluating Summarization Performance using Generative Al Model)

  • 최규리;박서윤;강예지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-233
    • /
    • 2023
  • 인간의 수동 평가 시 시간과 비용의 소모, 주석자 간의 의견 불일치, 평가 결과의 품질 등 불가피한 한계가 발생한다. 본 논문에서는 맥락을 고려하고 긴 문장 입출력이 가능한 ChatGPT를 활용한 한국어 요약문 평가가 인간 평가를 대체하거나 보조하는 것이 가능한가에 대해 살펴보았다. 이를 위해 ChatGPT가 생성한 요약문에 정량적 평가와 정성적 평가를 진행하였으며 정량적 지표로 BERTScore, 정성적 지표로는 일관성, 관련성, 문법성, 유창성을 사용하였다. 평가 결과 ChatGPT4의 경우 인간 수동 평가를 보조할 수 있는 가능성이 있음을 확인하였다. ChatGPT가 영어 기반으로 학습된 모델임을 고려하여 오류 발견 성능을 검증하고자 한국어 오류 요약문으로 추가 평가를 진행하였다. 그 결과 ChatGPT3.5와 ChatGPT4의 오류 요약 평가 성능은 불안정하여 인간을 보조하기에는 아직 어려움이 있음을 확인하였다.

  • PDF

대화형 텍스트 기반 게임에서 LLM의 게임플레이 기능 평가에 관한 연구 (A Study on the Evaluation of LLM's Gameplay Capabilities in Interactive Text-Based Games)

  • 이동철
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.87-94
    • /
    • 2024
  • LLM(Large Language Model)을 활용하여 사전에 게임 데이터 학습 없이 텍스트 기반 게임을 수행할 수 있는지 알아보았다. LLM을 구현한 시스템으로는 ChatGPT-3.5와 가장 최신 형태인 ChatGPT-4를 채택하였다. 이에 더해 ChatGPT-4에 본 논문에서 제안하는 영구 메모리 기능을 추가하여 세 개의 게임 플레이어 에이전트를 제작하였다. 텍스트 기반 게임으로 가장 유명한 Zork를 활용하여 복잡한 장소를 이동해가며 정보를 모으고 퍼즐을 풀 수 있는지 알아보았다. 그 결과 세 에이전트 중 영구 메모리 기능을 추가한 에이전트의 성능이 탐험을 가장 넓은 범위로 진행하였고 점수도 가장 뛰어났다. 그러나 세 에이전트 모두 퍼즐을 푸는데 한계를 보였으며 이는 다단계 추론이 필요한 문제에 LLM이 취약하다는 것을 보여주었다. 그럼에도 여전히 본 논문에서 제안하는 에이전트를 사용하면 전체 장소의 37.3%를 방문하고, 방문했던 장소의 아이템을 모두 모으는데 성공할 수 있었던 것으로 LLM의 가능성을 확인할 수 있었다.

합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발 (Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation)

  • 공진우;김기연;김유섭;오병두
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

생성형 AI의 신뢰도에 대한 탐색적 연구 (An Exploratory Study on the Trustworthiness Analysis of Generative AI)

  • 김소연;조지연;이봉규
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.79-90
    • /
    • 2024
  • 본 연구는 대표적인 생성형 AI 기술인 ChatGPT의 이용자 신뢰를 중심으로 이용실태와 지속사용의도에 영향을 미치는 요인, 그리고 신뢰의 영향력이 목적에 따라 달라지는지를 탐색적으로 살펴보았다. 이를 위해 ChatGPT를 많이 이용하는 20대와 30대를 대상으로 설문조사를 실시하였으며 통계 패키지 프로그램인 IBM SPSS 27과 SmartPLS 4.0을 적용하여 분석을 수행하였다. Bhattacherjee의 기대충족모델(ECM)을 기반으로 구조방정식 모델을 구축하고, 경로분석과 다중그룹분석(MGA)를 실시하여 가설을 검증하였다. 본 연구의 결과는, 첫째, ChatGPT 이용자들은 일상적인 도구로 사용하기보다 특정 목적이나 필요에 따라 사용하고 있으며, 대부분의 사용자가 ChatGPT의 환각효과(Hallucination)에 대해 인지하고 있으나 이는 사용을 저해하는 요인은 아니었다. 둘째, 가설검정 결과 독립변수인기대충족, 인지된 유용성, 사용자 만족 요인 모두가 종속변수인 지속이용의도에 긍정적 영향을 미치고 있음을 확인하였다. 셋째, 이용자가 ChatGPT를 이용하는 목적에 따라 신뢰의 영향력이 달라짐이 확인되었다. 이용자가 정보 검색 목적으로 ChatGPT를 활용하는 경우에는 신뢰가 사용자 만족에 영향을 미친 반면, 창작 목적으로 사용하는 경우 영향을 미치지 않는 것으로 나타났다. 본 연구의 결과가 향후 사회와 기업에 있어 생성형 AI의 도입 과정에서 신뢰성의 문제를 해결하고 성공적인 도입을 위한 정책 수립 및 개선방안 도출을 위해 활용될 수 있기를 기대한다.

ChatGPT 및 거대언어모델의 추론 능력 향상을 위한 프롬프트 엔지니어링 방법론 및 연구 현황 분석 (Analysis of Prompt Engineering Methodologies and Research Status to Improve Inference Capability of ChatGPT and Other Large Language Models)

  • 박상언;강주영
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.287-308
    • /
    • 2023
  • ChatGPT는 2022년 11월에 서비스를 시작한 후 급격하게 사용자 수가 늘어나며 인공지능의 역사에서 큰 전환점을 가져올 정도로 사회 곳곳에 많은 영향을 미치고 있다. 특히 ChatGPT와 같은 거대언어모델의 추론 능력은 프롬프트 엔지니어링 기법을 통해 빠른 속도로 그 성능이 발전하고 있다. 인공지능을 워크플로우에 도입하려고 하는 기업이나 활용하려고 하는 개인에게 이와 같은 추론 능력은 중요한 요소로 고려될 수 있다. 본 논문에서는 거대언어모델에서 추론을 가능하게 한 문맥내 학습에 대한 이해를 시작으로 하여 프롬프트 엔지니어링의 개념과 추론 유형 및 벤치마크 데이터에 대해 설명하고, 이를 기반으로 하여 최근 거대언어모델의 추론 성능을 급격히 향상시킨 프롬프트 엔지니어링 기법들에 대해 조사하고 발전과정과 기법들 간의 연관성에 대해 상세히 알아보고자 한다.

변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋 (Token-Based Classification and Dataset Construction for Detecting Modified Profanity)

  • 고성민;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.181-188
    • /
    • 2024
  • 기존의 비속어 탐지 방법들은 의도적으로 변형된 비속어를 식별하는 데 한계가 있다. 이 논문에서는 자연어 처리의 한 분야인 개체명 인식에 기반한 새로운 방법을 소개한다. 우리는 시퀀스 레이블링을 이용한 비속어 탐지 기법을 개발하고, 이를 위해 한국어 악성 댓글 중 일부 비속어를 레이블링하여 직접 데이터셋을 구축하여 실험을 수행하였다. 또한 모델의 성능을 향상시키기 위하여 거대 언어 모델중 하나인 ChatGPT를 활용해 한국어 혐오발언 데이터셋의 일부를 레이블링을 하는 방식으로 데이터셋을 증강하여 학습을 진행하였고, 이 과정에서 거대 언어 모델이 생성한 데이터셋을 인간이 필터링 하는 것만으로도 성능을 향상시킬 수 있음을 확인하였다. 이를 통해 데이터셋 증강 과정에는 여전히 인간의 관리감독이 필요함을 제시하였다.