• 제목/요약/키워드: 질문 생성

검색결과 132건 처리시간 0.031초

복사 방법 및 검색 방법을 이용한 종단형 생성 기반 질의응답 채팅 시스템 (End-to-End Generative Question-Answering Chat System Using Copying and Retrieving Mechanisms)

  • 김시형;김학수;권오욱;김영길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.25-28
    • /
    • 2017
  • 채팅 시스템은 기계와 사람이 서로 의사소통 하는 시스템이다. 의사소통 과정에서 질문을 하고 질문에 대한 답변을 하는 질의응답 형태의 의사소통이 상당히 많다. 그러나 기존 생성 기반 채팅 시스템에서 자주 사용되는 Sequence-to-sequence모델은 질문에 대한 답변보다는 좀 더 일반적인 문장을 생성하는 경우가 대부분이다. 이러한 문제를 해결하기 위해 본 논문에서는 복사 방법과 검색 방법을 이용한 생성 기반 질의응답 채팅 시스템을 제안한다. 템플릿 기반으로 구축한 데이터를 통한 실험에서 제안 시스템은 복사 방법만 이용한 질의응답 시스템 보다 45.6% 높은 정확도를 보였다.

  • PDF

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

명화 하브루타 지원을 위한 딥러닝 기반 동양화 인물 분석 (Deep Learning-based Person Analysis in Oriental Painting for Supporting Famous Painting Habruta)

  • 문혜영;김남규
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.105-116
    • /
    • 2021
  • 하브루타 교육은 짝을 지어 대화하고 토론하고 논쟁하는 방식의 질문 중심 교육이며, 특히 명화 하브루타는 명화에 대한 질문과 답변을 통해 그림의 감상 능력을 증진하고 표현력을 풍부하게 하기 위한 목적으로 시행되고 있다. 본 연구에서는 동양화를 대상으로 한 명화 하브루타를 지원하기 위해, 최신 딥러닝 기술을 활용하여 동양화 등장인물의 성별 관점에서 질문을 자동으로 생성하는 방안을 제시한다. 구체적으로 본 연구에서는 사전학습모델인 VGG16을 바탕으로 동양화 인물 중심의 미세조정을 수행하여 동양화의 인물 분석을 효과적으로 수행할 수 있는 모델을 제안한다. 또한 질문의 유형을 명화 하브루타에서 사용되는 사실 질문, 상상 질문, 그리고 적용 질문의 3가지 유형으로 분류하고, 각 질문을 등장인물에 따라 세분화하여 총 9가지의 질문 패턴을 도출하였다. 제안 방법론의 활용 가능성을 확인하기 위해 실제 동양화의 등장인물 300건을 분석한 실험을 수행하였으며, 실험 결과 제안 방법론에 따른 성별 분류 모델이 기존 모델에 비해 높은 정확도를 나타냄을 확인하였다.

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

거대언어모델과 문서검색 알고리즘을 활용한 한국원자력연구원 규정 질의응답 시스템 개발 (Development of a Regulatory Q&A System for KAERI Utilizing Document Search Algorithms and Large Language Model)

  • 김홍비;유용균
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.31-39
    • /
    • 2023
  • 최근 자연어 처리(NLP) 기술, 특히 ChatGPT를 비롯한 거대 언어 모델(LLM)의 발전으로 특정 전문지식에 대한 질의응답(QA) 시스템의 연구개발이 활발하다. 본 논문에서는 거대언어모델과 문서검색 알고리즘을 활용하여 한국원자력연구원(KAERI)의 규정 등 다양한 문서를 이해하고 사용자의 질문에 답변하는 시스템의 동작 원리에 대해서 설명한다. 먼저, 다수의 문서를 검색과 분석이 용이하도록 전처리하고, 문서의 내용을 언어모델에서 처리할 수 있는 길이의 단락으로 나눈다. 각 단락의 내용을 임베딩 모델을 활용하여 벡터로 변환하여 데이터베이스에 저장하고, 사용자의 질문에서 추출한 벡터와 비교하여 질문의 내용과 가장 관련이 있는 내용들을 추출한다. 추출된 단락과 질문을 언어 생성 모델의 입력으로 사용하여 답변을 생성한다. 본 시스템을 내부 규정과 관련된 다양한 질문으로 테스트해본 결과 복잡한 규정에 대하여 질문의 의도를 이해하고, 사용자에게 빠르고 정확하게 답변을 제공할 수 있음을 확인하였다.

초등 과학교과서 내용에 대한 예비교사들의 주요 질문에 나타나는 용어의 상호 관련성 수준과 유형 (Levels and Patterns of Main Terms' Interrelationships in Student Teachers' Notable Questions about the Contents of the Elementary Science Textbooks)

  • 이명제
    • 한국지구과학회지
    • /
    • 제27권1호
    • /
    • pp.20-31
    • /
    • 2006
  • 본 연구에서는 초등학교 과학교과서 지구과학 부문에 대한 예비교사들의 질문을 분석하였다. 주요 질문의 대상이 된 교과 내용은 교과서 단원별로 쪽 당 평균 질문수의 3배 이상이 나온 교과서 쪽의 내용(주요 질문 교과 내용1)과 2배 이상 3배 미만의 질문수가 나온 내용(주요 질문 교과 내용2)으로 구별하고, 각 교과 내용별로 질문 속에 나타나는 주요 용어들 간 상호관련성을 분석한 결과는 다음과 같다. 첫째, 주요 질문 교과 내용1은 ‘구름관찰’, 지층의 생성 과정‘ 등이 발견되었고, 주요 질문 교과 내용2는 ’강수량 측정‘, ’하룻밤 동안 달의 이동‘ 등으로 4-2학기를 제외한 모든 학기에서 발견되었다. 둘째, 각 교과 내용 당 질문용어의 상호관련성을 보이는 경우는 질문수가 많은 주요 질문 교과내용에서 증가하고 있지만, 4개 용어 유형은 오히려 교과 내용2에서 다수 발견되었다. 셋째, 상호관련성이 큰 질문 용어 묶음은 교과내용1에서 ’석탄과 석유-생성‘, ’변성-열과 압력‘, ’변성-열과 압력-변성암‘, ’행성-태양-혜성-공전‘ 등이며, 교과내용2에서는 ’별자리판-사용‘, ’건습구습도계-원리‘, ’건습구습도계-원리-습도‘, ’지진계-원리-습도‘, ’지진계-원리-지진‘, ’지구자전축-기울어짐-발생‘, ’별자리판-별자리-관찰-사용‘ 등이다. 본 연구에서 분석 자료로 사용된 질문의 원천은 대체로 교과서의 구체적인 구성체제로부터 비롯된 것이거나 지구과학내용에 대한 예비교사들의 일반적인 의문점에서 비롯된 것으로 판단된다. 전자의 경우라면 교과서의 집필과정에서 문장의 서술방법이나 관련 삽화 등의 문제점에서 유발된 것일 가능성이 크기 때문에 교과서 집필상의 문제점을 개선함으로서 해결 가능하지만, 후자는 소양교육 내용과 기초 지구과학개념으로서의 초등학교 교육과정에 대한 재고가 필요하다.

거대 언어 모델의 내재된 지식을 활용한 질의 응답 방법 (Question Answering that leverage the inherent knowledge of large language models)

  • 심묘섭;민경구;박민준;최주영;정해민;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-35
    • /
    • 2023
  • 최근에는 질의응답(Question Answering, QA) 분야에서 거대 언어 모델(Large Language Models, LLMs)의 파라미터에 내재된 지식을 활용하는 방식이 활발히 연구되고 있다. Open Domain QA(ODQA) 분야에서는 기존에 정보 검색기(retriever)-독해기(reader) 파이프라인이 주로 사용되었으나, 최근에는 거대 언어 모델이 독해 뿐만 아니라 정보 검색기의 역할까지 대신하고 있다. 본 논문에서는 거대 언어 모델의 내재된 지식을 사용해서 질의 응답에 활용하는 방법을 제안한다. 질문에 대해 답변을 하기 전에 질문과 관련된 구절을 생성하고, 이를 바탕으로 질문에 대한 답변을 생성하는 방식이다. 이 방법은 Closed-Book QA 분야에서 기존 프롬프팅 방법 대비 우수한 성능을 보여주며, 이를 통해 대형 언어 모델에 내재된 지식을 활용하여 질의 응답 능력을 향상시킬 수 있음을 입증한다.

  • PDF

삼각함수의 모델링에서 그래픽 과정이 학생들의 질문 생성과 수학적 아이디어 교환에 미치는 효과 (The Effects of Graphics Representation of Trigonometry Modelling on Question Generating and Idea Sharing)

  • 윤재연;신현성
    • 한국학교수학회논문집
    • /
    • 제24권2호
    • /
    • pp.217-241
    • /
    • 2021
  • 본 연구에서는 삼각함수의 모델링을 통한 그래픽 과정의 효과를 알아보기 위한 실험연구로 실험과정의 분석을 질적연구 방법으로 처리했다. 이를 위해 수학적 모델링의 절차를 세분하여 기존의 모델에 두 단계, 즉, 질문의 생성과 아이디어 교환을 강조하는 놀이실험단계와 컴퓨터 그래픽 과정의 단계를 추가했다. 실험은 고등학교 2학년을 대상으로 실험반(TMG) 26명이 참여했고, 데이터의 질적분석을 위해 활동지, 면담 및 실험과정의 관찰자료를 분석하였다. 국내외 대부분의 연구가 통계적 방법을 이용한 양적 분석 방법이기 때문에 교사들에게는 모델링 수업에 큰 도움을 주지 못한다. 연구결과로 (1) 기존의 수학적 모델링의 절차에 두 개의 단계를 추가하여 보다 세분화한 모델링의 과정은 질문생성, 아이디어교환, 동료들과 소통 등에서 긍정적인 결과를 볼 수 있었다. (2) 실험학교의 수학과 수업에 컴퓨터 그래픽을 포함한 테크놀로지의 도입은 양과 수(Quantity) 교육에 매우 적절함을 보여주었다.

생성형 거대 언어 모델에서 일관성 확인 및 사실 검증을 활 용한 Hallucination 검출 기법 (Hallucination Detection for Generative Large Language Models Exploiting Consistency and Fact Checking Technique)

  • 진명;김건우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.461-464
    • /
    • 2023
  • 최근 GPT-3 와 LLaMa 같은 생성형 거대 언어모델을 활용한 서비스가 공개되었고, 실제로 많은 사람들이 사용하고 있다. 해당 모델들은 사용자들의 다양한 질문에 대해 유창한 답변을 한다는 이유로 주목받고 있다. 하지만 LLMs 의 답변에는 종종 Inconsistent content 와 non-factual statement 가 존재하며, 이는 사용자들로 하여금 잘못된 정보의 전파 등의 문제를 야기할 수 있다. 이에 논문에서는 동일한 질문에 대한 LLM 의 답변 샘플과 외부 지식을 활용한 Hallucination Detection 방법을 제안한다. 제안한 방법은 동일한 질문에 대한 LLM 의 답변들을 이용해 일관성 점수(Consistency score)를 계산한다. 거기에 외부 지식을 이용한 사실검증을 통해 사실성 점수(Factuality score)를 계산한다. 계산된 일관성 점수와 사실성 점수를 활용하여 문장 수준의 Hallucination Detection 을 가능하게 했다. 실험에는 GPT-3 를 이용하여 WikiBio dataset 에 있는 인물에 대한 passage 를 생성한 데이터셋을 사용하였으며, 우리는 해당 방법을 통해 문장 수준에서의 Hallucination Detection 성능이 baseline 보다 AUC-PR scores 에서 향상됨을 보였다.

질문 카드를 활용한 질문이 있는 수학 수업의 효과 (Effect of mathematics instruction with students' questions using question card)

  • 성창근
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제19권3호
    • /
    • pp.249-260
    • /
    • 2016
  • 이 연구의 목적은 학생들의 질문 생성을 강화하기 위해 구안된 '질문 카드를 활용한 질문이 있는 수학 수업'의 효과를 검증하는 것이다. 이러한 목적을 달성하기 위해 다음과 같은 연구문제를 설정하였다. 첫째, 질문 카드를 활용한 질문이 있는 수업은 학생들의 교실 문화 인식을 개선하는데 효과가 있는가? 둘째, 질문 카드를 활용한 질문이 있는 수업은 학생들의 수학 학습 태도를 개선하는데 효과가 있는가? 실험 연구를 통해 다음과 같은 결과를 얻을 수 있었다. 실험집단과 비교집단은 수학 교실 문화 인식과 수학 학습태도에서 통계적으로 유의미한 차이를 보였다. 따라서 질문 카드를 활용한 질문이 있는 수학 수업은 활발한 상호작용을 유발하고 적극적으로 참여할 수 있는 기회를 제공함으로써 수학 교실 문화에 대한 인식과 수학 학습 태도를 긍정적으로 변화시키는데 효과가 있는 수업 전략이다.