• 제목/요약/키워드: 질문답변

검색결과 233건 처리시간 0.028초

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템 (Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.263-278
    • /
    • 2015
  • 국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.

잠재 변수 모델링 기반 잠재 가중치 어텐션 계산을 통한 문맥적 답변 생성 기법 (Generating Contextual Answers Through Latent Weight Attention Calculations based on Latent Variable Modeling)

  • 이종원;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.611-614
    • /
    • 2024
  • 최근 많은 분야에서 인공지능을 사용한 산업이 각광을 받고 있고 그중 챗-GPT 로 인하여 챗봇에 관한 관심도가 높아져 관련 연구가 많이 진행되고 있다. 특히 질문에 대한 답변을 생성해주는 분야에 대한 연구가 많이 이루어지고 있는데, 질문-답변의 데이터 셋에 대한 학습 방식보다는 질문-답변-배경지식으로 이루어진 데이터 셋에 대한 학습 방식이 많이 연구가 되고 있다. 그러다 보니 배경지식을 어떤 방식으로 모델에게 이해를 해줄 지가 모델 성능에 큰 부분 차지한다. 그리고 최근 연구에 따르면 이러한 배경지식 정보를 이해시키기 위해 잠재 변수 모델링 기법을 활용하는 것이 높은 성능을 갖는다고 하고 트랜스포머 기반 모델 중 생성 문제에서 강점을 보이는 BART(Bidirectional Auto-Regressive Transformer)[1]도 주로 활용된다고 한다. 본 논문에서는 BART 모델에 잠재 변수 모델링 기법 중 잠재 변수를 어텐션에 곱하는 방식을 이용한 모델을 통해 답변 생성 문제에 관한 해결법을 제시하고 그에 대한 결과로 배경지식 정보를 담은 답변을 보인다. 생성된 답변에 대한 평가는 기존에 사용되는 BLEU 방식과 배경지식을 고려한 방식의 BLEU 로 평가한다.

주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템 (Similar Question Search System for Q&A board of The National Institute of the Korean Language using Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-205
    • /
    • 2014
  • 국립국어원의 온라인 가나다 서비스는 한국어에 대한 다양한 질문과 정확한 답변을 제공한다. 만일 새롭게 등록되는 질문에 대해 유사한 질문을 자동으로 찾을 수 있다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 국립국어원 질의응답게시판의 특성을 분석하여 질문의 주제를 6가지로 분류하고, 주제 분류 정보와 벡터 유사도, 수열 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용한 결과 1위 정답 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 MRR이 0.62, 정답이 1위, 5위내에 검색될 확률은 각각 54.2%, 78.2%를 보였다.

  • PDF

스마트 디바이스 기반의 실시간 지식공유 시스템 설계 (Realtime Knowledge Sharing system based on Smart Device)

  • 윤원범;임희석;윤성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.726-727
    • /
    • 2012
  • 본 논문에서는 스마트 디바이스기반의 실시간 지식공유 시스템 설계를 제안한다. 스마트 디바이스기반의 실시간 지식공유 시스템은 사용자의 스마트 디바이스에 저장되어있는 지인들을 연결하여 실시간으로 질문과 답변을 할 수 있는 기능을 제공하고 사용자 질문에 대한 웹 검색 결과를 제공한다. 또한 사용자간의 질문, 답변 결과를 서버에 저장하여 축적시키고 추천 기능을 제공하여 다른 사용자가 유사한 질문을 할 경우 축적된 질문과 답변을 제공한다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

텍스트 유사도 기반의 대학 입시 상담 챗봇 (College Admissions Consultation Chatbot based on Text Similarity)

  • 이세훈;차현석;전찬호;백영태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.441-442
    • /
    • 2018
  • 본 논문에서는 입시상담을 위한 챗봇 시스템을 텍스트 유사도 기반으로 개발하였다. 텍스트를 인지하여 답변을 제공해 주는 방식이며 실시간을 요하는 데이터들은 크롤링한 데이터를 가공을 한 후 사용자에게 대답을 해주고 사용자가 답변에 얼마나 좋은 정보인지 체크하여 그에 맞는 답변을 내어 준다. 사용자의 텍스트를 인식하는 것은 텍스트 유사도를 이용하여 정확하게 인지하고 사용자의 질문과 답변을 서버 DB에 저장을 하여 비슷한 질문이 있을 경우 저장된 답변과 평점을 이용하여 답변을 제공한다.

  • PDF

거대언어모델에 대한 원자력 안전조치 용어 적용 가능성 평가 (A Training Feasibility Evaluation of Nuclear Safeguards Terms for the Large Language Model (LLM))

  • 윤성호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.479-480
    • /
    • 2024
  • 본 논문에서는 원자력 안전조치 용어를 미세조정(fine tuning) 알고리즘을 활용해 추가 학습한 공개 거대 언어모델(Large Language Model, LLM)이 안전조치 관련 질문에 대해 답변한 결과를 정성적으로 평가하였다. 평가 결과, 학습 데이터 범위 내 질문에 대해 학습 모델은 기반 모델 답변에 추가 학습 데이터를 활용한 낮은 수준의 추론을 수행한 답변을 출력하였다. 평가 결과를 통해 추가 학습 개선 방향을 도출하였으며 저비용 전문 분야 언어 모델 구축에 활용할 수 있을 것으로 보인다.

  • PDF

실시간 양방향 소통을 통한 이러닝 학습 지원 플랫폼의 구축 (Development of e-learning support platform through real-time two-way communication)

  • 김은미;최종원
    • 한국산학기술학회논문지
    • /
    • 제20권7호
    • /
    • pp.249-254
    • /
    • 2019
  • 인공지능(AI), 사물인터넷(IoT), 빅데이터 등 4차 산업혁명에 따른 지능 정보기술의 발전과 함께 교육 분야도 이러닝(e-Learning)을 중심으로 빠르게 재편되며 '에듀테크' 개념이 확산되고 있다. 현재 선행업체들이 온라인 교육 서비스를 실시하고 있으나 실시간으로 이루어지는 양방향 커뮤니케이션이 어렵다. 또한, 오프라인 수업의 경우 학생의 수가 많고, 시간이 한정되어 있을 뿐 만 아니라 질문할 기회를 갖지 못하는 경우가 많다. 본 논문은 이러한 문제들을 해결하기 위해 오프라인이 가지는 즉문즉답의 효율성과 온라인에서의 개방성이라는 장점을 접목하여 온라인과 오프라인상에서의 질문을 자유롭게 할 수 있는 실시간 양방향 학습 질문 및 답변 운영 시스템을 개발한다. 개발된 시스템은 실시간 개인별 맞춤형 교육 시스템으로서 답변자가 질문자의 상황을 실시간으로 확인하고 질문자의 요청에 맞는 맞춤형 답변을 제공함으로써 한 번의 연결로 질문을 해결할 수 있다. 또한 시스템의 이용 시간을 초단위로 측정하여 관리함으로써 질문자와 답변자가 효율적으로 시스템을 활용하게 할 수 있다.

쌍 선형 그래프 신경망을 이용한 지식 그래프 기반 질문 응답 (Question Answering over Knowledge Graphs Using Bilinear Graph Neural Network)

  • 이상의;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.563-566
    • /
    • 2020
  • 지식 그래프 기반의 질문 응답 문제는 자연어 질문에 대한 이해뿐만 아니라, 기반이 되는 지식 그래프상에서 올바른 답변을 찾기 위한 효과적인 추론 능력을 요구한다. 본 논문에서는 다중 홉 추론을 요구하는 복잡한 자연어 질문에 대해 연관 지식 그래프 위에서 답변 추론을 효과적으로 수행할 수 있는 심층 신경망 모델을 제안한다. 제안 모델에서는 지식 그래프상의 추론 과정에서 추른 경로를 명확히 하기 위한 노드의 양방향 특정 전파와 이웃 노드들 간의 맥락 정보까지 각 노드의 특정값에 반영할 수 있는, 표현력이 풍부한 쌍 선형 그래프 신경망 (BGNN)을 이용한다. 본 논문에서는 오픈 도메인의 지식 베이스 Freebase와 자연어 질문 응답 데이터 집합 WebQuestionsSP를 이용한 실험들을 통해, 제안 모델의 효과와 우수성을 확인하였다.

생성형 거대 언어 모델에서 일관성 확인 및 사실 검증을 활 용한 Hallucination 검출 기법 (Hallucination Detection for Generative Large Language Models Exploiting Consistency and Fact Checking Technique)

  • 진명;김건우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.461-464
    • /
    • 2023
  • 최근 GPT-3 와 LLaMa 같은 생성형 거대 언어모델을 활용한 서비스가 공개되었고, 실제로 많은 사람들이 사용하고 있다. 해당 모델들은 사용자들의 다양한 질문에 대해 유창한 답변을 한다는 이유로 주목받고 있다. 하지만 LLMs 의 답변에는 종종 Inconsistent content 와 non-factual statement 가 존재하며, 이는 사용자들로 하여금 잘못된 정보의 전파 등의 문제를 야기할 수 있다. 이에 논문에서는 동일한 질문에 대한 LLM 의 답변 샘플과 외부 지식을 활용한 Hallucination Detection 방법을 제안한다. 제안한 방법은 동일한 질문에 대한 LLM 의 답변들을 이용해 일관성 점수(Consistency score)를 계산한다. 거기에 외부 지식을 이용한 사실검증을 통해 사실성 점수(Factuality score)를 계산한다. 계산된 일관성 점수와 사실성 점수를 활용하여 문장 수준의 Hallucination Detection 을 가능하게 했다. 실험에는 GPT-3 를 이용하여 WikiBio dataset 에 있는 인물에 대한 passage 를 생성한 데이터셋을 사용하였으며, 우리는 해당 방법을 통해 문장 수준에서의 Hallucination Detection 성능이 baseline 보다 AUC-PR scores 에서 향상됨을 보였다.