• 제목/요약/키워드: 환각지식

검색결과 2건 처리시간 0.015초

KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋 (KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models)

  • 이정섭;손준영;이태민;박찬준;강명훈;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2023
  • 본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

  • PDF

문서 데이터 정보화를 위한 지능형 문서처리 플랫폼에 관한 연구 (A Study on the Intelligent Document Processing Platform for Document Data Informatization)

  • 허희도;강동구;김영수; 전삼현
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.89-95
    • /
    • 2024
  • 요즘 기업의 경쟁력은 조직이 축적한 조직의 지식들을 모든 조직원들이 잘 공유하고 활용하는 능력에 달려있다. 이것을 증명이라도 하듯이 지금 세상은 LLM(거대언어모델)의 기반의 생성형 AI 기술을 이용한 쳇GPT서비스에 대해 집중하고 있다. 하지만, 쳇GPT 서비스를 업무에 적용하기에는 아직 환각성 문제가 많아 어려운 상태이다. 이 문제를 해결하기 위해 sLLM(경량거대언어모델) 기술이 대안으로 제시되고 있다. sLLM을 구성하기 위해서는 기업데이터가 필수적으로 필요하다. 기업데이터는 조직의 ERP Data와 조직이 보존하고 있는 기업의 오피스 문서 지식 데이터이다. ERP Data는 sLLM과 직접 연결하여 활용할 수 있으나 오피스 문서는 파일 형태로 저장되어 있어서 데이터 형태로 변환하여야 sLLM과 연결하여 활용할 수 있다. 뿐만 아니라 파일 형태로 저장되어져 있는 오피스 문서들을 조직을 지식 정보로 활용하기에는 기술적 제약 사항이 너무 많다. 본 연구는 오피스 문서를 파일 형태가 아닌 DB 형태로 저장하는 방법을 제시함으로서 기업이 기 축적 된 오피스 문서를 조직의 지식 시스템으로 잘 활용할 수 있게 하고, 기업의 sLLM에 오피스 문서를 데이터 형태로 제공하여 AI 기술과 접목하여 기업 경쟁력을 향상 시키는데 기여하고자 한다.