RAG 모델의 테이블 데이터 처리 성능 분석 연구

A Study on Improving RAG Model Performance for Tabular Data Analysis

  • 이은빈 (이화여자대학교 인공지능융합전공) ;
  • 배호 (이화여자대학교 사이버보안학과)
  • Eun-Bin Lee (Dept. of Artificial Intelligence Convergence, Ewha Womans University) ;
  • Ho Bae (Dept. of Cyber Security, Ewha Womans University)
  • 발행 : 2024.10.31

초록

Retrieval Augmented Generation(RAG)는 Large Language Models(LLM)에서 발생하는 환각 현상, 민감 정보 노출과 같은 한계들을 극복하기 위해 제안된 기술이다. 새로운 정보가 지속적으로 업데이트되는 외부 데이터베이스로 인해 RAG는 최신 정보에 기반한 정교한 답변 생성을 할 수 있어 질의응답이나 대화문과 같은 텍스트 데이터를 다루는 작업에서 강점을 발휘한다. 반면, 테이블 데이터는 행과 열로 구성된 정형화된 데이터로 각 속성 간에 복잡한 관계를 가지고 있어 충분한 문맥 정보를 추출하는데 어려움을 겪으므로 성능 저하 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 테이블 데이터를 분석하기 위한 질의 유형을 정보 검색, 특성 분석, 상관관계 분석, 결과 예측, 추세 분석과 같이 5가지로 분류하고, 각 유형에서 모델이 보이는 성능을 평가한다. 특히, 다양한 질의 유형 데이터를 통해 실험을 진행하고 분석하여 질의 유형의 특징과 RAG 성능 간의 관계성을 연구하고자 하며, 이를 통해 테이블 데이터에서의 RAG 성능 개선 방향을 제시하고자 한다.

키워드

과제정보

이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (RS-2021-II212068, 인공지능혁신허브연구 개발)

참고문헌

  1. Mallen, Alex, et al. "When not to trust language models: Investigating effectiveness of parametric and non-parametric memories." arXiv preprint arXiv:2212.10511, 2022.
  2. Lewis, Patrick, et al. "Retrieval-augmented generation for knowledge-intensive NLP tasks." Advances in Neural Information Processing Systems, vol. 33, 2020, pp. 9459-9474.
  3. Gao, Yunfan, et al. "Retrieval-augmented generation for large language models: A survey." arXiv preprint arXiv:2312.10997, 2023.
  4. Becker, B. & Kohavi, R. "Adult [Dataset]." UCI Machine Learning Repository, 1996. https://doi.org/10.24432/C5XW20.
  5. Lin, Chin-Yew. "ROUGE: A package for automatic evaluation of summaries." Text Summarization Branches Out, 2004.
  6. Es, Shahul, et al. "RAGAS: Automated evaluation of retrieval augmented generation." arXiv preprint arXiv:2309.15217, 2023.