효과적인 RAG Document Data 구조화 전략

Effective RAG Document Data Structuring Strategy

  • 손영진 (이화여자대학교 경영학과) ;
  • 임유경 (이화여자대학교 데이터사이언스학과) ;
  • 박민정 (금오공과대학교 경영학과) ;
  • 채상미 (이화여자대학교 경영학과)
  • Young Jin Son (Dept. of Business Administration, Ewha Womans University) ;
  • Yugyung Lim (Dept. of Data Science, Ewha Womans University) ;
  • Minjung Park (Dept. of Business Administration, Kumoh National Institute of Technology) ;
  • Sangmi Chai (Dept. of Data Science, Ewha Womans University)
  • 발행 : 2024.05.23

초록

대규모 언어 모델의 발전은 텍스트 생성 및 정보 제공 분야에서 큰 진전을 이루었으며 사용자와의 원활한 소통을 가능하게 했다. 그러나 언어 모델은 특화된 정보 제공에 한계를 가지며 때때로 부정확한 정보를 생성할 수 있다. RAG(Retrieval-Augmented Generation) 기법은 이러한 한계를 극복하기 위해 제안되었다. 본 연구에서는 RAG 의 답변품질과 효율성을 높이기 위해 외부 문서 정보와 단어 단위로 카테고리화된 인덱싱 데이터 세트를 함께 제공하여 보다 정확하고 신뢰성 있는 문서 생성을 가능하게 하는 접근법을 제시한다.

키워드

참고문헌

  1. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33, 9459-9474. 2020..
  2. Musumeci, E., Brienza, M., Suriani, V., Nardi, D., & Bloisi, D. D.. LLM Based Multi-Agent Generation of Semi-structured Documents from Semantic Templates in the Public Administration Domain. arXiv preprint arXiv:2402.14871. 2024
  3. Wiratunga, N., Abeyratne, R., Jayawardena, L., Martin, K., Massie, S., Nkisi-Orji, I., ... & Fleisch, B. CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering. arXiv preprint arXiv:2404.04302. 2024.
  4. Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., ... & Wang, H. Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997. 2023.
  5. 강석훈, 김성진. M-RAG: 메타데이터를 이용한 RAG 방법의 성능향상. 한국정보통신학회논문지, 27(12), 1489-1500, 2023. 10.6109/jkiice.2023.27.12.1489