A Study on Optimal Parameter of Chunk in RAG based on Document Characteristics

문서 특징에 따른 RAG의 최적 청크 설정에 대한 연구

  • Geumsang Lee (Division of Data Science, Hallym University) ;
  • Jaehwan Lee (Dept. of Business Administration, Hallym University)
  • 이금상 (한림대학교 데이터사이언스학부) ;
  • 이재환 (한림대학교 경영학과)
  • Published : 2024.05.23

Abstract

RAG는 정보 검색과 셍성 모델을 결합하여 주어진 주제나 질문에 관련된 지식을 생성하는 방법이다. 본 연구는 RAG의 성능을 높이기 위해 문서 내 문장의 평균 길이에 따른 청크의 크기와 오버랩 크기를 비교하여 최적화한다. 이를 통해 참조 문서의 특징에 맞춘 RAG를 개발할 수 있고, 다양한 종류의 글에 대해 맞춤형 답변을 제공할 수 있을 것으로 예상된다.

Keywords

References

  1. Liu, Y., Han, T., Ma, S., Zhang, J., Yang, Y., Tian, J., ... & Ge, B. (2023). Summary of chatgpt-related research and perspective towards the future of large language models. Meta-Radiology, 100017.
  2. Gupta, A., Shirgaonkar, A., Balaguer, A. D. L., Silva, B., Holstein, D., Li, D., ... & Benara, V. (2024). RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture. arXiv preprintarXiv:2401.08406.
  3. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.