DOI QR코드

DOI QR Code

거대언어모델과 문서검색 알고리즘을 활용한 한국원자력연구원 규정 질의응답 시스템 개발

Development of a Regulatory Q&A System for KAERI Utilizing Document Search Algorithms and Large Language Model

  • 투고 : 2023.08.08
  • 심사 : 2023.09.26
  • 발행 : 2023.10.30

초록

최근 자연어 처리(NLP) 기술, 특히 ChatGPT를 비롯한 거대 언어 모델(LLM)의 발전으로 특정 전문지식에 대한 질의응답(QA) 시스템의 연구개발이 활발하다. 본 논문에서는 거대언어모델과 문서검색 알고리즘을 활용하여 한국원자력연구원(KAERI)의 규정 등 다양한 문서를 이해하고 사용자의 질문에 답변하는 시스템의 동작 원리에 대해서 설명한다. 먼저, 다수의 문서를 검색과 분석이 용이하도록 전처리하고, 문서의 내용을 언어모델에서 처리할 수 있는 길이의 단락으로 나눈다. 각 단락의 내용을 임베딩 모델을 활용하여 벡터로 변환하여 데이터베이스에 저장하고, 사용자의 질문에서 추출한 벡터와 비교하여 질문의 내용과 가장 관련이 있는 내용들을 추출한다. 추출된 단락과 질문을 언어 생성 모델의 입력으로 사용하여 답변을 생성한다. 본 시스템을 내부 규정과 관련된 다양한 질문으로 테스트해본 결과 복잡한 규정에 대하여 질문의 의도를 이해하고, 사용자에게 빠르고 정확하게 답변을 제공할 수 있음을 확인하였다.

The evolution of Natural Language Processing (NLP) and the rise of large language models (LLM) like ChatGPT have paved the way for specialized question-answering (QA) systems tailored to specific domains. This study outlines a system harnessing the power of LLM in conjunction with document search algorithms to interpret and address user inquiries using documents from the Korea Atomic Energy Research Institute (KAERI). Initially, the system refines multiple documents for optimized search and analysis, breaking the content into managable paragraphs suitable for the language model's processing. Each paragraph's content is converted into a vector via an embedding model and archived in a database. Upon receiving a user query, the system matches the extracted vectors from the question with the stored vectors, pinpointing the most pertinent content. The chosen paragraphs, combined with the user's query, are then processed by the language generation model to formulate a response. Tests encompassing a spectrum of questions verified the system's proficiency in discerning question intent, understanding diverse documents, and delivering rapid and precise answers.

키워드

과제정보

본 연구는 한국원자력연구원 자체연구개발사업의 연구비 지원으로 수행된 연구임. (KAERI-524450-23).

참고문헌

  1. Arroyo, J. et al. (2010), Using BM25F for semantic search, Proceedings of the 3rd International Semantic Search Workshop, April. 26, New York, US.
  2. Kasneci, E. et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education, Learning and Individual Differences, 103, https://doi.org/10.1016/j.lindif.2023.102274.
  3. Kim, H. and Oh, Y. (2023). Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis, J ournal of the Korea Industrial Information Systems Research, 28(4), 11-19.
  4. Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information P rocessing Systems, 33,9459-9474. https://doi.org/10.48550/arXiv.2005.11401
  5. Mavi, V. et al. (2022). A Survey on Multi-hop Question Answering and Generation, arXiv preprint https://doi.org/10.48550/arXiv.2204.09140.
  6. OpenAI. (2021). New and Improved Embedding Models, https://openai.com/blog/new-and-improved-embedding-model/ (May. 14th, 2021)
  7. OpenAI. (2021). GP T-3.5 (Turbo) - API Documentation, https://platform.openai.com/docs/models/gpt-3-5.
  8. Ramos, J. (2003), Using tf-idf to determine word relevance in document queries, Proceedings of the first International Conference on Machine Learning, Dec. 3, New Jersey, USA, pp. 29-48.
  9. Rahutomo, F. et al. (2012). Semantic Cosine Similarity, The 7th International Student Conference on Advanced Science and Technology ICAST, Oct. 29-30, Seoul, South Korea, pp. 1.
  10. Robertson, S. and Zaragoza, H. (2009). The probabilistic relevance framework: BM25 and beyond, Foundations and Trends® in Information Retrieval, 3(4), 333-389. https://doi.org/10.1561/1500000019