한국어 법률 텍스트 처리를 위한 언어 모델링 연구

A Study on Language Modeling for Korean Legal Text Processing

  • 강예지 (연세대학교 언어정보연구원) ;
  • 비립 (연세대학교 언어정보연구원) ;
  • 장연지 (국립국어원) ;
  • 강혜린 (연세대학교 언어정보연구원) ;
  • 박서윤 (연세대학교 언어정보연구원) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Ye-Jee Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Fei Li (Institute of Language and Information Studies, Yonsei University) ;
  • Yeon-Ji Jang (National Institute of Korean Language) ;
  • Hye-Rin Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Seo-Yoon Park (Institute of Language and Information Studies, Yonsei University) ;
  • Han-Saem Kim (Institute of Language and Information Studies, Yonsei University)
  • 발행 : 2022.10.18

초록

본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

키워드