A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구

  • Kang, Ye-Jee (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Hye-Rin (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Park, Seo-Yoon (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Jang, Yeon-Ji (National Institute of Korean Language) ;
  • Kim, Han-Saem (Institute of Language and Information Studies, Yonsei Unversity)
  • 강예지 (연세대학교 언어정보학협동과정) ;
  • 강혜린 (연세대학교 언어정보학협동과정) ;
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 장연지 (국립국어원) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2021.10.14

Abstract

판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

Keywords