DOI QR코드

DOI QR Code

Development of Artificial Intelligence-based Legal Counseling Chatbot System

  • Park, Koo-Rack (Dept. of Computer Science & Engineering, Kongju National University)
  • 투고 : 2021.01.26
  • 심사 : 2021.02.25
  • 발행 : 2021.03.31

초록

4차 산업혁명 시대의 도래와 함께 IT기술은 기존의 다양한 산업과 분야에 융합되어 기존에 없던 새로운 서비스들을 만들어내고 있다. 특히 인공지능 분야의 챗봇과 최신 기술은 자연어처리 기술의 발전과 함께 그 성능이 비약적으로 발전하여 다양한 업무처리를 챗봇을 통해 처리하고 있다. 본 연구는 슬롯필링(Slot Filling) 기반의 챗봇 기술을 통해서 법률 질의에 대한 구조적인 폼(Structual Form)을 만들고 정해진 형태의 질문을 입력하여 사용자가 찾고자 하는 질문에 근접한 답변을 제공하는 시스템에 대한 연구이다. 제안 시스템을 이용하여 텍스트 형태의 비정형 데이터인 법률 정보를 보다 구조화된 형태로 질의응답 데이터를 구축할 수 있다. 또 축적된 질의응답 데이터를 하이브(Apache Hive)와 같은 빅데이터 저장 시스템을 통해 관리하여 학습에 데이터를 재활용하는 것으로 응답의 신뢰성을 지속적 향상을 기대할 수 있다.

With the advent of the 4th industrial revolution era, IT technology is creating new services that have not existed by converging with various existing industries and fields. In particular, in the field of artificial intelligence, chatbots and the latest technologies have developed dramatically with the development of natural language processing technology, and various business processes are processed through chatbots. This study is a study on a system that provides a close answer to the question the user wants to find by creating a structural form for legal inquiries through Slot Filling-based chatbot technology, and inputting a predetermined type of question. Using the proposal system, it is possible to construct question-and-answer data in a more structured form of legal information, which is unstructured data in text form. In addition, by managing the accumulated Q&A data through a big data storage system such as Apache Hive and recycling the data for learning, the reliability of the response can be expected to continuously improve.

키워드

I. Introduction

4차 산업혁명의 시대의 도래와 함께 IT기술과 기존의 다양한 산업과 융합이 중요한 키워드가 되고 있고 그 중심에 인공지능이 있다고 할 수 있다. 미국 등에서는 인공지능을 이용하여 다양한 형태의 법률전문가 시스템을 구현하려는 시도가 이어졌고, 그 결과 조세 등 기업의 특정 법률 분야에 대한 법률전문가 시스템이 실용화되기도 하였다[1]. 우리나라에서도 인공지능의 한 분야인 법률 전문가시스템 개발이 상당 부분 진척되어 괄목할 성과를 보이기도 했다. 인공지능 공학자들은 법률분야를 인공지능을 이용한 전문가 시스템의 구현에 적합하다고 주장하였다[2]. 그 이유는 법률 분야는 과거의 다양한 분쟁과 그에 대한판례가 등록되어 있고, 그 처리 과정에서 법률적 해석이라는 규칙을 적용하여야만 해결되는 구조가 일관성을 가지고 있기 때문이다. 그러나 전문가 시스템만으로 법률서비스를 구현하는 것은 실제로 미흡한 부분이 있다. 그 이유는 전문가 시스템의 특징인 규칙성을 만드는데 한계가 있기 때문이다[3]. 최근에는 발전된 딥러닝 기술과 자연어처리기법 등을 활용한 챗봇 기술이 다양한 영역에 활용되고 있다. 전 세계 챗봇 시장은 2016년 7억 300만 달러에서 2021년 31.7억 달러로 성장할 것으로 전망하고 있다[4]. 챗봇 시장은 기술에 따라서 자연어 처리(NLP), 딥러닝 및 머신러닝, 자동음성인식(ASR)로 분류되며 이용방식에 따라 웹사이트 접속 센터, 소셜미디어 및 모바일 플랫폼으로 구분할 수 있다[4]. 챗봇은 고객센터의 단순문의에 대한 처리를 자동화하는 관점에서 시작하였고 일반적인 규칙과 검색 기반의 챗봇 이었다면 이제는 챗봇을 통해 배송, 반품, 취소, 병원예약 과 문진처리, 구매 관련 상품 추천, 공공서비스 민원신청 등 다양한 비대면 업무들을 지원하고 있다. Gatner에 따르면 2020년까지 모든 고객 서비스 의사소통의 80%가 챗봇을 통해 이루어질 것으로 전망하였다[5]. 챗봇을 구현하는 방법은 대표적으로 2가지가 있다 [6]. 인공지능 기반으로 사람의 말 자체를 이해하는 방법과 미리 지정해둔 룰(Rule)에 의해서 정해진 답변을 사용자에게 제공하는 방법이 있다[7-9].

본 연구는 인공지능을 활용한 법률상담 챗봇 시스템으로 법률 서비스 사용자로 하여금 복잡한 법률적인 지식으로 키워드를 검색하는 기존의 방식이 아니라 대화를 진행하며 원하는 정보에 접근할 수 있도록 시스템을 구현한 것이다. 시스템 사용자가 입력한 질의를 분석하여 그 안에서 키워드를 추출하고 이것이 어느 법률 도메인에 속하는지 알아낸다. 그러나 법률 도메인을 추출하기 어렵거나 입력받은 키워드가 모호할 경우 시스템 사용자에게 어느 도메인에 속하는지를 물어보아 질의어를 최종 완성하고 이를 통해서 유사한 답변을 찾아 서비스하는 룰 기반의 챗봇 시스템을 법률상담 부분에 적용한 것으로 시스템 구축과 법률 분야 활용 가능성을 서술하였다.

II. Related works

1. Chatbot System

챗봇은 텍스트나 음성신호를 사용하여 인간과 대화를 주고받을 수 있는 로봇이다. 컴퓨터 프로그래밍을 통해 자연어를 사용하여 인간과 대화하는 로봇은 1966년 최초로 Eliza라는 프로그램이 개발되며 탄생되었다[10]. Eliza라는 프로그램이 처음으로 소개된 이후 컴퓨터 프로그래밍과 딥러닝, 머신러닝과 같은 인공지능 기술의 발전으로 인간과 로봇사이에 대화를 하며 정보를 주고받을 수 있는 기술 및 서비스를 챗봇이라 명명하게 되었다[11]. 챗봇에 사용된 빅데이터 분석 기술과 인공지능 기술은 다음과 같이 대표적으로 5개 정도로 구분을 할 수 있다[12]. 첫째, 음성, 문자 및 도형 등을 인지하고 식별 할 수 있는 패턴인식 기술, 둘째, 자연어를 기계가 인식하여 정보검색, 자동번역, 질의응답 등에 활용하는 자연어 처리 기술, 셋째, 기계가 정보와 자원 사이의 관계와 의미를 이해하고 처리할 수 있게 해주는 시맨틱 웹기술, 넷째, 문자로 구성된 데이터 가운데 에서 정보를 검색 할 수 있게 해주는 텍스트 마이닝 기술, 다섯째, 대화의 문맥을 파악 할 수 있는 상황 인식 컴퓨팅 기술 등이 있다. 챗봇이 대화를 처리하기 위해 사용하는 방법으로는 검색기반 방법, 규칙 및 패턴기반 방법, 생성기반 방법 등 크게 세 가지로 분류할 수 있다[13]. 챗봇을 구현하는 방식 두 가지 중 첫 번째는 인공지능(AI) 을 사용하여 인간의 말을 이해하고 답변하는 방식, 두 번째는 개발자가 정해 놓은 규칙을 바탕으로 정해진 입력에 대답하는 방식이다[14]. 최근에는 방대한 양의 텍스트 데이터를 훈련하여 높은 정확도를 보이는 챗봇 시스템이 등장하였다. 그러나 이러한 방법은 자유도가 높은 시스템에서는 유용하지만 법률과 같은 특수한 분야의 챗봇을 만드는 데는 적합하지 않다. 반면 미리 정해진 규칙에 의한 대답을 하는 시스템의 경우 질문의 형식과 필요한 정보들을 사전에 정의한 규칙에 의해서 답변하기 때문에 법률과 같은 전문 분야에서 많이 사용된다.

2. NLP(Natural Language Processing)

자연어처리(NLP)는 인간이 발화하는 언어인 자연어 현상을 컴퓨터가 이해할 수 있는 형태로 분석하여 이를 처리하고, 다시 사람이 이해할 수 있는 자연어적 형태로 표현하는 기술이다. 자연어처리 방식으로는 전통적으로 통계기반과 규칙기반의 접근법이 있고, 이 둘의 장점을 취한 하이브리드 방식이 있으며, 딥러닝(Deep-Learning)과 같은 인공신경망 방식으로 분류할 수 있다[15].

다음의 Fig. 1은 자연어처리의 흐름[16]을 나타낸 다이어그램이다. 자연어처리 자연어탐지, 탐지한 자연어의 전처리 프로세스, 모델링 구축으로 수행되며 최종적으로 모델을 통해 분류, 번역 등의 작업을 수행한다.

CPTSCQ_2021_v26n3_29_f0001.png 이미지

Fig. 1. Flow of NLP Processing

3. Apache Hive

아파치 하이브(Apache Hive)는 페이스북 프로그래머들이 개발한 소프트웨어로서 기존 SQL문법과 상당히 유사한 HiveQL(Hive Query Language)을 사용하여 하둡에 저장된 빅데이터를 질의할 수 있다. 하둡에 저장된 빅데이터를 분석 처리하기 위해 HiveQL로 작성된 질의는 Low-Level 에서 내부적으로 맵리듀스로 변환되어 동작하게 된다[17]. 이를 통해 분석가는 빅데이터를 SQL 기반으로 보다 편리하게 분석업무를 진행할 수 있는 장점이 있다.

III. The Proposed System

1. Proposal System Configuration

본 연구의 제안 시스템은 웹 애플리케이션을 통해 입력받은 시스템 사용자의 질의에 대해서 슬롯 필링 방식의 챗봇을 활용하여 시스템 사용자가 적절한 질의를 할 수 있도록 유도하고 이에 대한 답변을 기존에 구축되어 있는 답변 데이터에서 적절한 답을 시스템 사용자게에 제공하는 시스템으로 제안 시스템의 구성도는 다음의 Fig. 2와 같다.

CPTSCQ_2021_v26n3_29_f0002.png 이미지

Fig. 2. System Configuration

웹 애플리케이션을 통해 입력 받은 텍스트 데이터는 질의어에 포함되어 있는 불필요한 특수문자나 문장보호 등을 제거하는 전처리 과정을 수행한다. 전처리 과정을 마친 질의데이터는 형태소 분석 과정을 거치게 된다. 해당 과정에서 명사 추출을 통해서 사전에 정의된 슬롯 사전을 검색하여 슬롯을 채우게 된다. 슬롯 중에서 채우지 못한 질문 내용은 다시 웹 애플리케이션을 통해서 시스템 사용자의 부족한 질의를 채울 수 있도록 유도한다. 이러한 과정을 통해서 시스템 사용자의 질의 내용은 비정형 텍스트에서 고정된 필드를 포함하는 반정형 형태(Semi-Structured) 데이터로 만들 수 있다. 완료된 질의 데이터는 빅데이터 시스템을 통해서 하둡에 저장되고, 이때 Hive를 사용해서 테이블 구조로 데이터를 저장한다. Hive는 하둡의 에코 시스템 중에 하나로 SQL-on-Hadoop을 지원하는 소프트웨어이며 SQL과 유사한 HiveQL이라는 스크립트 언어를 통해서 구조화된 빅데이터를 저장하고 질의를 수행하는데 장점을 가진 오픈소스 소프트웨어이다. 완성된 질의어는 딥러닝 알고리즘을 통해 기존에 유사한 답변을 추천하고 시스템 사용자는 추천 받은 답변의 만족도 수준을 평가 할 수 있다. 만족도 평가를 통해서 지속적인 답변의 신뢰도를 제고 할 수 있다.

2. Query Language Slot Structure

챗봇에 사용하는 슬롯의 구조는 다음의 Fig. 3에서와 같이 질의 도메인, 키워드, 질문 내용으로 구성된다. 시스템사용자로부터 질의 데이터가 입력되면 전처리와 형태소분석을 통해서 슬롯을 채우게 되고 비어 있는 슬롯은 웹 애플리케이션을 통해서 요청과 응답을 반복하며 비어있는 슬롯을 채우고 질의어를 완성하게 된다. 질의 도메인은 법령의 구분을 의미한다. 본 연구에서는 “행정법, 노동법, 교통사고법”을 중심으로 하였다. 키워드는 질의의 내용을 분석하고 추출한 단어들 예를 들어 “아파트, 재건축, 보험, 집행유예, 정규직, 퇴직, 급여” 등으로 각 도메인마다 그 키워드를 달리하여 사전에 수집하였다. 이메일은 질의 내용을 사용자가 메일로 받고자 하는 경우 시스템 사용자의 이메일 주소를 입력하도록 하였다.

CPTSCQ_2021_v26n3_29_f0003.png 이미지

Fig. 3. Chatbot Slot Form

3. Apache Hive Table Structure

입력된 사용자의 질의 데이터를 저장하기 위해 대표적인 빅데이터 저장 플랫폼인 하둡 에코시스템 중 하나인 아파치 하이브를 사용하였다.

앞의 Fig. 4에서 같이 아파치 하이브는 SQL과 유사한 구조로 되어 있다. 먼저 qid, keyword, question, email 각각의 항목들을 텍스트 형태의 데이터로 입력 받는다. 저장된 질의 내용은 NLP(자연어처리, Natural Language Pr ocessing) 처리를 통해서 보다 정확한 질의 결과를 사용자에게 제공하는데 활용된다. 질의 내용을 통해서 답변을 예측하는 방법으로는 분류기법을 사용하였다.

CPTSCQ_2021_v26n3_29_f0004.png 이미지

Fig. 4. Hive Table Scheme

4. Web Application Data Structure

질의어의 내용을 분석하고 비어있는 슬롯에 대한 정보검출은 파이썬 기반의 시스템에서 수행하나 질의 내용을 입력 받거나 비어있는 슬롯에 대한 추가 정보 입력 등의 작업은 웹 애플리케이션을 통해서 이뤄진다.

다음의 Fig 5는 해당 데이터의 구조로 domain은 법령 구분 정보를 나태내고 input_question은 시스템 사용자가 입력한 질문에 대한 내용을 나타내고, request_type은 입력 전송 포맷, slot_entity는 시스템 사용자가 입력한 입력슬롯의 정보, output_answer는 입력한 질문에 대한 답변의 내용을 웹 서버에 전달하는 데이터이다.

CPTSCQ_2021_v26n3_29_f0005.png 이미지

Fig. 5. Request Scheme

IV. Test and Result

본 연구 논문에 사용한 데이터는 포털 사이트의 법률 자문 데이터들을 크롤링 기술을 이용하여 데이터 셋을 가공한 후, 구축한 테스트용 데이터이다. 법은 많은 분야가 있고 판례 역시 다양하기 때문에 본 연구에서는 생활에 밀접한 법인 행정법, 노동법, 교통사고법의 데이터를 중심으로 시스템에 적용하였다. 해당 사이트의 특성상 법률자문의 특징이 있고 그것이 판결 내용과 다를 수도 있음을 공지하고 유사한 질문에 대한 답변을 추천하고 추천 답변이 없다면 입력받은 메일을 통해서 답변 내용을 관리자가 발송할 수 있도록 하였다. 시스템 사용자와의 인터페이스를 위한 웹 애플리케이션을 다음과 같이 설계하였다. 웹 애플리케이션을 작성하기 위해 파이썬 기반의 django 프레임워크를 사용하였다. 시스템 사용자는 웹 애플리케이션을 통해서 질문 내용을 입력하고 시스템은 질문 내용을 분석하여 보다 자세한 정보나 누락된 정보를 추가 입력할 수 있도록 구성 하였다.

다음의 Fig. 6은 챗봇의 웹 애플리케이션 인터페이스로 시스템 사용자의 답변에 시스템이 응답하는 형태로 구성되어 있다. 입력받은 질문에 대하여 키워드를 추출하고 해당 질문이 어떤 도메인(법률)에 속해 있는지를 추출한다.

CPTSCQ_2021_v26n3_29_f0006.png 이미지

Fig. 6. Chatbot Web Application UI

만약 도메인이 모호할 경우 챗봇은 시스템 사용자에게 어떤 도메인의 질문인지를 요청하게 된다. 해당 질문의 내용이 도메인까지 확정이 되었다면 입력된 키워드로 질문의 전체 내용을 챗봇 시스템에 전송한다. 구현한 예제에서는 “사고”, “치료비”라는 키워드를 추출하고 어떤 종류의 사고인지 모호하기 때문에 도메인을 요청해서 “교통사고”라는 도메인정보를 얻어 챗봇 시스템에 데이터를 전송하고 유사한 답변을 찾아서 시스템 사용자에게 정보를 제공한다.

다음의 Fig. 7은 시스템 사용자의 질문으로부터 챗봇 시스템에서 사용자에게 제공하는 답변의 내용이다.

CPTSCQ_2021_v26n3_29_f0007.png 이미지

Fig. 7. Request Data JSON Type

적절한 답변이 없을 경우 시스템의 메일을 통해 관리자가 입력한 데이터를 받을 수 있다. 시스템 사용자의 질문에 대해서 적절한 답변을 위해 “답변용 대화 데이터 셋”을 활용한다. 해당 데이터 셋은 법률의 도메인, 질문의 키워드, 질의 내용, 질의 내용에 대답하는 답변 코드 형태로 되어 있다.

다음의 Fig. 8 데이터 셋 설정 화면의 일부분으로서 질문의 도메인과 키워드, 질의 내용을 통해서 적절한 답변 코드를 반환하는 역할을 수행한다. 적절한 답변을 찾기 위한 심층신경망 구현을 위해 Tensorflow 라이브러리를 사용하였다.

CPTSCQ_2021_v26n3_29_f0008.png 이미지

Fig. 8. Part of the DataSet Algorithm

V. Conclusions

제안 시스템은 인공지능을 기반으로 하는 법률상담 챗봇으로 법률 서비스를 사용자가 보다 쉽고 정확하게 원하는 정보에 접근 할 수 있도록 하기 위한 방안으로 구현한 것이다. 법률상담 챗봇 서비스 사용자는 검색을 원하는 내용에 대한 전문지식이 없이도 대화형 시스템에서 요구하는 몇 가지 단계만을 통해서 법률 정보를 쉽고 빠르게 제공 받을 수 있게 하였다. 이러한 방식을 위해 슬롯 방식의 챗봇을 적용하여 반드시 필요한 정보에 대해서는 사용자에게 요구하도록 설계하고 구현하였다. 슬롯 방식의 챗봇을 통해 사용자의 질문을 보다 구체화 할 수 있었고 이를 통해 질문에 대한 답변 만족도를 높이는 효과를 얻을 수 있다. 해당 질문에 대한 답변을 찾는 과정에서 사용하는 딥러닝 기반의 분류 알고리즘의 성능을 높이기 위해서는 보다 다양한 데이터와 슬롯에 대한 정의 높은 수준의 질문과 답변의 데이터 셋이 필요하다. 향후 연구에서는 이러한 질문과 답변 그리고 보다 다양한 법률 영역에 대한 데이터수집을 위해 법률 검색과 다양한 법률 상담 서비스와의 연계, 현업 법률 전문가와의 협업이 필요하다. 이와 병행하여 기존에 구축된 법률 데이터 활용과 이를 위한 표준화 체계가 연구되어야 할 것이다.

ACKNOWLEDGEMENT

This work was supported by the research grant of the Kongju National University in 2020.

참고문헌

  1. J. M. Yang, "Prospect of the Legal Expert System," Inha Law Review : The Institute of Legal Studies Inha University, Vol. 19, No. 2, pp. 213-242, June 2016.
  2. J. C. Smith, "Machine Intelligence and Legal Reasoning," Chi.-Kent L. Rev, Vol. 73, pp. 277, Nov. 1997.
  3. S. C. Kwasny and K. A. Faisal, "Overcoming Limitations of Rule-Based Systems: An Example of a Hybrid Deterministic Parser," In Konnektionismus in Artificial Intelligence und Kognitionsforschung, pp.48-57, 1990. DOI : 10.1007/978-3-642-76070-9_5
  4. T. W. Bae, Chatbot Market Forecast by 2021-2022, https://www.hankyung.com/it/article/2018071073181.
  5. A. Park, S. B. Lee and J. Song, "Application of AI based Chatbot Technology in the Industry," Journal of the Korea Society of Computer and Information, Vol. 25, No. 7, pp. 17-25, July 2020. DOI : 10.9708/jksci.2020.25.07.017
  6. M. S. Kim et al, "Design and Implementation of a Chatbot System for Smart Stores," The ICCC Journal of the Korea Contents Assocation, pp. 47-48. Asian Institute of Technology, Pathumthani, Thailand, December 2017.
  7. H. J. Park, "A study on the effectiveness of chat-bot service on service value and service acceptance attitude : Case study of 'D' Airlines," International Journal of Tourism and Hospitality Research, Vol. 34, No. 11, pp. 111-124, November 2020. DOI : 10.21298/IJTHR.2020.11.34.11.111
  8. L. S. Levin, D. A. Evans and D. M. Gates, "THE ALICE SYSTEM A WORKBENCH FOR LEARNING AND USING LANGUAGE," CALICO journal, Vol. 9, No. 1, pp. 27-56, 1991.
  9. V. Sharma, M. Goyal and D. Malik, "An intelligent behaviour shown by chatbot system," International Journal of New Technology and Research, Vol. 3, No. 4, pp. 52-54, April 2017.
  10. J. Weizenbaum, "ELIZA-a computer program for the study of natural language communication between man and machine," Communications of the ACM, Vol. 9, No. 1, pp. 36-45, January 1966. DOI : 10.1145/365153.365168
  11. D. A. Park, "A study on conversational public administration service of the Chatbot based on artificial intelligence," Journal of Korea Multimedia Society, Vol. 20, No. 8, pp. 1347-1356, August 2017. DOI : 10.9717/kmms.2017.20.8.1347
  12. S. W. Choi and J. H. Nam, "The Use of AI Chatbot as An Assistant Tool for SW Education," Journal of the Korea Institute of Information and Communication Engineering, Vol. 23, No. 12, pp. 1693-1699, December 2019. https://doi.org/10.6109/JKIICE.2019.23.12.1693
  13. I. Ahmed and S. Singh, "Aiml based voice enabled artificial intelligent chatterbot," International Journal of u-and e-Service, Science and Technology, Vol. 8, No. 2, pp. 375-384, 2015. DOI : 10.14257/ijunesst.2015.8.2.36
  14. H. J. Choi, S. J. Bae and G. M. Jeong, "Development of ordering chatbot that can process multiple keywords based on recursive slot-filling method," The Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 12, No. 4, pp. 440-448, July 2019. DOI : 10.17661/jkiiect.2019.12.4.440
  15. H. J. Lee and J. W. Kim, "A Study on the Natural Language Processing (NLP) Technical and Standardization Trend," Journal of Korea Institute of Communication Sciences, pp. 876-877, Korea, June 2017.
  16. A. R. Song and Y. H. Park, "WV-BTM: A technique on improving accuracy of topic model for short texts in SNS," Journal of Digital Contents Society, Vol. 19, No. 1, pp. 51-58, January 2018. DOI : 10.9728/dcs.2018.19.1.51
  17. Y. Kim, H. Chung, Y. Min, J. Kim and J. Choi, "Performance Acceleration Techniques for Hive Query Processing using Relational Database," In The Fifth International Conference on Emerging Databases, pp. 343-345, Korea, June 2013.