초록
본 논문은 회의록의 특징을 반영한 회의록을 요약 방법을 제안한다. 회의록은 일반 문서와 달리 회의의 진행자가 전체 흐름을 주도하고, 회의 진행에 사용하는 단어들이 존재하며, 발언자들 간의 대화에 종속관계가 있다는 특징이 있다. 제안한 방법은 먼저 회의의 흐름을 찾기 위해 사전에 구축된 회의 진행에 특화된 단어사전과 TextRank 알고리즘을 사용하여 진행자의 주제 문장들을 추출한다. 다음으로 추출된 문장들을 회의록에 있는 참석자들의 문장과 유사도를 계산하여 회의의 주제 문장과 관련있는 중요 문장을 추출한다. 마지막으로 사용자가 흐름을 편히 알 수 있도록 추출된 문장들 사이에 종속 관계를 분석하여 최종적으로 회의록을 요약한다. 국회 전자회의록을 대상으로 실험한 결과, 제안한 방법이 회의록을 요약하는 비율 전 구간에서 기존의 요약 방법들보다 더 나은 성능을 보인다.
These days many meeting minutes of various organizations are publicly available and the interest in these documents by people is increasing. However, it is time-consuming and tedious to read and understand whole documents even if the documents can be accessed easily. In addition, what most people want from meeting minutes is to catch the main issues of the meeting and understand its contexts rather than to know whole discussions of the meetings. This paper proposes a novel method for summarizing documents considering the characteristics of the meeting minutes. It first extracts the sentences which are addressing the main issues. For each issues expressed in the extracted sentences, the sentences related with the issue are then extracted in the next step. Then, by transforming the extracted sentences into a tree-structure form, the results of the proposed method can be understood better than existing methods. In the experiments, the proposed method shows remarkable improvement in performance and this result implies that the proposed method is plausible for summarizing meeting minutes.