오픈소스 소프트웨어 라이선스 파일 식별 기술

Measurement for License Identification of Open Source Software

  • Received : 2016.11.20
  • Accepted : 2016.12.22
  • Published : 2016.12.31

Abstract

본 논문은 오픈소스 소프트웨어의 배포과정에서 라이선스 정보가 누락, 훼손, 변경, 충돌됨에 따라 발생하는 무의적인 저작권 침해를 미연에 방지하고자 라이선스 파일을 추출/식별하는 기술을 연구하였다. 라이선스 파일이 갖는 특성을 파악하기 위해 n-gram과 TF-IDF 기법을 활용하여 322개의 라이선스 내용을 분석하였고, 이를 활용하여 패키지 내에서 라이선스 파일을 추출하였다. 추출한 라이선스는 코사인 측정법을 통해 확보한 라이선스간의 유사도를 산정하여 라이선스 정보를 식별하였다.

In this paper, we study abstracting and identifying license file from a package to prevent unintentional intellectual property infringement because of lost/modified/confliction of license information when redistributing open source software. To invest character of the license files, we analyzed 322 licenses by n-gram and TF-IDF methods, and abstract license files from the packages. We identified license information with a similarity of the registered licenses by cosine measurement.

Keywords

Acknowledgement

본 연구는 문화체육관광부 및 한국저작권위원회의 2016년도 저작권기술개발사업의 연구결과로 수행되었음