DOI QR코드

DOI QR Code

A Study on Open Source Version and License Detection Tool

오픈소스 버전 및 라이선스 탐지 도구에 관한 연구

  • 김기환 (순천향대학교 소프트웨어융합학과) ;
  • 윤성철 (순천향대학교 소프트웨어융합학과) ;
  • 김수현 (순천향대학교 컴퓨터소프트웨어공학과) ;
  • 이임영 (순천향대학교 컴퓨터소프트웨어공학과)
  • Received : 2023.12.27
  • Accepted : 2024.05.28
  • Published : 2024.07.31

Abstract

Software is expensive, labor-intensive, and time-consuming to develop. To solve this problem, many organizations turn to publicly available open source, but they often do so without knowing exactly what they're getting into. Older versions of open source have various security vulnerabilities, and even when newer versions are released, many users are still using them, exposing themselves to security threats. Additionally, compliance with licenses is essential when using open source, but many users overlook this, leading to copyright issues. To solve this problem, you need a tool that analyzes open source versions, vulnerabilities, and license information. Traditional Blackduck provide a wealth of open source information when you request the source code, but it's a heavy lift to build the environment. In addition, Fossology extracts the licenses of open source, but does not provide detailed information such as versions because it does not have its own database. To solve these problems, this paper proposes a version and license detection tool that identifies the open source of a user's source code by measuring the source code similarity, and then detects the version and license. The proposed method improves the accuracy of similarity over existing source code similarity measurement programs such as MOSS, and provides users with information about licenses, versions, and vulnerabilities by analyzing each file in the corresponding open source in a web-based lightweight platform environment. This solves capacity issues such as BlackDuck and the lack of open source details such as Fossology.

소프트웨어는 개발하는 과정에서 많은 비용과 시간이 소모된다. 이를 해결을 위해, 많은 기업들이 공개된 오픈소스를 사용하지만 대부분 오픈소스에 대해 정확히 파악하지 않은 채 사용하고 있다. 특히, 구버전 오픈소스 사용으로 인한 보안 취약점 문제와 라이선스 사항을 간과한 저작권 문제가 발생하고 있다. 따라서, 오픈소스의 버전, 취약점 및 라이선스 정보를 분석하는 도구가 필요하다. 기존의 블랙덕은 오픈소스의 상세한 구성 요소를 제공하지만 환경 구축에 큰 부담을 따르게 된다. 또한, Fossology는 라이선스를 탐지할 수 있지만, 자체 데이터베이스가 존재하지 않아 그 외의 다른 정보들을 제공하지 않는다. 본 논문에서는 소스 코드 유사도 측정을 통해 오픈소스를 파악하여 해당 버전 및 라이선스를 탐지 하는 도구를 제안한다. 본 제안 방식은 TF-IDF 및 코사인 유사도를 기반하여 MOSS라는 기존 소스 코드 유사도 측정 도구인 프로그램보다 정확도를 향상시킨다. 또한, 웹 기반의 경랑 플랫폼 환경에서 구축함에도 오픈소스를 분석하여 라이선스, 버전 및 취약점을 제공할 수 있다. 이를 통해, 앞선 블랙덕의 환경 구축에 요구되는 부담 및 Fossology의 오픈소스의 상세 정보의 미제공 문제를 해결할 수 있다.

Keywords

Acknowledgement

이 논문은 한국콘텐츠진흥원의 2024년도 SW저작권 생태계 조성 기술개발사업(과제명 : 클라우드 서비스 활용 구축 형태별 대규모 소프트웨어 라이선스검증 기술개발, 과제번호: RS-2023-00224818, 기여율: 50%)과 과학기술정보통신부의 재원으로 한국연구재단(No. 2022R1A2B5B01002490)의 지원을 받아 수행됨.

References

  1. S.-R. Son and Y. Kang, "Business models proposal for Korean open source GIS software companies," Journal of Cadastre & Land InformatiX, Vol.48, No.1, pp.187-199, https://koreascience.kr/article/JAKO201821142175225.page, Jun, 2018. https://doi.org/10.22640/LXSIRI.2018.48.1.187
  2. R. Gurikar and G. S. Gururaj, "Use of open source software in indian institutional digital repositories: A study," Library Philosophy and Practice (e-journal), 2021.
  3. K.-H. Lee and J.-P. Park, "A software vulnerability analysis system using learning for source code weakness history," Korea Academia-Industrial Cooperation Society, Vol.18, No.11, pp.46-52, 2017.
  4. Y. Agarwal, "Apache Log4j logging framework and its vulnerability," in Metropolia University of Applied Sciences Master of Engineering Information Technology Master's Thesis, Mar. 2022.
  5. D.-G. Lee and Y.-S. Seo, "A study on the identification of open source license compatibility violations" KIPS Transactions on Software and Data Engineering, Vol.7, No.12, pp.451-460, 2018. https://doi.org/10.3745/KTSDE.2018.7.12.451
  6. H. Schoettle, "Open source license compliance-why and how?" Computer, Vol.52, No.8, pp.63-67, 2019. DOI: https://doi.org/10.1109/MC.2019.291569
  7. D. Bellamkonda "Software engineering tools for secure application development," in Cluminating Projects in Information Assurance, May. 2023.
  8. S.-W. Kim and K.-H. Son, "SBOM trends for OSS traceability," The Korea Institute of Information Security and Cryptology, Vol.32, No.5, pp.53-66, 2022.
  9. T. Tuunanen, J. Koskinen, and T. Karkkainen, "Automated software license analysis," Automated Software Engineering, Vol.16, pp.455-490, 2009. https://doi.org/10.1007/s10515-009-0054-z
  10. C. Ragkhitwetsagul, J. Krinke, and D. Clark "Similarity of source code in the presence of pervasive modifications," in 2016 IEEE 16th International Working Conference on Source Code Analysis and Manipulation (SCAM), 2016.
  11. C.-H. Huang, J. Yin, and F. Hou, "A text similarity measurement combining word semantic information with TF-IDF method," Chinese Journal of Computers, No.5, pp.856-864, 2011.
  12. F. Rahutomo, T. Kitasuka, and M. Aritsugi, "Semantic cosine similarity," in The 7th International Student Conference on Advanced Science and Technology ICAST 2012, At: Seoul, South Korea, Oct. 2012.
  13. Z. Pauzi and A. Capiluppi, "Text similarity between concepts extracted from source code and documentation," in Intelligent Data Engineering and Automated Learning - IDEAL 2020, pp.124-135, Oct. 2020.
  14. S. Schleimer, D. S. Wilkerson, and A. Aiken, "Winnowing: Local algorithms for document fingerprinting," In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, pp. 76-85, Jun. 2003.
  15. K.-H. Kim, S. C. Yoon, S.-H. Kim, and I.-Y. Lee, "A study on platform for OSS similarity and license analysis," in Proceedings of the Annual Conference of Korea Information Processing Society Conference (KIPS) 2023, Vol.30, No.2, pp.317-318, Nov. 2023.