컴퓨터 과학 연구 동향을 반영한 그래프 기반의 arXiv 데이터셋 구축

Constructing a Graph-Based arXiv Dataset By Reflecting the Research Trend in Computer Science

  • 전주현 (한양대학교 지능융합학과) ;
  • 강윤석 (미시간대학교 정보대학) ;
  • 김상욱 (한양대학교 컴퓨터소프트웨어학과)
  • Juhyun Jeon (Dept. of Intelligence and convergencer, Hanyang University) ;
  • David Y. Kang (School of Information, University of Michigan) ;
  • Sang-Wook Kim (Dept. of Computer Science, Hanyang University)
  • 발행 : 2024.05.23

초록

컴퓨터 과학(CS) 분야는 다른 학문 분야에 비해 연구 동향이 빠르게 변하는 특성을 가지고 있다. 그래프 마이닝에서 활발히 사용되는 CS 분야 논문 데이터셋를(e.g., Cora, Citeseer, DBLP)은 오래된 논문을 중심으로 구성되어 있어 이러한 특성을 제대로 반영하지 못하는 한계가 있다. 따라서 본논문에서는 CS 분야의 최신 트렌드를 반영하는 논문 데이터셋을 제안한다. 이를 위해, 우리는 CS 분야 논문을 활발히 공개하는 플랫폼인 arXiv 에서 2007 년부터 2023 년까지 해당 플랫폼에서 공개된 논문들을 수집하고, 이를 기반으로 공저자 그래프 및 인용 그래프로 구축한다. 해당 데이터셋을 대상으로 폭넓은 분석을 통해, 우리가 구축한 데이터셋이 실세계 그래프 네트워크 특성을 잘 반영하고 있음을 보인다. 또한, 향휴에 해당 데이터셋을 사용하려는 연구자들을 위해, 해당 데이터셋에서의 기존 그래프 기반 응용들의 노드 분류 성능을 제시한다.

키워드

과제정보

이 논문은 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2018R1A5A7059549, No. 2022-0-00352, No. RS-2022-00155586, 실세계의 다양한 다운스트림 태스크를 위한 고성능 빅 하이퍼그래프 마이닝 플랫폼 개발(SW 스타랩)).

참고문헌

  1. J. Kim, "Author-based analysis of conference versus journal publication in computer science," Journal of the Association for Information Science and Technology, Vol. 70, No. 1, pp. 71-82, 2019.
  2. A.K. McCallum, et al, "Automating the construction of internet portals with machine learning," Information Retrieval, Vol. 3, No.2, pp. 127-163, 2000.
  3. C.L. Giles, K.D. Bollacker, and S. Lawrence, "CiteSeer: an automatic citation indexing system," In Proc. of the third ACM conference on Digital libraries, 1998, p. 89-98.
  4. J. Tang et al, "ArnetMiner: extraction and mining of academic social networks," In Proc. of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, 2008, pp. 990-998.
  5. M. Tuan Do et al, "Structural patterns and generative models of real-world hypergraphs," In Proc. of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 176-186.
  6. A Grover, J. leskovec, "node2vec: scalable feature learning for networks", In Proc. of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2016, pp. 855-864.
  7. T.N. Kipf, W. Max, "Semi-supervised classification with graph convolutional networks," In International Conference on Learning Representyations, 2017.
  8. W. Hamilton, Z. Ying, and J. Leskovec, "Inductive representation learning on large graphs," In Advances in Neural Information Processing Systems, 2017, pp. 1025-1035.
  9. J. Huang et al, "Can LLMs effectively leverage graph structural information through prompts, when and why," arXiv, 2023.
  10. W. Hu, et al, "Open graph benchmark: Datasets for machine learning on graphs. In Advances in Neural Information Processing Systems," 2020.