정보보안 분야의 위협정보 개체명 인식 시스템 개발을 위한 데이터셋 구축

Development of Tagging Dataset for Named Entity Recognition in Security

  • Kim, GyeongMin (Dept. of Computer Science and Engineering, Korea University) ;
  • Hur, YunA (Dept. of Computer Science and Engineering, Korea University) ;
  • Kim, Kuekyeng (Dept. of Computer Science and Engineering, Korea University) ;
  • Lim, HeuiSeok (Dept. of Computer Science and Engineering, Korea University)
  • 발행 : 2018.10.12

초록

개체명 인식(Named Entity Recognition)은 주로 인명(PS), 지명(LC), 기관명(OG) 등의 개체를 인식하기 위한 방식으로 많이 사용되어왔다. 그 이유는 해당 개체들이 데이터에서 중요한 의미를 가진 키워드이기 때문이다. 그러나 다른 도메인이 달라진다면 그동안 사용된 개체보다 더욱 중요한 의미를 갖는 개체가 존재할 수 있다. 특히 정보보안 분야에서는 악의적으로 사용되는 위협정보가 문서 내에서 중요한 의미를 갖는다. 보안 문서는 해시값, 악성코드명, IP, 도메인/URL 등 위협정보에 중요한 단서가 될 수 있는 다양한 정보를 담고 있다. 본 논문에서는 정보보안 분야의 위협정보를 탐지할 수 있는 개체명 시스템 개발을 위해 4개의 클래스와 20가지 속성으로 정의한 구축 방식을 구축하고 그 구축 방식에 대해 제안한다.

키워드