Named Entity Recognition for Patent Data by Machine Learning

특허 개체명 인식에 대한 기계학습 사례

  • 이태석 (한국과학기술정보연구원) ;
  • 강승식 (국민대학교 컴퓨터공학부)
  • Published : 2014.10.07

Abstract

특허 분석에서 관심 있는 기술명, 서비스명, 제품명을 인식하도록 기계학습 기법을 사용해 개체명 인식기의 성능을 평가해 보았다. 개체인식을 위한 엔진은 스탠포드 대학의 NER과 CRF++을 사용하였다. 그 결과 F1값인 0.5612로 나타났다. 이것은 인명, 지역명, 조직명 개체를 인식하는 다른 연구에서 나타난 0.7857보다 0.2245 떨어지는 결과이다. 특허 개체명 인식에 대한 자질값 선정과 사전처리에 대한 더 많은 연구가 필요하다.

Keywords