Named Entity Recognition with Structural SVMs and Pegasos algorithm

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

  • 이창기 (한국전자통신연구원 지식마이닝연구팀) ;
  • 장명길 (한국전자통신연구원 지식마이닝연구팀)
  • Received : 2010.10.15
  • Accepted : 2010.12.08
  • Published : 2010.12.31

Abstract

The named entity recognition task is one of the most important subtasks in Information Extraction. In this paper, we describe a Korean named entity recognition using structural Support Vector Machines (structural SVMs) and modified Pegasos algorithm. Using the proposed approach, we could achieve an 85.43% F1 and an 86.79% F1 for 15 named entity types on TV domain and sports domain, respectively. Moreover, we reduced the training time to 4% without loss of performance compared to Conditional Random Fields (CRFs).

개체명 인식은 정보 추출의 한 단계로서 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 본 논문에서는 structural Support Vector Machines(structural SVMs) 및 수정된 Pegasos 알고리즘을 이용한 한국어 개체명 인식 시스템에 대하여 기술하고 기존의 Conditional Random Fields(CRFs)를 이용한 시스템과의 성능을 비교한다. 실험결과 structural SVMs과 수정된 Pegasos 알고리즘이 기존의 CRFs 보다 높은 성능을 보였고(신뢰도 99%에서 통계적으로 유의함), structural SVMs과 수정된 Pegasos 알고리즘의 성능은 큰 차이가 없음(통계적으로 유의하지 않음)을 알 수 있었다. 특히 본 논문에서 제안하는 수정된 Pegasos 알고리즘을 이용한 경우 CRFs를 이용한 시스템보다 높은 성능(TV 도메인 F1=85.43, 스포츠 도메인 F1=86.79)을 유지하면서 학습 시간은 4%로 줄일 수 있었다.

Keywords