Korean Named Entity Recognition using D-Tag

D-Tag를 이용한 한국어 개체명 인식

  • Published : 2022.10.18

Abstract

본 논문에서는 시퀀스 레이블링 문제(sequence labeling problem)인 개체명 인식에 사용할 새로운 태깅 포맷인 Delimiter tag (D-tag)를 소개한다. 시퀀스 레이블링 문제에서 사용하는 BIO-tag 포맷은 개체명 레이블을 B (beginning)와 I (inside) 의미의 레이블로 확장하여 타겟 클래스의 수가 2배 증가한다. 또한 BIO-tag 포맷을 사용할 경우, 모델이 B와 I 를 잘못 분류하는 문제가 발생하며, 레이블 수가 많은 세부 분류 개체명의 경우에는 label confusion을 야기한다. 본 논문에서 제안한 D-tag 포맷은 타겟 클래스의 수를 증가시키지 않기 때문에 앞서 언급한 문제를 해결할 수 있다. 실험 결과, D-tag를 사용하여 학습한 모델이 BIO-tag를 사용한 경우보다 더 좋은 성능을 보여, 유망함을 확인하였다.

Keywords