Manual Revision of Penn Korean Universal Dependency Treebank

Penn Korean Universal Dependency Treebank 데이터셋 구축

  • Oh, Taehwan (Department of Korean Language and Literature, Yonsei University) ;
  • Han, Jiyoon (Institution of Language and Information Studies, Yonsei University) ;
  • Kim, Hansaem (Institution of Language and Information Studies, Yonsei University)
  • 오태환 (연세대학교 국어국문학과) ;
  • 한지윤 (연세대학교 언어정보학 협동과정) ;
  • 김한샘 (연세대학교 언어정보학 협동과정)
  • Published : 2021.10.14

Abstract

본 연구에서는 2018년에 공개된 Penn Korean Universal Dependency Treebank(이하 PKT-UD v2018) 데이터의 오류를 분석하고 이를 개정하여 새롭게 데이터셋(이하 PKT-UD v2020)을 구축하였다. PKT-UD v2018은 구구조 분석 방식으로 구축된 Penn Korean Treebank를 UD(Universal Dependencies)의 체계에 맞추어 자동적으로 변환한 후 보정하여 구축한 데이터이다. 본 연구에서는 이와 같은 자동 변환의 과정에서 발생한 오류를 바로 잡고, UD 체계를 최대한 활용하면서 한국어의 특성을 잘 살린 데이터셋을 구축할 수 있는 방법을 제안하였다.

Keywords