DOI QR코드

DOI QR Code

A Study on Automatic Data Tagging for Text-based Training Data Construction

텍스트 기반의 훈련 데이터 구축을 위한 자동 데이터 태깅 작업에 대한 연구

  • Kim, NaYun (Research and Development Laboratory, Solugate Ltd.) ;
  • So, Hyeryung (Research and Development Laboratory, Solugate Ltd.) ;
  • Park, Joonho (Research and Development Laboratory, Solugate Ltd.)
  • 김나연 ((주)솔루게이트 기업부설연구소) ;
  • 소혜령 ((주)솔루게이트 기업부설연구소) ;
  • 박준호 ((주)솔루게이트 기업부설연구소)
  • Published : 2020.11.05

Abstract

텍스트 기반의 훈련 데이터는 데이터를 수집한 이후에 각 문자별로 태깅 작업이 필요하다. 말뭉치(Corpus)는 언어학에서 주로 이루고 있는 텍스트 집합이다. 말뭉치는 각 단어의 품사 표기에 대한 정보가 태그 형태로 되어 있다. 본 연구에서는 한국어 기반의 태깅 작업을 연구했으며, 기본 한국어 말뭉치가 아닌 기업이나 연구 기관에서 데이터를 수집하여 말뭉치나 별도 학습 데이터를 구축하기 위한 자동 태깅 방법에 대해 알아본다.

Keywords

Acknowledgement

본 연구는 문화체육관과부 및 한국콘텐츠진흥원의 2020년도 문화기술연구개발 지원사업으로 수행되었음