KoCED: English-Korean Critical Error Detection Dataset

KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋

  • Sugyeong Eo (Korea University) ;
  • Suwon Choi (Hankuk University of Foreign Studies) ;
  • Seonmin Koo (Korea University) ;
  • Dahyun Jung (Hankuk University of Foreign Studies) ;
  • Chanjun Park (Upstage) ;
  • Jaehyung Seo (Korea University) ;
  • Hyeonseok Moon (Korea University) ;
  • Jeongbae Park (Korea University) ;
  • Heuiseok Lim (Korea University)
  • 어수경 (고려대학교) ;
  • 최수원 (한국외국어대학교) ;
  • 구선민 (고려대학교) ;
  • 정다현 (한국외국어대학교) ;
  • 박찬준 (업스테이지) ;
  • 서재형 (고려대학교) ;
  • 문현석 (고려대학교) ;
  • 박정배 (고려대학교) ;
  • 임희석 (고려대학교)
  • Published : 2022.10.18

Abstract

최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었으며(IITP-2022-2018-0-01405), 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425).