• Title/Summary/Keyword: HyperCLOVA

Search Result 3, Processing Time 0.018 seconds

HyperCLOVA for Data Generation of Korean Fact Verification (HyperCLOVA를 이용한 한국어 Fact 검증을 위한 자동 데이터 생성)

  • Lee, Jong-Hyeon;Na, Seung-Hoon;Shin, Dongwook;Kim, Seon-Hoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.118-123
    • /
    • 2021
  • 현대 사회에서 소셜 네트워킹 서비스의 증가와 확산은 많은 정보를 쉽고 빠르게 얻을 수 있도록 하였지만 허위·과장 정보의 확산이 큰 문제로 자리잡고 있다. 최근 해외에서는 이들을 자동으로 분류 및 판별하고자하는 Fact 검증 모델에 관한 연구 및 모델 학습을 위한 데이터의 제작 및 배포가 활발히 이루어지고 있다. 그러나 아직 국내에서는 한국어 Fact 검증을 위한 데이터가 많이 부족한 상황이기 때문에 본 논문에서는 최근 좋은 성능을 보이는 openai 의 GPT-3를 한국어 태스크에 적용시킨 HyperCLOVA 를 이용하여 한국어 Fact 검증 데이터 셋을 자동으로 구축하고 이를 최신 Fact 검증 모델들에 적용하였을 때의 성능을 측정 및 분석 하고자 하였다.

  • PDF

Semi-Supervised Data Augmentation Method for Korean Fact Verification Using Generative Language Models (자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축)

  • Jeong, Jae-Hwan;Jeon, Dong-Hyeon;Kim, Seon-Hun;Gang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.105-111
    • /
    • 2021
  • 한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한다. 본 연구는 임의의 근거를 기반으로 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.

  • PDF