• Title/Summary/Keyword: 데이터셋 구축

Search Result 412, Processing Time 0.023 seconds

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

Text Data Mining to build a Dataset for Clothing Recommendation System (옷 추천 시스템 데이터 셋 구축을 위한 텍스트 데이터 마이닝)

  • Lee, Ju-Sang;Chung, Sun-Tae;Cha, Jun-Yup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.393-396
    • /
    • 2020
  • 추천시스템은 대량의 정보를 이용하여 특정 사용자가 선호할만한 상품의 리스트를 추천하는 것이다. 현재 추천시스템으로 유명한 Netflix, Amazon, Youtube 등은 기업내의 상품 및 사용자 데이터를 토대로 이루어 졌으나 스타트 업 및 소규모 기업이 추천 시스템을 구축하기 위해선 기반이 될 데이터셋 자체가 없으며 데이터 수집에도 한계가 있다. 본 논문에서는 옷 추천 시스템 구축을 위해 특정 기업만이 아닌 모든 의류매장들이 사용할 수 있는 데이터 셋 구축 방법에 대해 제안하며, 고객 데이터 셋 구축을 위한 텍스트 데이터 마이닝 처리 과정과 결과에 대해 기술한다.

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

Method of constructing a table search dataset by reconstructing queries assigned to tables (테이블에 할당된 질의 재구성을 통한 테이블 검색 데이터셋 구축 방법)

  • Joosang Lee;Geunyeong Jeong;Juoh Sun;Seokwon Jeong;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.634-638
    • /
    • 2022
  • 테이블은 행과 열로 이루어진 데이터 집합으로, 핵심 정보를 효율적으로 저장하고 표현하기 위해 널리 사용된다. 테이블을 활용하는 다양한 연구 중에서도 테이블 검색은 다른 테이블 관련 연구의 선행 모듈로서 기능하기 때문에 특히 중요하다. 그러나 테이블 검색을 위한 한국어 데이터셋이 전무하여 이에 관한 연구를 수행하기 어렵다. 본 논문은 이러한 문제를 해결하고자 공개된 테이블 질의응답 데이터셋으로부터 테이블에 할당된 질의를 재구성하는 방법을 통해 테이블 검색 데이터셋을 구축한다. 추가로, 검증 모델을 통해 구축된 데이터셋의 유효성을 확인한다.

  • PDF

Dialogue based multimodal dataset including various labels for machine learning research (대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축)

  • Shin, Saim;Jang, Jinyea;Kim, Boen;Park, Hanmu;Jung, Hyedong
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF

A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts (한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구)

  • Seoyoon Park;Yeonji Jang;Yejee Kang;Hyerin Kang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.232-237
    • /
    • 2022
  • 본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

  • PDF

KoCED: English-Korean Critical Error Detection Dataset (KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋)

  • Sugyeong Eo;Suwon Choi;Seonmin Koo;Dahyun Jung;Chanjun Park;Jaehyung Seo;Hyeonseok Moon;Jeongbae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

KMSS: Korean Media Script Dataset for Dialogue Summarization (대화 요약 생성을 위한 한국어 방송 대본 데이터셋 )

  • Bong-Su Kim;Hye-Jin Jun;Hyun-Kyu Jeon;Hye-in Jung;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset (개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지)

  • Yejee Kang;Li Fei;Yeonji Jang;Seoyoon Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

2D Artificial Data Set Construction System for Object Detection and Detection Rate Analysis According to Data Characteristics and Arrangement Structure: Focusing on vehicle License Plate Detection (객체 검출을 위한 2차원 인조데이터 셋 구축 시스템과 데이터 특징 및 배치 구조에 따른 검출률 분석 : 자동차 번호판 검출을 중점으로)

  • Kim, Sang Joon;Choi, Jin Won;Kim, Do Young;Park, Gooman
    • Journal of Broadcast Engineering
    • /
    • v.27 no.2
    • /
    • pp.185-197
    • /
    • 2022
  • Recently, deep learning networks with high performance for object recognition are emerging. In the case of object recognition using deep learning, it is important to build a training data set to improve performance. To build a data set, we need to collect and label the images. This process requires a lot of time and manpower. For this reason, open data sets are used. However, there are objects that do not have large open data sets. One of them is data required for license plate detection and recognition. Therefore, in this paper, we propose an artificial license plate generator system that can create large data sets by minimizing images. In addition, the detection rate according to the artificial license plate arrangement structure was analyzed. As a result of the analysis, the best layout structure was FVC_III and B, and the most suitable network was D2Det. Although the artificial data set performance was 2-3% lower than that of the actual data set, the time to build the artificial data was about 11 times faster than the time to build the actual data set, proving that it is a time-efficient data set building system.