• 제목/요약/키워드: 적은 데이터셋

검색결과 1,052건 처리시간 0.025초

KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션 (KoQuality: Curation of High-quality Instruction Data for Korean Language Models)

  • 나요한;김다혜;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.306-311
    • /
    • 2023
  • 최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

  • PDF

인조 데이터셋 구축 시스템과 오브젝트 배치 구조에 따른 검출률 분석 (Analysis of detection rate according to the artificial dataset construction system and object arrangement structure)

  • 김상준;이유진;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.74-77
    • /
    • 2021
  • 최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.

  • PDF

KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋 (KoCED: English-Korean Critical Error Detection Dataset)

  • 어수경;최수원;구선민;정다현;박찬준;서재형;문현석;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

품질이 관리된 스트레스 측정용 테이터셋 구축을 위한 제언 (Recommendations for the Construction of a Quslity-Controlled Stress Measurement Dataset)

  • 김태훈;나인섭
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.44-51
    • /
    • 2024
  • 스트레스 측정용 데이터셋의 구축은 건강, 의료분야, 심리향동, 교육분야 등 현대의 다양한 응용 분야에서 핵심적인 역할을 수행하교 있다. 특히, 스트레스 측정용 인공지능 모델의 효율적인 훈련을 위해서는 다양한 편향성을 제거하고 품질 관리된 데이터셋을 구축하는 것이 중요하다. 본 논문에서는 다양한 편향성 제거를 통한 품질의 관리된 스트레스 측정용 데이터셋 구축에 관하여 제안하였다. 이를 위해 스트레스 정의 및 측정도구 소개, 스트레스 인공지능 데이터 셋 구축과정, 품질향상을 위한 편향성 극복 전략 그리고 스트레스 데이터 수집시 고려사항을 제시하였다. 특히, 데이터셋 품질을 관리하기 위해 데이터셋 구축시 고려사항과, 발생할 수 있는 선택편향, 측정편향, 인과관계편향, 확증편향, 인공지능편향과 같은 다양한 편향서에 대해 검토하였다. 본 논문을 통해 스트레스 데이터 수집시 고려사항과 스트레스 데이터셋의 구축에서 발생할 수 있는 다양한 편향성을 체계적으로 이해하고, 이를 극복하여 품질이 보장된 데이터셋을 구축하는데 기여할 것으로 기대된다.

초거대 언어 모델로부터의 추론 데이터셋을 활용한 감정 분류 성능 향상 (Empowering Emotion Classification Performance Through Reasoning Dataset From Large-scale Language Model)

  • 박눈솔;이민호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.59-61
    • /
    • 2023
  • 본 논문에서는 감정 분류 성능 향상을 위한 초거대 언어모델로부터의 추론 데이터셋 활용 방안을 제안한다. 이 방안은 Google Research의 'Chain of Thought'에서 영감을 받아 이를 적용하였으며, 추론 데이터는 ChatGPT와 같은 초거대 언어 모델로 생성하였다. 본 논문의 목표는 머신러닝 모델이 추론 데이터를 이해하고 적용하는 능력을 활용하여, 감정 분류 작업의 성능을 향상시키는 것이다. 초거대 언어 모델(ChatGPT)로부터 추출한 추론 데이터셋을 활용하여 감정 분류 모델을 훈련하였으며, 이 모델은 감정 분류 작업에서 향상된 성능을 보였다. 이를 통해 추론 데이터셋이 감정 분류에 있어서 큰 가치를 가질 수 있음을 증명하였다. 또한, 이 연구는 기존에 감정 분류 작업에 사용되던 데이터셋만을 활용한 모델과 비교하였을 때, 추론 데이터를 활용한 모델이 더 높은 성능을 보였음을 증명한다. 이 연구를 통해, 적은 비용으로 초거대 언어모델로부터 생성된 추론 데이터셋의 활용 가능성을 보여주고, 감정 분류 작업 성능을 향상시키는 새로운 방법을 제시한다. 제시한 방안은 감정 분류뿐만 아니라 다른 자연어처리 분야에서도 활용될 수 있으며, 더욱 정교한 자연어 이해와 처리가 가능함을 시사한다.

  • PDF

대한민국 정부의 코로나 19 브리핑을 기반으로 구축된 수어 데이터셋 연구 (Sign Language Dataset Built from S. Korean Government Briefing on COVID-19)

  • 심호현;성호렬;이승재;조현중
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권8호
    • /
    • pp.325-330
    • /
    • 2022
  • 본 논문은 한국 수어에 대하여 수어 인식, 수어 번역, 수어 영상 시분할과 같은 수어에 관한 딥러닝 연구를 위한 데이터셋의 수집 및 실험을 진행하였다. 수어 연구를 위한 어려움은 2가지로 볼 수 있다. 첫째, 손의 움직임과 손의 방향, 표정 등의 종합적인 정보를 가지는 수어의 특성에 따른 인식의 어려움이 있다. 둘째, 딥러닝 연구를 진행하기 위한 학습데이터의 절대적 부재이다. 현재 알려진 문장 단위의 한국 수어 데이터셋은 KETI 데이터셋이 유일하다. 해외의 수어 딥러닝 연구를 위한 데이터셋은 Isolated 수어와 Continuous 수어 두 가지로 분류되어 수집되며 시간이 지날수록 더 많은 양의 수어 데이터가 수집되고 있다. 하지만 이러한 해외의 수어 데이터셋도 방대한 데이터셋을 필요로 하는 딥러닝 연구를 위해서는 부족한 상황이다. 본 연구에서는 한국 수어 딥러닝 연구를 진행하기 위한 대규모의 한국어-수어 데이터셋을 수집을 시도하였으며 베이스라인 모델을 이용하여 수어 번역 모델의 성능 평가 실험을 진행하였다. 본 논문을 위해 수집된 데이터셋은 총 11,402개의 영상과 텍스트로 구성되었다. 이를 이용하여 학습을 진행할 베이스라인 모델로는 수어 번역 분야에서 SOTA의 성능을 가지고 있는 TSPNet 모델을 이용하였다. 본 논문의 실험에서 수집된 데이터셋에 대한 특성을 정량적으로 보이고, 베이스라인 모델의 실험 결과로는 BLEU-4 score 3.63을 보였다. 또한, 향후 연구에서 보다 정확하게 데이터셋을 수집할 수 있도록, 한국어-수어 데이터셋 수집에 있어서 고려할 점을 평가 결과에 대한 고찰로 제시한다.

동영상 내 객체 추적을 위한 영상 데이터셋 구축 방법 (Building Method an Image Dataset for Tracking Objects in a Video)

  • 김지성;허경용;장시웅
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1790-1796
    • /
    • 2021
  • 영상 딥러닝을 위해서는 다량의 영상 데이터셋이 필요한데, 객체의 종류에 따라 영상을 구하고 영상 데이터셋을 구축하는 방법에 많은 차이가 있다. 본 논문에서는 딥러닝을 위한 영상 데이터셋을 구축하는 방법을 제시하고 추적하는 객체에 따라 달라지는 성능을 분석하였다. 제안하는 데이터셋 구축방법을 활용하여 객체를 회전시킨 후 동영상을 촬영, 분할하여 커스텀 데이터셋을 구축하고, 성능을 분석한 결과 95% 이상의 객체 검출률을 보였으며, 이동 시 객체의 형상 변화가 적은 경우에 더 높은 성능이 나타났다. 영상 데이터를 구하기 어렵고, 형태의 변화가 적은 객체를 동영상 내에서 추적하기 위한 상황을 위하여는 본 논문에서 제시한 데이터셋 구축방법을 활용하는 것이 효과적일 것으로 판단된다.

메타데이터 기반 순위 알고리즘을 활용한 데이터셋 검색 시스템 (Dataset Search System Using Metadata-Based Ranking Algorithm)

  • 최우영;전종훈
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.581-592
    • /
    • 2022
  • 최근 빅데이터 활용에 대한 요구사항이 증대됨에 따라 데이터 분석에 필요한 데이터셋 검색 기술에 관한 관심 또한 늘어나고 있다. 데이터셋 검색을 위해서는 일반 문서 검색과는 달리 데이터셋에 대한 메타데이터에 대한 활용도를 높여야 함에도 불구하고 이를 적극적으로 활용하는 검색 시스템에 관한 연구는 미미한 실정이다. 본 논문에서는 데이터셋의 메타데이터를 색인하고 이를 기반으로 데이터셋 검색을 수행하는 새로운 데이터셋 전용 검색 시스템을 제안한다. 데이터셋 검색결과에 부여하는 순위는 데이터셋 고유의 특성을 반영한 알고리즘을 새로이 고안하여 적용하며, 분석에 필요한 융합 가능한 데이터셋 여러 건을 한꺼번에 검색할 수 있도록 원천 질의에 의해 검색된 데이터셋과 연관 관계에 있는 추가 데이터셋을 검색하는 기능을 제공한다.

POC : 인공지능 기반 균열 탐지를 위한 데이터셋 구축 (POC : Establishing Dataset for Artificial Intelligence-based Crack Detection)

  • 김지호;김경영;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.45-48
    • /
    • 2022
  • 건축물 안전 점검은 대부분 전문가의 현장 방문을 통한 육안검사다. 그중 균열 검사는 건물 위험도를 나타내는 중요한 지표로써 발생 위치, 진행성, 크기를 조사하는데, 최근 균열 조사 방식에 대해 객관성과 체계성을 보완할 딥러닝 개발이 활발하다. 그러나 균열 이미지는 외부 현장에 모양, 규모도 많은 종류라 도메인이 다양해야 하는데 대부분 제한된 환경과 실제적인 균열 검사와는 무관한 데이터로 구성되어 실효적이지 않다. 본 연구에서는 균열 조사에 적합하고 Wild 환경에 적용 가능한 POC 데이터셋을 소개한다. 기존 균열 공인 데이터셋 4종의 특징과 한계점을 분석을 토대로 고해상도 이미지로써 균열의 세부 특징을 담았고 균열 유사 환경과 조건들을 추가 촬영해 균열 검출에 강인하게 학습되도록 지향하였다. 정제 및 라벨링 작업을 거친 POC 데이터 셋은 균열 검출모델인 YOLO-v5으로 성능을 실험하였고, mAP(mean Average Precision) 75.5%로 높은 검출률을 보였다. POC 데이터셋으로 더욱 도메인에 적응적(Domain-adapted)인 인공지능 모델을 개발하여 건물, 댐, 교량 등 각종 대형 건축물에 대한 안전하고 효과적인 안전 관리 도구로써 활용할 것을 기대한다.

  • PDF

계층별 모델 역추론 공격 (Layer-wise Model Inversion Attack)

  • 권현호;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2024
  • 모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.