• 제목/요약/키워드: 데이터셋 생성

검색결과 396건 처리시간 0.028초

RFID 미들웨어 평가를 위한 테스트 데이터셋의 품질 지표 (Quality Metrics for RFID Test Dataset to Evaluate RFID Middleware)

  • 류우석;권준호;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.141-143
    • /
    • 2012
  • RFID 미들웨어의 평가를 위한 방법으로서, 테스트 데이터셋을 이용한 시뮬레이션은 일반적으로 사용되는 평가 방법이다. 태그 식별자에 따라 순차생성된 가상 데이터셋이나 랜덤 생성된 데이터셋의 경우 미들웨어의 단순 처리량을 평가하기에는 유용하나 미들웨어의 정확성이나 실행 가능성를 평가하기에는 한계가 있다. 테스트 데이터셋은 실제 리더에서 생성된 데이터셋과 매우 유사하여야 함에도 불구하고, 테스트 데이터셋의 품질 기준이 정의되어 있지 않음에 따라 테스트 데이터셋이 얼마만큼 실제 데이터셋과 유사한 지를 평가하기가 어려운 문제가 있다. 이를 위해 본 논문에서는 RFID 미들웨어의 평가에 사용되는 테스트 데이터셋의 품질을 평가하기 위한 품질 지표를 제안한다. 제안하는 품질 지표는 실제 RFID 리더에 태그가 통과할 때 생성되는 데이터 셋을 기반으로 하여 정의하였으며, RFID 무선 인식의 고유의 특성, 즉 중복성과 불확실성을 수치화해서 표현하는 특징이 있다. 또한 제안한 품질 지표를 실제 RFID 리더를 통해 생성한 데이터셋에 적용하여 비교 검토함으로써 품질 지표의 유용성을 입증한다.

공간 정보를 가지는 데이터셋의 준자동 융합 기법 (Semi-automatic Data Fusion Method for Spatial Datasets)

  • 윤종찬;김한준
    • 한국전자거래학회지
    • /
    • 제26권4호
    • /
    • pp.1-13
    • /
    • 2021
  • 빅데이터 관련 기술이 발달함에 따라 이전에는 처리할 수 없었던 방대한 규모의 데이터를 처리할 수 있게 되었다. 이에 따라 데이터 선정 및 융합 자동화 프로세스 구축은 빅데이터 기반 서비스 구현에 있어 선택이 아닌 필수인 시대가 되었다. 본 논문은 공간 정보를 담고 있는 데이터셋을 융합하여 유의미한 새로운 정보를 생성하기 위한 준자동화 기법을 제안한다. 우선 Node2Vec 모델을 활용하여 주어진 데이터셋의 키워드를 이용해 데이터셋의 임베딩 벡터를 생성한다. 생성된 각 임베딩 벡터를 이용해 코사인 유사도를 계산하여 데이터셋 간의 시멘틱 유사도를 구한다. 이후 사람이 개입하여 그 시멘틱 유사도가 상대적으로 높은 데이터셋 쌍 중에서 공간 정보를 가진 데이터셋을 선별하고, 데이터셋 쌍을 융합하여 시각화한다. 이러한 일련의 준자동 융합 프로세스를 통해 단일 데이터셋으로부터는 얻을 수 없는 유의미한 융합정보를 생성할 수 있음을 보인다.

인조 데이터셋 구축 시스템과 오브젝트 배치 구조에 따른 검출률 분석 (Analysis of detection rate according to the artificial dataset construction system and object arrangement structure)

  • 김상준;이유진;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.74-77
    • /
    • 2021
  • 최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.

  • PDF

딥러닝 기반의 한글 폰트 연구를 위한 한글 폰트 데이터셋 (Hangul Font Dataset for Korean Font Research Based on Deep Learning)

  • 고홍희;이현수;석정재;;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.73-78
    • /
    • 2021
  • 최근 딥러닝에 대한 관심이 증가하면서 이를 이용한 다양한 분야에서 연구가 진행되고 있다. 그러나 딥러닝 기반의 생성 모델을 이용하는 폰트의 자동 생성 연구들은 로마자 및 한자와 같은 몇 언어들에 국한되어 연구되고 있다. 한글 폰트 디자인은 매우 큰 시간과 비용이 들어가는 작업으로, 딥러닝을 이용하면 손쉽게 생성할 수 있다. 한글 폰트를 생성하는 연구는 딥러닝 기반의 생성 모델들과 발맞추기 위해 프로세스 자동화 관점에서 한글 폰트 데이터셋을 준비하는 것이 중요하다. 이를 위하여 본 논문에서는 딥러닝 기반의 한글 폰트 연구를 위한 한글 폰트 데이터셋을 제안하고. 그 데이터셋을 구성하는 방법을 기술한다. 본 논문에서 제안하는 한글 폰트 데이터셋을 기반으로 딥러닝 한글 폰트 생성 어플리케이션에 적용하는 과정을 통해 제안하는 데이터셋 구성의 유용성을 보인다.

해무 제거 학습을 위한 가상 해무 데이터셋 생성 및 유효성 검증 연구

  • 전영수;김현철;이상훈;오세웅;옥수열
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.103-105
    • /
    • 2022
  • 인공지능을 기반으로 한 안개를 제거하는 기술은 많은 연구가 있다. 하지만 대부분의 연구가 육상을 타겟으로 하고 있기 때문에 해상에 발생하는 해무를 제거하기 위한 데이터 셋은 현저히 부족하다. 이를 해결하기 위해 가상의 해무를 생성하여 데이터 셋을 생성하고 유효성 검증을 하는 방법에 대하여 연구하였다.

  • PDF

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

판결문 자동요약을 위한 학습 데이터의 품질 개선방안 (Method to improve the Quality of Training Data for Automatic Summarization of Judgments)

  • 고상영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2022
  • 법원도서관이 발간하는 판례공보를 기반으로 판결문 자동요약을 위한 학습 데이터들이 구축되고 있다. 그런데 판결문 요약에서는 뉴스 요약과는 달리 추출요약과 생성요약 방식이 함께 사용되는 특수성이 있고, 이러한 특수성 때문에 현재 판결문 요약 데이터셋이 요약 프로그램의 성능 향상을 이끌지 못하고 있다고 생각된다. 따라서 법률가들이 판결문을 요약하는 방식을 반영하여, 추출요약 방식으로 작성된 판결요지와 생성요약 방식으로 작성된 판결요지를 분리해서 요약 데이터셋을 만들 필요가 있다. 추출요약과 생성요약에 관한 데이터셋을 따로 구축하기 위해서는 판례공보의 판결요지를 추출요약과 생성요약으로 분류하는 작업이 필요한데, 감성 분석에 사용되는 알고리즘이 판결요지의 분류 작업에 응용될 수 있다는 것을 실험 결과로 알 수 있었다.

  • PDF

A Study on Construction Method of AI based Situation Analysis Dataset for Battlefield Awareness

  • Yukyung Shin;Soyeon Jin;Jongchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.37-53
    • /
    • 2023
  • 인공지능에 기반한 지능형 지휘통체체계는 복잡하고 방대한 전장정보와 전술 데이터들을 학습모델을 통해 자동으로 융합 및 추출하여 전장상황을 분석한다. 지휘관은 지능형 지휘통제체계의 상황분석 결과를 제공받아 전장인식이 가능하여 의사결정을 지원할 수 있다. 의사결정지원에 특화된 결과를 지휘관에게 제공하기 위해서는 인공지능을 학습하기 위한 실 전장상황과 유사한 전장상황분석 데이터셋 생성이 필요하다. 본 논문은 기존 선행연구인 '인공지능 기반 전장상황분석을 위한 가상 전장상황 데이터 셋 생성 연구'의 다음 단계의 데이터셋 구축 방법 연구로 지휘관의 의사결정지원 및 미래 전장인식을 위해 최종적인 전장상황분석 결과에 필요한 데이터셋을 생성하는 방안에 대해 제안하였다. 전장상황 분석용 학습 데이터셋 생성도구 SW를 설계 및 구현하였고, 구현한 SW를 이용하여 데이터 레이블 작업을 진행하였다. Siamese Network 학습모델을 이용하여 구축한 데이터셋을 입력하고, 후처리 알고리즘을 활용한 출력 결과를 도출하여 생성한 데이터셋을 검증하였다.

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF