• 제목/요약/키워드: 데이터 셋

검색결과 1,610건 처리시간 0.037초

RFID 미들웨어 평가를 위한 테스트 데이터셋의 품질 지표 (Quality Metrics for RFID Test Dataset to Evaluate RFID Middleware)

  • 류우석;권준호;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.141-143
    • /
    • 2012
  • RFID 미들웨어의 평가를 위한 방법으로서, 테스트 데이터셋을 이용한 시뮬레이션은 일반적으로 사용되는 평가 방법이다. 태그 식별자에 따라 순차생성된 가상 데이터셋이나 랜덤 생성된 데이터셋의 경우 미들웨어의 단순 처리량을 평가하기에는 유용하나 미들웨어의 정확성이나 실행 가능성를 평가하기에는 한계가 있다. 테스트 데이터셋은 실제 리더에서 생성된 데이터셋과 매우 유사하여야 함에도 불구하고, 테스트 데이터셋의 품질 기준이 정의되어 있지 않음에 따라 테스트 데이터셋이 얼마만큼 실제 데이터셋과 유사한 지를 평가하기가 어려운 문제가 있다. 이를 위해 본 논문에서는 RFID 미들웨어의 평가에 사용되는 테스트 데이터셋의 품질을 평가하기 위한 품질 지표를 제안한다. 제안하는 품질 지표는 실제 RFID 리더에 태그가 통과할 때 생성되는 데이터 셋을 기반으로 하여 정의하였으며, RFID 무선 인식의 고유의 특성, 즉 중복성과 불확실성을 수치화해서 표현하는 특징이 있다. 또한 제안한 품질 지표를 실제 RFID 리더를 통해 생성한 데이터셋에 적용하여 비교 검토함으로써 품질 지표의 유용성을 입증한다.

인조 데이터셋 구축 시스템과 오브젝트 배치 구조에 따른 검출률 분석 (Analysis of detection rate according to the artificial dataset construction system and object arrangement structure)

  • 김상준;이유진;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.74-77
    • /
    • 2021
  • 최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.

  • PDF

KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션 (KoQuality: Curation of High-quality Instruction Data for Korean Language Models)

  • 나요한;김다혜;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.306-311
    • /
    • 2023
  • 최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

  • PDF

메타데이터 기반 순위 알고리즘을 활용한 데이터셋 검색 시스템 (Dataset Search System Using Metadata-Based Ranking Algorithm)

  • 최우영;전종훈
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.581-592
    • /
    • 2022
  • 최근 빅데이터 활용에 대한 요구사항이 증대됨에 따라 데이터 분석에 필요한 데이터셋 검색 기술에 관한 관심 또한 늘어나고 있다. 데이터셋 검색을 위해서는 일반 문서 검색과는 달리 데이터셋에 대한 메타데이터에 대한 활용도를 높여야 함에도 불구하고 이를 적극적으로 활용하는 검색 시스템에 관한 연구는 미미한 실정이다. 본 논문에서는 데이터셋의 메타데이터를 색인하고 이를 기반으로 데이터셋 검색을 수행하는 새로운 데이터셋 전용 검색 시스템을 제안한다. 데이터셋 검색결과에 부여하는 순위는 데이터셋 고유의 특성을 반영한 알고리즘을 새로이 고안하여 적용하며, 분석에 필요한 융합 가능한 데이터셋 여러 건을 한꺼번에 검색할 수 있도록 원천 질의에 의해 검색된 데이터셋과 연관 관계에 있는 추가 데이터셋을 검색하는 기능을 제공한다.

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

학습데이터 증폭 소프트웨어 개발 (Development of dataset amplification software)

  • 서경덕;고석주;신재원;박형석;조성윤;김경래
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.664-666
    • /
    • 2020
  • 데이터의 다양성은 학습에 따른 모델의 성능을 좌지우지하는 중요한 요소이다. 그렇기 때문에 많은 양의 데이터를 확보하는 것은 학습에 있어서 아주 중요하다. 하지만, 데이터를 수집하는 것은 시간과 비용이 많이 드는 단계 중 하나이다. 본 논문에서는 제한된 데이터를 가지고 이미지 처리를 거쳐 대량의 데이터로 증폭시켜 많은 양의 데이터를 확보하는 과정에 대해 제안한다. 가지고 있는 YOLOv4용 학습 데이터 셋을 활용하여 사용자로부터 입력받은 확대/축소 비율, 각도로 데이터를 변형하고, 이렇게 추가로 생성된 데이터 셋을 기존 학습 데이터 셋에 재포함시키는 소프트웨어를 개발하는 것을 목표로 한다. 구현된 소프트웨어로 증폭된 대량의 데이터 셋을 다시 원본 학습 데이터 셋에 추가하고, 같은 영상에 대해서 원본 데이터 셋만 학습시킨 경우의 객체 검출 결과와 증폭된 학습 데이터 셋이 포함된 데이터 셋의 경우의 객체 검출 결과를 비교하여 그 성능을 검증하고 분석하도록 한다.

  • PDF

DCAT을 활용한 디지털도서관 데이터셋 관리와 서비스 설계 (Designing Dataset Management and Service System for Digital Libraries Using DCAT)

  • 박진호
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.247-266
    • /
    • 2019
  • 본 연구는 새로운 지식정보자원으로 중요성이 높아지고 있는 데이터셋을 관리 서비스하기 위해 W3C 표준인 DCAT 활용방안을 제시하고자 하였다. 이를 위해 먼저 DCAT을 구성하는 8개의 클래스 중 핵심 클래스 4가지를 중심으로 클래스와 속성을 분석하였다. 또한 디지털도서관에서 DCAT을 기반으로 다양한 데이터셋을 관리 서비스할 수 있는 시스템을 모델링하여 제시하였다. 이 시스템은 원천데이터, 데이터셋 관리, 링크드 데이터 연결, 이용자 서비스로 구분하여 구성하였으며 특히 데이터셋관리에서는 DCAT 매핑 기능을 제시하여 다양한 데이터셋 서비스와 상호운용성 확보가 가능하도록 하였다.

공간 정보를 가지는 데이터셋의 준자동 융합 기법 (Semi-automatic Data Fusion Method for Spatial Datasets)

  • 윤종찬;김한준
    • 한국전자거래학회지
    • /
    • 제26권4호
    • /
    • pp.1-13
    • /
    • 2021
  • 빅데이터 관련 기술이 발달함에 따라 이전에는 처리할 수 없었던 방대한 규모의 데이터를 처리할 수 있게 되었다. 이에 따라 데이터 선정 및 융합 자동화 프로세스 구축은 빅데이터 기반 서비스 구현에 있어 선택이 아닌 필수인 시대가 되었다. 본 논문은 공간 정보를 담고 있는 데이터셋을 융합하여 유의미한 새로운 정보를 생성하기 위한 준자동화 기법을 제안한다. 우선 Node2Vec 모델을 활용하여 주어진 데이터셋의 키워드를 이용해 데이터셋의 임베딩 벡터를 생성한다. 생성된 각 임베딩 벡터를 이용해 코사인 유사도를 계산하여 데이터셋 간의 시멘틱 유사도를 구한다. 이후 사람이 개입하여 그 시멘틱 유사도가 상대적으로 높은 데이터셋 쌍 중에서 공간 정보를 가진 데이터셋을 선별하고, 데이터셋 쌍을 융합하여 시각화한다. 이러한 일련의 준자동 융합 프로세스를 통해 단일 데이터셋으로부터는 얻을 수 없는 유의미한 융합정보를 생성할 수 있음을 보인다.

EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축 (EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision)

  • 이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 (SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP )

  • 김재민;나요한;김강민;이상락;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF