• 제목/요약/키워드: 적은 데이터셋

검색결과 1,063건 처리시간 0.032초

Object Detection Model 적용성 확대를 위한 BoundingBox 이미지 증강 GUI 프로그램 연구 (Implementation and Design of Bounding Box Image Augmentation GUI Program for expanding Object Detection Models' applicability)

  • 전진영;민연아
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.539-540
    • /
    • 2022
  • 본 논문에서는 Bounding Box가 포함된 증강 이미지 데이터셋을 손쉽게 생성할 수 있는 독립형 GUI 프로그램을 제안한다. 본 논문의 연구를 통하여 직관적인 마우스 클릭 동작만으로 적은 수의 이미지 파일과 annotation 파일로부터 필요한 만큼의 증강 이미지 데이터셋을 짧은 시간 내에 생성하고, 다양한 아키텍처의 학습용 이미지 데이터셋 증강에 적용할 수 있다.

  • PDF

데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로 (Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.135-142
    • /
    • 2009
  • 테이터 마이닝은 대용량의 데이터 셋을 분석하기 위하여 새로운 이론, 기법, 분석 툴을 제공하는 전산 지능분야의 새로운 영역중 하나이다. 데이터 마이닝의 주요 기법으로는 연관규칙 탐사, 분류, 클러스터링 등이 있다. 그러나 이들 기법을 기존 연구 방법들처럼 개별적으로 사용하는 것보다는 통합화하여 규칙들을 자동적으로 발견해내는 방법론이 필요하다. 이런 데이터 규칙 추출 방법론은 대량의 데이터들을 분석하여 성공적인 의사결정을 내리는데 도움을 줄 수 있기에 많은 분야에 이용될 수 있다. 본 논문에서는 계층적 클러스터링 알고리듬과 러프셋 이론을 이용하여 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 자동적인 규칙 추출 방법론을 제안한다. 또한 UCI KDD 아카이브에 포함되어 있는 데이터 셋을 이용하여 제안하는 방법에 대하여 실험을 수행하였으며, 실제 생성된 규칙들을 예시하였다. 이들 자동 생성된 규칙들은 효율적인 의사결정에 도움을 준다.

손을 다루는 컴퓨터 비전 작업들을 위한 멀티 모달 합성 데이터 생성 방법 (Generating A Synthetic Multimodal Dataset for Vision Tasks Involving Hands)

  • 이창화;이선경;김동욱;정찬양;백승렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1052-1055
    • /
    • 2020
  • 본 논문에서는 3D 메시 정보, RGB-D 손 자세 및 2D/3D 손/세그먼트 마스크를 포함하여 인간의 손과 관련된 다양한 컴퓨터 비전 작업에 사용할 수 있는 새로운 다중 모달 합성 벤치마크를 제안 하였다. 생성된 데이터셋은 기존의 대규모 데이터셋인 BigHand2.2M 데이터셋과 변형 가능한 3D 손 메시(mesh) MANO 모델을 활용하여 다양한 손 포즈 변형을 다룬다. 첫째, 중복되는 손자세를 줄이기 위해 전략적으로 샘플링하는 방법을 이용하고 3D 메시 모델을 샘플링된 손에 피팅한다. 3D 메시의 모양 및 시점 파라미터를 탐색하여 인간 손 이미지의 자연스러운 가변성을 처리한다. 마지막으로, 다중 모달리티 데이터를 생성한다. 손 관절, 모양 및 관점의 데이터 공간을 기존 벤치마크의 데이터 공간과 비교한다. 이 과정을 통해 제안된 벤치마크가 이전 작업의 차이를 메우고 있음을 보여주고, 또한 네트워크 훈련 과정에서 제안된 데이터를 사용하여 RGB 기반 손 포즈 추정 실험을 하여 생성된 데이터가 양질의 질과 양을 가짐을 보여준다. 제안된 데이터가 RGB 기반 3D 손 포즈 추정 및 시맨틱 손 세그멘테이션과 같은 품질 좋은 큰 데이터셋이 부족하여 방해되었던 작업에 대한 발전을 가속화할 것으로 기대된다.

크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가 (A Crowdsourcing-Based Paraphrased Opinion Spam Dataset and Its Implication on Detection Performance)

  • 이성운;김성순;박동현;강재우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.338-343
    • /
    • 2016
  • 웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터 셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸 분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.

입력공간 분담에 의한 네트워크들의 앙상블 알고리즘 (Ensemble of Specialized Networks based on Input Space Partition)

  • 신현정;이형주;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2000년도 추계학술대회 및 정기총회
    • /
    • pp.33-36
    • /
    • 2000
  • 관찰학습(OLA: Observational Learning Algorithm)은 앙상블 네트워크의 각 구성 모델들이 다른 모델들을 관찰함으로써 얻어진 가상 데이터와 초기에 bo otstrap된 실제 데이터를 학습에 함께 이용하는 방법이다. 본 논문에서는, 초기 학습 데이터 셋을 분할하고 분할된 각 데이터 셋에 대하여 앙상블의 구성 모델들을 전문화(specialize)시키는 방법을 적용하여 기존의 관찰학습 알고리즘을 개선시켰다. 제안된 알고리즘은 bagging 및 boosting과의 비교실험에 의하여, 보다 적은 수의 구성 모델로 동일 내지 보다 나은 성능을 나타냄이 실험적으로 검증되었다.

  • PDF

전문화된 네트워크들의 결합에 의한 앙상블 학습 알고리즘 (Ensemble Learning Algorithm of Specialized Networks)

  • 신현정;이형주;조성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.308-310
    • /
    • 2000
  • 관찰학습(OLA: Observational Learning Algorithm)은 앙상블 네트워크의 각 구성 모델들이 아른 모델들을 관찰함으로써 얻어진 가상 데이터와 초기에 bootstrap된 실제 데이터를 학습에 함께 이용하는 방법이다. 본 논문에서는, 초기 학습 데이터 셋을 분할하고 분할된 각 데이터 셋에 대하여 앙상블의 구성 모델들을 전문화(specialize)시키는 방법을 적용하여 기존의 관찰학습 알고리즘을 개선시켰다. 제안된 알고리즘은 bagging 및 boosting과의 비교 실험에 의하여, 보다 적은 수의 구성 모델로 동일 내지 보다 나은 성능을 나타냄이 실험적으로 검증되었다.

  • PDF

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

머신러닝을 위한 데이터셋 수집 RPA 개발 (Development of Dataset Cllection RPA for Machine Learning)

  • 김기태;서보인;윤상혁;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.295-296
    • /
    • 2020
  • 본 논문에서는 RPA(Robotic Process Automation) Tool 개발 과정 중 머신 러닝, 딥러닝에 필요한 이미지 크롤링 및 전처리 기능을 이용한 가공된 데이터 셋 처리 과정을 기술한다. 개발된 RPA 툴에서 머신러닝 및 딥러닝에 사용될 데이터 확보 기능을 제공하며, 세부적으로 이미지 전처리(Convert Gray, Histogram Equalization, Binary, Resize)등 반복적으로 사용되는 기능들을 제공한다. 개발된 툴을 통해 RPA의 자동화 기능과, 전처리 기능의 융합을 통해 업무의 효율성을 제공한다.

  • PDF

한국어-영어 공감대화 데이터셋과 성격을 기반으로 한 언어모델 평가 (Language Model Evaluation Based on Korean-English Empathetic Dialogue Datasets and Personality)

  • 이영준;현종환;이도경;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.312-318
    • /
    • 2023
  • 본 연구는 다양한 대규모 언어 모델들의 한국어/영어 공감 대화 생성에서 성능을 실험적으로 비교 분석하는 것과 개인의 성향과 공감 사이에서의 상관 관계를 실험적으로 분석하는 것을 목표로 한다. 이를 위해, 한국어 공감 대화 데이터셋인 KorEmpatheticDialogues 를 구축하였고, personality-aware prompting 방법을 제안한다. 실험을 통해, 총 18개의 언어 모델들 간의 공감 대화 생성 성능을 비교 분석하였고, 개인의 성향에 맞춤형 제공하는 공감이 더 상호작용을 이끌어낼 수 있다는 점을 보여준다. 코드와 데이터셋은 게재가 허용되면 공개할 예정이다.

  • PDF

데이터 시각화 기반의 UCI Sensor Data 분석 (UCI Sensor Data Analysis based on Data Visualization)

  • 장일식;최희조;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.21-24
    • /
    • 2020
  • 대용량의 데이터를 시각적 요소를 활용하여 눈으로 볼 수 있도록 하는 데이터 시각화에 대한 관심이 꾸준히 증가하고 있다. 데이터 시각화는 데이터의 전처리를 거쳐 차원 축소를 하여 데이터의 분포를 시각적으로 확인할 수 있다. 공개된 데이터 셋은 캐글(kaggle), 아마존 AWS 데이터셋(Amazon AWS datasets), UC 얼바인 머신러닝 저장소(UC irvine machine learning repository)등 다양하다. 본 논문에서는 UCI의 화학 가스의 데이터셋을 이용하여 딥러닝을 이용하여 다양한 환경 및 조건에서의 학습을 통한 데이터분석 및 학습 결과가 좋을 경우와 그렇지 않을 경우의 마지막 레이어의 특징 벡터를 시각화하여 직관적인 결과를 확인 가능 하도록 하였다. 또한 다차원 입력 데이터를 시각화 함으로써 시각화 된 결과가 딥러닝의 학습결과와 연관이 있는지를 확인 한다.

  • PDF