• 제목/요약/키워드: 데이터 증강

검색결과 485건 처리시간 0.026초

데이터 증강을 통한 기계학습 능력 개선 방법 연구 (Study on the Improvement of Machine Learning Ability through Data Augmentation)

  • 김태우;신광성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.346-347
    • /
    • 2021
  • 기계학습을 위한 패턴인식을 위해서는 학습데이터의 양이 많을수록 그 성능이 향상된다. 하지만 일상에서 검출해내야하는 패턴의 종류 및 정보가 항상 많은 양의 학습데이터를 확보할 수는 없다. 따라서 일반적인 기계학습을 위해 적은데이터셋을 의미있게 부풀릴 필요가 있다. 본 연구에서는 기계학습을 수행할 수 있도록 데이터를 증강시키는 기법에 관해 연구한다. 적은데이터셋을 이용하여 기계학습을 수행하는 대표적인 방법이 전이학습(transfer learning) 기법이다. 전이학습은 범용데이터셋으로 기본적인 학습을 수행한 후 목표데이터셋을 최종 단계에 대입함으로써 결과를 얻어내는 방법이다. 본 연구에서는 ImageNet과 같은 범용데이터셋으로 학습시킨 학습모델을 증강된 데이터를 이용하여 특징추출셋으로 사용하여 원하는 패턴에 대한 검출을 수행한다.

  • PDF

조호환경 내 사람 이미지 데이터 증강을 위한 Style-Generative Adversarial Networks 기법 (Style-Generative Adversarial Networks for Data Augmentation of Human Images at Homecare Environments)

  • 박창준;김범준;김인기;곽정환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.565-567
    • /
    • 2022
  • 질병을 앓고 있는 환자는 상태에 따라 병실, 주거지, 요양원 등 조호환경 내 생활 시 의료 인력의 지속적인 추적 및 관찰을 통해 신체에 이상이 생긴 경우 이를 감지하고, 신속하게 조치할 수 있도록 해야 한다. 의료 인력이 직접 환자를 확인하는 방법은 의료 인력의 반복적인 노동이 요구되며 실시간으로 환자를 확인해야 한다는 특성상 의료 인력이 상주해야 하기에 이는 곧, 의료 인력의 부족과 낭비로 이어진다. 해당 문제 해결을 위해 의료 인력을 대신하여 조호환경 내 환자의 상태를 실시간으로 모니터링할 수 있는 딥러닝 모델들이 연구되고 있다. 딥러닝 모델은 데이터의 수가 많을수록 강인한 모델을 설계할 수 있으며, 데이터셋의 배경, 객체의 특징 분포 등 다양한 조건에 영향을 받기 때문에 학습에 필요한 도메인을 가지는 많은 양의 전처리된 데이터를 수집해야 한다. 따라서, 조호환경 내 환자에 대한 데이터셋이 필요하지만, 공개된 데이터셋의 경우 양이 매우 적으며 이를 반전, 회전기법 등을이용할 경우 데이터의 수를 늘릴 수 있지만, 같은 분포의 특징을 가지는 데이터가 생성되기에 데이터 증강 기법을 단순하게 적용하면 딥러닝 모델의 과적합을 야기한다. 또한, 조호환경 내 이미지 데이터셋은 얼굴 노출과 같은 개인정보가 포함 될 수 있으며 이를 보호하기 위해 정보들을 비식별화 해야 한다는 문제점이 있다. 따라서 본 논문에서는 조호환경에서 수집된 데이터 증강을 위한 Style-Generative Adversarial Networks 기법을 적용하여 조호환경 데이터셋 수집에 효과적인 증강 기법을 제안한다.

객체 중심 증강 기법을 사용한 목조 문화재 영상에서의 변위 감지 모델 (An Displacement Detection Model in Cultural Asset Images using Object-centric Augmentation)

  • 강재용;김인기;임현석;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.137-139
    • /
    • 2021
  • 본 논문에서는 목조 문화재 영상에서의 변위를 효율적으로 감지하기 위한 객체 중심 증강 기법을 사용한 모델을 제안한다. 우선 객체 중심 증강 기법을 적용하여 변위 객체들이 이미지 공간상의 어느 곳이든 위치할 수 있게끔 데이터를 구성한 이후 사전 학습된 합성 곱 신경망을 사용하여 입력 이미지에 대한 심층 특징 벡터를 추출한다. 그 이후 심층 특징 벡터는 완전 연결 계층의 입력 값으로 들어와서 최종적으로 변위가 존재하는지 아닌지에 대한 예측을 수행하게 된다. 데이터 셋으로는 충주시 근처의 문화재에 방문해서 수집한 목조 문화재 이미지를 가지고 정상 및 비정상으로 구분한 데이터 셋을 사용하였다. 실험 결과 우리가 제안한 객체 중심 증강 기법을 사용한 모델이 객체 중심 증강 기법을 사용하지 않은 모델보다 목조 문화재에서 변위 영역을 더 잘 감지함을 확인하였다. 이러한 결과로부터 우리가 제안한 방법이 목재 문화재의 변위 검출에 있어서 매우 적합함을 보여준다.

  • PDF

Classification of Infant Crying Audio based on 3D Feature-Vector through Audio Data Augmentation

  • JeongHyeon Park;JunHyeok Go;SiUng Kim;Nammee Moon
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.47-54
    • /
    • 2023
  • 영아는 비언어적 의사 소통 방식인 울음이라는 수단을 사용한다[1]. 하지만 영아의 울음소리를 파악하는 것에는 어려움이 따른다. 영아의 울음소리를 해석하기 위해 많은 연구가 진행되었다[2,3]. 이에 본 논문에서는 다양한 음성 데이터 증강을 통한 3D 특징 벡터를 이용한 영아의 울음소리 분류를 제안한다. 연구에서는 총 5개의 클래스 복통, 하품, 불편함, 배고픔, 피곤함(belly pain, burping, discomfort, hungry, tired)로 분류된 데이터 세트를 사용한다. 데이터들은 5가지 기법(Pitch, Tempo, Shift, Mixup-noise, CutMix)을 사용하여 증강한다. 증강 기법 중에서 Tempo, Shift, CutMix 기법을 적용하였을 때 성능의 향상을 보여주었다. 최종적으로 우수한 데이터 증강 기법들을 동시 적용한 결과 단일 특징 벡터와 오리지널 데이터를 사용한 모델보다 17.75%의 성능 향상을 도출하였다.

디퓨전 오토인코더의 시선 조작 데이터 증강을 통한 시선 추적 (Gaze-Manipulated Data Augmentation for Gaze Estimation With Diffusion Autoencoders)

  • 문강륜;김영한;박용준;김용규
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.51-59
    • /
    • 2024
  • 시선 벡터 정답값을 갖는 대규모 데이터의 수집은 시선 추적 분야에서 많은 비용을 필요로 한다. 본 논문에서는 원본 사진의 시선을 수정하는 데이터 증강 기법을 사용하여 제한된 개수의 시선 정답값이 주어진 상황에서 시선 추적 모델의 정확도를 향상시키는 방법을 제안한다. 시선 구간 다중 클래스 분류를 보조 작업으로 학습하고, 디퓨전 오토인코더의 잠재 변수를 조정하여 원본 사진의 시선을 편집한 사진을 생성한다. 기존의 얼굴 속성 편집과 달리, 우리는 이진 속성이 아닌 시선 벡터의 피치와 요를 지정한 범주 내로 변경하며, 편집된 사진을 시선 추적 모델의 증강된 학습 데이터로 활용한다. 시선 정답값이 5만 개 이하일 때 준지도 학습에서의 시선 추적 모델의 정확도 향상은 제안한 데이터 증강 기법의 효과를 입증한다.

DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템 (Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data)

  • 유광훈;황창회;윤정우;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF

증강된 질문을 이용한 RoBERTa 기반 Dense Passage Retrieval (Dense Retrieval using Pretrained RoBERTa with Augmented Query)

  • 박준범;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.141-145
    • /
    • 2022
  • 다중 문서 기반 대화 시스템에서 응답 시스템은 올바른 답변을 생성하기 위해서 여러 개의 문서 중 질문과 가장 관련 있는 문서를 검색하는 것부터 시작해야 한다. DialDoc 2022 Shared Task[1]를 비롯한 최근의 연구들은 대화 시스템의 문서 검색 과정을 위해 Dense Passage Retrieval(DPR)[2] 모델을 사용하고 있으며 검색기의 성능 개선을 위해 Re-ranking과 Hard negative sampling 같은 방법들이 연구되고 있다. 본 논문에서는 문서에 기반하는 대화 데이터의 양이 적거나 제한될 경우, 주어진 데이터를 효율적으로 활용해 보고자 검색기를 생성 모델을 이용하여 문서의 엔티티를 기반으로 질문을 생성하고 기존 데이터에 증강하는 방법을 제시했으며 실험의 결과로 MRR metric의 경우 0.96 ~ 1.56의 성능 향상을, R@1 metric의 경우 1.2 ~ 1.57의 성능 향상을 확인하였다.

  • PDF

증강현실을 이용한 치매예방 놀이 프로그램 연구 (A Study on the Dementia Prevention Program Using Augmented Reality)

  • 이명숙;최해원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.189-192
    • /
    • 2020
  • 본 논문은 요양원·요양병원에 입원한 노인들을 위한 실행능력중심 기능성 스마트 게임기기 및 데이터를 관리할 수 있는 시스템을 개발하고자 한다. 시스템은 증강현실 기반의 스마트맵, 동작 감응형 스마트 스틱, 스마트 명령과 연동하는 로봇, 이러한 게임 콘텐츠로 동작되는 모든 기기에서 나오는 데이터를 수집·관리·분석하는 정보 측정 및 분석 시스템으로 동작되는 시스템을 설계하였다. 이 시스템을 통해 한국이나 일본의 노인병원에서 간절히 필요로 하는 요양보호사 없이 노인들끼리 셀프 진행 가능하고 재미있는 기능성 콘텐츠의 수요를 만족시켜 줄 수 있을 것이다. 또한 치매와 같이 완벽한 치료가 불가능한 질병에도 증상악화를 늦추는 효과가 있으리라 예상한다. 향후 시스템을 개발하여 직접 실험을 하면서 다양한 데이터 수집을 통해 빅데이터로 활용하여 보다 전문적이고 효율적인 재활을 진행할 것이다.

  • PDF

증강 그래프 기반 그래프 뉴럴 네트워크를 활용한 POI 추천 모델 (Next POI Recommendation based on Graph Neural Network of Augmented Graph)

  • 정현지;장광선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.16-18
    • /
    • 2023
  • 본 연구는 궤적 데이터(trajectory data)를 대상으로 증강 그래프 기반의 그래프 뉴럴 네트워크를 활용하여 다음에 방문한 장소를 추천하는 모델을 제안한다. 제안 모델은 전체 궤적 데이터를 그래프로 표현하여 추출한 글로벌 궤적 플로우의 특성을 다음 방문할 POI 추천에 활용한다. 이때, POI 추천시 자주 발생하는 두 가지 문제를 추가로 해결함으로써 POI 추천의 정확도를 높이는 것을 목표로 한다. 첫 번째 문제는 추천 대상 궤적 데이터의 길이가 짧은 경우에 성능 저하가 발생한다는 것이다. 두 번째 문제는 콜드-스타트 문제이다. 기존 POI 추천 모델은 매우 적은 방문 기록만 가지는 사용자 또는 POI에 대해서는 매우 낮은 예측 성능을 보인다. 본 연구에서는 궤적 그래프에서 일부 엣지를 삭제하여 생성한 증강 그래프 기반의 궤적 플로우 특징 기반 모델을 제안함으로써 짧은 길이의 궤적 데이터 및 콜드-스타트 사용자/POI에 대한 추천 성능을 높인다.

RoBERTa 기반 데이터 증강을 통한 국내 학술 논문 분야 분류 연구 (Classification of Domestic Academic Papers Through RoBERTa-based Data Augmentation)

  • 김성식;양진환;최혁순;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1211-1212
    • /
    • 2023
  • 현재 대부분의 국내 학술 데이터 베이스는 개별 학술지 논문의 주제를 파악하는 표준화된 정보를 거의 제공하지 않고 있다. 본 연구에서는 논문의 제목만을 활용하여 학술 논문의 분야를 자동으로 분류하는 방법을 제안한다. 이를 위해 한국어로 사전 훈련된 KLUE-RoBERTa 모델을 사용하며, Back Translation 과 Chat-GPT 를 활용한 데이터 증강을 통해 모델의 성능을 향상한다. 연구 결과, Back Translation 과 Chat-GPT 를 사용하여 증강한 모델이 원본 데이터를 학습한 모델보다 약 11%의 성능 향상을 보였다.