• 제목/요약/키워드: 불균형데이터 처리

검색결과 121건 처리시간 0.027초

시각-언어 이동 에이전트를 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning and Reinforcement Learning for Visual-Language Navigation Agents)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이타에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델은 서로 다른 두 학습 간에 발생 가능한 학습 불균형도 고려하여 손실 정규화를 포함하고 있다. 또, 제안 모델에서는 기존 연구들에서 사용되어온 목적지 기반 보상 함수의 문제점을 발견하고, 이를 해결하기 위해 설계된 새로은 최적 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실들을 통해, 제안 모델의 높은 성능을 입증하였다.

소수 클래스 데이터 증강을 통한 BERT 기반의 유형 분류 모델 성능 개선 (Bert-based Classification Model Improvement through Minority Class Data Augmentation)

  • 김정우;장광호;이용태;박원주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.810-813
    • /
    • 2020
  • 자연어처리 분야에서 딥러닝 기반의 분류 모델은 획기적인 성능을 보여주고 있다. 특히 2018 년 발표된 구글의 BERT 는 다양한 태스크에서 높은 성능을 보여준다. 본 논문에서는 이러한 BERT 가 클래스 불균형이 심한 데이터에 대해 어느 정도 성능을 보여주는지 확인하고 이를 해결하는 방법으로 EDA 를 선택해 성능을 개선하고자 한다. BERT 에 알맞게 적용하기 위해 다양한 방법으로 EDA 를 구현했고 이에 대한 성능을 평가하였다.

데이터 증강을 통한 안전모 착용 여부 확인 객체 탐지 모델 성능 향상 연구 (A study on the improvement of Object Detection Model via Data Augmentation)

  • 조재호;이현준;전광휘;오민택;윤상범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1102-1103
    • /
    • 2023
  • 안전모 착용 여부를 확인하는 객체 탐지 모델을 물류 현장에서 활용하기 위해서는 안전모를 착용한 경우와 착용하지 않은 경우를 정확하게 탐지해야 한다. 하지만 학습 데이터가 안전모를 착용한 클래스와 착용하지 않은 클래스 간 불균형이 존재하는 경우 해당 데이터만으로는 태스크에 맞게 학습이됐다고 보긴 힘들다. 본 연구는 데이터 증강 기법 적용 시 임의의 데이터에 증강을 적용하는 대신 상대적으로 적은 안전모를 착용하지 않은 클래스를 포함하는 이미지에 대하여 데이터 증강 기법을 적용하였다. 여러 데이터 증강 기법 중 Rotation, Gaussian Noise, 객체를 기준으로 한 Crop을 직접 구현 및 적용하여 객체 탐지 모델인 YOLOv5의 성능을 효과적으로 높이며 더욱 강건한 모델을 개발하는 방법을 제안한다.

대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류 (Emotion and Speech Act classification in Dialogue using Multitask Learning)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF

소량 및 불균형 능동소나 데이터세트에 대한 딥러닝 기반 표적식별기의 종합적인 분석 (Comprehensive analysis of deep learning-based target classifiers in small and imbalanced active sonar datasets)

  • 김근환;황용상;신성진;김주호;황수복;추영민
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.329-344
    • /
    • 2023
  • 본 논문에서는 소량 및 불균형 능동소나 데이터세트에 적용된 다양한 딥러닝 기반 표적식별기의 일반화 성능을 종합적으로 분석하였다. 서로 다른 시간과 해역에서 수집된 능동소나 실험 데이터를 이용하여 두 가지 능동소나 데이터세트를 생성하였다. 데이터세트의 각 샘플은 탐지 처리 이후 탐지된 오디오 신호로부터 추출된 시간-주파수 영역 이미지이다. 표적식별기의 신경망 모델은 다양한 구조를 가지는 22개의 Convolutional Neural Networks(CNN) 모델을 사용하였다. 실험에서 두 가지 데이터세트는 학습/검증 데이터세트와 테스트 데이터세트로 번갈아 가며 사용되었으며, 표적식별기 출력의 변동성을 계산하기 위해 학습/검증/테스트를 10번 반복하고 표적식별 성능을 분석하였다. 이때 학습을 위한 초매개변수는 베이지안 최적화를 이용하여 최적화하였다. 실험 결과 본 논문에서 설계한 얕은 층을 가지는 CNN 모델이 대부분의 깊은 층을 가지는 CNN 모델보다 견실하면서 우수한 일반화 성능을 가지는 것을 확인하였다. 본 논문은 향후 딥러닝 기반 능동소나 표적식별 연구에 대한 방향성을 설정할 때 유용하게 사용될 수 있다.

그리드 데이터베이스에서 질의 전달 최적화를 위한 캐쉬 관리 기법 (Cache Management Method for Query Forwarding Optimization in the Grid Database)

  • 신숭선;장용일;이순조;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.13-25
    • /
    • 2007
  • 그리드 데이터베이스에서는 질의 전달 최적화를 위해 캐쉬를 사용한다. 캐쉬에 빈번히 사용되는 데이터의 메타 정보를 메타 데이터베이스에서 가져와 캐싱하며, 캐싱된 정보를 통하여 질의 전달의 비용을 감소시킨다. 기존의 캐쉬 관리 기법은 질의 전달 시 복제본의 사용빈도를 고려하지 않은 데이터의 임의의 메타 정보를 캐싱하기 때문에 사용이 불균형적인 문제가 있다. 그리고, 원본 데이터가 변경되었을 경우에 기존의 메타정보를 가진 캐쉬를 통하여 질의가 타 노드로 잘못 전달되며 이러한 과정은 여러 노드에서 반복 수행되어 네트워크 비용을 증가시킨다. 따라서 기존의 캐쉬 관리 기법은 복제본의 사용비율 불균형과 타 노드로의 잘못된 질의 전달로 인한 네트워크 비용 증가 문제의 해결이 필요하다. 본 논문에서는 질의 전달 최적화를 위한 캐쉬 관리 기법을 제안한다. 제안 기법은 캐쉬 매니저라는 관리 프로세서를 사용하여 캐쉬를 관리한다. 캐쉬 매니저는 자주 사용되는 복제본이 저장된 노드의 사용빈도를 비교하여 적게 사용된 노드의 복제본 메타 정보를 캐싱함으로써 질의 전달을 최적화한다. 또한 캐쉬 매니저를 통해 타 노드로 잘못 전달되는 질의를 줄여 질의 처리 시간을 단축하고 네트워크 비용을 줄인다. 제안 기법은 성능평가를 통해 네트워크 비용과 처리시간이 감소되어 기존의 방식에 비하여 향상된 성능을 보인다.

  • PDF

SVM 모델을 이용한 3차원 패치 기반 단백질 상호작용 사이트 예측기법 (Prediction of Protein-Protein Interaction Sites Based on 3D Surface Patches Using SVM)

  • 박성희
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.21-28
    • /
    • 2012
  • 모노머 단백질의 상호작용 사이트 예측은 기능을 알지 못하는 단백질에 대해서 이것과 상호작용하는 단백질로부터 기능을 예측하거나 단백질 도킹을 위한 검색 공간의 감소에 중요한 역할을 한다. 그러나 상호작용사이트 예측은 대부분 단백질 상호작용이 세포 내에서 순간적 반응에 일어나는 약한 상호작용으로 실험에 의한 3차원 결정 구조 식별의 어려움이 따르며 이로 인해 3차원의 복합체 데이터가 제한적으로 양산된다. 이 논문에서는 모노머 단백질의 3차원 패치 계산을 통하여 구조가 알려진 복합체의 상호작용사이트와 비상호작용사이트에 대한 패치 속성을 추출하고 이를 기반으로 Support Vector Machine (SVM) 분류기법을 이용한 예측 모델 개발을 제시한다. 타겟 클래스의 데이터 불균형 문제 해결을 위해 under-sampling 기법을 이용한다. 사용된 패치속성은 2차 구조 요소와 아미노산 구성으로부터 총 9개가 추출된다. 147개의 단백질 복합체에 대해서 10 fold cross validation을 통해서 다양한 분류모델의 성능 평가를 하였다. 평가한 분류 모델 중 SVM은 92.7%의 높은 정확성을 보이고 이를 이용하여 분류 모델을 개발하였다.

소프트웨어 정의 스토리지의 디스크 이용을 최적화하는 방법에 관한 연구 (A Study on Optimizing Disk Utilization of Software-Defined Storage)

  • 이정일;최윤아;박주은;장민영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권4호
    • /
    • pp.135-142
    • /
    • 2023
  • 최근에는 디지털 변환이 확대됨에 따라 많은 기업들이 퍼블릭 클라우드 서비스를 이용하거나 자체 데이터센터를 구축하고 있다. 소프트웨어 정의 스토리지는 클라우드 플랫폼에서 데이터를 저장하기 위한 핵심적인 솔루션으로 전세계적으로 이용이 확대되고 있다. 소프트웨어 정의 스토리지는 전체 스토리지 자원을 하나의 저장장치와 같이 가상화하여 사용할 수 있고 유연한 Scale-out을 지원하는 장점이 있는 반면에, 가변 크기의 오브젝트 방식으로 인한 디스크의 이용에 불균형이 발생하고, 장애를 유발할 수 있다. 본 연구에서는 디스크 이용의 불균형 문제를 해결하기 위하여 스토리지의 상태정보를 바탕으로 디스크의 가중치를 최적화하여 오브젝트를 재분배하는 방법에 대하여 제안하고, 그 실험 결과를 제시하였다. 실험을 수행한 결과, 디스크의 최대 이용률이 89%에서 79%로 10%만큼 감소한 것을 확인하였다. 디스크의 이용률을 최적화함으로써 장애를 예방하고, 더 많은 데이터를 균등하게 저장할 수 있어 효율적인 스토리지 이용이 가능할 것으로 기대된다.

링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발 (A Data Fusion Algorithm for Link Travel Time Estimation)

  • 최기수;정연식
    • 대한교통학회지
    • /
    • 제16권2호
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

무선 센서 네트워크에서의 클러스터 헤드 스케줄링 기법에 관한 연구 (A Study on Cluster Head Scheduling Scheme in Wireless Sensor Network)

  • 이준호;강동민;김승환;박선호;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.139-142
    • /
    • 2010
  • 클러스터 기반의 무선 센서 네트워크는 데이터를 병합하여 전송함으로써 에너지를 효율적으로 사용할 수 있다. 하지만 데이터를 병합하는 클러스터 헤드에 집중된 부하로 인해 센서노드 간 에너지 불균형이 발생하게 된다. 에너지가 고갈되어 가는 센서노드는 클러스터 헤드 선출기간에 필요한 메시지 전송에 따른 에너지 소모가 부담이 된다. 본 논문에서는 센서노드의 에너지가 고갈되어 갈 때 클러스터 선출에 발생하는 에너지 소모를 감소시키기 위해 클러스터 헤드 스케줄링 기법(Cluster Head Scheduling Scheme:CHSS)을 제안한다.