• 제목/요약/키워드: 준지도 학습

검색결과 64건 처리시간 0.024초

자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축 (Semi-Supervised Data Augmentation Method for Korean Fact Verification Using Generative Language Models)

  • 정재환;전동현;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 2021
  • 한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한다. 본 연구는 임의의 근거를 기반으로 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.

  • PDF

3 차원 휴먼 자세 추정을 위한 다시점 준지도 학습 (Multi-view semi-supervised learning for 3D human pose estimation)

  • 김도엽;장주용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.134-138
    • /
    • 2021
  • 3 차원 휴먼 자세 추정 모델은 다시점 모델과 단시점 모델로 분류될 수 있다. 일반적으로 다시점 모델은 단시점 모델에 비하여 뛰어난 자세 추정 성능을 보인다. 단시점 모델의 경우 3 차원 자세 추정 성능의 향상은 많은 양의 학습 데이터를 필요로 한다. 하지만 3 차원 자세에 대한 참값을 획득하는 것은 쉬운 일이 아니다. 이러한 문제를 다루기 위해, 우리는 다시점 모델로부터 다시점 휴먼 자세 데이터에 대한 의사 참값을 생성하고, 이를 단시점 모델의 학습에 활용하는 방법을 제안한다. 또한, 우리는 각각의 다시점 영상으로부터 추정된 자세의 일관성을 고려하는 다시점 일관성 손실함수를 제안하여, 이것이 단시점 모델의 효과적인 학습에 도움을 준다는 것을 보인다.

  • PDF

강건한 객체탐지 구축을 위해 Pseudo Labeling 을 활용한 Active Learning (Active Learning with Pseudo Labeling for Robust Object Detection)

  • 김채윤;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.712-715
    • /
    • 2023
  • 딥러닝 기술의 발전은 고품질의 대규모 데이터에 크게 의존한다. 그러나, 데이터의 품질과 일관성을 유지하는 것은 상당한 비용과 시간이 소요된다. 이러한 문제를 해결하기 위해 최근 연구에서 최소한의 비용으로 최대의 성능을 추구하는 액티브 러닝(active learning) 기법이 주목받고 있는데, 액티브 러닝은 모델 관점에서 불확실성(uncertainty)이 높은 데이터들을 샘플링 하는데 중점을 둔다. 하지만, 레이블 생성에 있어서 여전히 많은 시간적, 자원적 비용이 불가피한 점을 고려할 때 보완이 불가피 하다. 본 논문에서는 의사-라벨링(pseudo labeling)을 활용한 준지도학습(semi-supervised learning) 방식과 학습 손실을 동시에 사용하여 모델의 불확실성(uncertainty)을 측정하는 방법론을 제안한다. 제안 방식은 레이블의 신뢰도(confidence)와 학습 손실의 최적화를 통해 비용 효율적인 데이터 레이블 생성 방식을 제안한다. 특히, 레이블 데이터의 품질(quality) 및 일관성(consistency) 측면에서 딥러닝 모델의 정확도 성능을 높임과 동시에 적은 데이터만으로도 효과적인 학습이 가능할 수 있는 메커니즘을 제안한다.

점진적 능동준지도 학습 기반 고효율 적응적 얼굴 표정 인식 (High Efficiency Adaptive Facial Expression Recognition based on Incremental Active Semi-Supervised Learning)

  • 김진우;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.165-171
    • /
    • 2017
  • 사람의 얼굴 표정을 실제 환경에서 인식하는 데에는 여러 가지 난이한 점이 존재한다. 그래서 학습에 사용된 데이터베이스와 실험 데이터가 여러 가지 조건이 비슷할 때에만 그 성능이 높게 나온다. 이러한 문제점을 해결하려면 수많은 얼굴 표정 데이터가 필요하다. 본 논문에서는 능동준지도 학습을 통해 다양한 조건의 얼굴 표정 데이터를 쉽게 모으고 보다 빠르게 성능을 확보할 수 있는 방법을 제안한다. 제안하는 알고리즘은 딥러닝 네트워크와 능동 학습 (Active Learning)을 통해 초기 모델을 학습하고, 이후로는 준지도 학습(Semi-Supervised Learning)을 통해 라벨이 없는 추가 데이터를 확보하며, 성능이 확보될 때까지 이러한 과정을 반복한다. 위와 같은 능동준지도 학습(Active Semi-Supervised Learning)을 통해서 보다 적은 노동력으로 다양한 환경에 적합한 데이터를 확보하여 성능을 확보할 수 있다.

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

준지도 학습 기반 객체 탐지 모델에서 데이터셋 변화에 따른 성능 변화 (Performance Change accroding to Data Set Size Change in Semi-Supervised Learning based Object Detection)

  • 유승수;황원준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.88-90
    • /
    • 2022
  • Semi Supervised Learning 은 일부의 data 에는 labeling 을 하고 나머지 data 에는 labeling 을 안한채로 학습을 진행하는 방법이다. Object Detection 은 이미지에서 여러개의 객체들의 대한 위치를 여러개의 바운딩 박스로 지정해서 찾는 Computer Vision task 이다. 당연하게도, model training 단계에서 사용되는 data set 의 크기가 크고 객체가 많을 수록 일반적으로 model 의 성능이 좋아 질 것이다. 하지만 실험 환경에 따라 data set 을 잘 확보하지 못하던가, 실험 장치가 데이터 셋을 감당하지 못하는 등의 문제가 발생 할 수 있다. 그렇기에 본 논문에서는 semi supervised learning based object detection model 을 알아보고 data set 의 크기를 조절해가며 modle 을 training 시킨 뒤 data set 의 크기에 따라 성능이 어떻게 변화하는 지를 알아 볼 것이다.

  • PDF

그래프 임베딩 기반의 이더리움 피싱 스캠 탐지 연구 (Ethereum Phishing Scam Detection Based on Graph Embedding)

  • 정유영;김경태;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.266-268
    • /
    • 2022
  • 최근 블록체인 기술이 부상하면서 이를 이용한 암호화폐가 범죄의 대상이 되고 있다. 특히 피싱 스캠은 이더리움 사이버 범죄의 과반수 이상을 차지하며 주요 보안 위협원으로 여겨지고 있다. 따라서 효과적인 피싱 스캠 탐지 방법이 시급하다. 그러나 전체 노드에서 라벨링된 피싱 주소의 부족으로 인한 데이터 불균형으로 인하여 지도학습에 충분한 데이터 제공이 어려운 상황이다. 이를 해결하기 위해 본 논문에서는 이더리움 트랜잭션 네트워크를 고려한 효율적인 네트워크 임베딩 기법인 trans2vec 과 준지도 학습 모델 tri-training 을 함께 사용하여 라벨링된 데이터뿐만 아니라 라벨링되지 않은 데이터도 최대한 활용하는 피싱 스캠 탐지 방법을 제안한다.

원거리 감독과 능동 배깅을 이용한 개체명 인식 (Named Entity Recognition Using Distant Supervision and Active Bagging)

  • 이성희;송영길;김학수
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.269-274
    • /
    • 2016
  • 개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

Utilizing Mean Teacher Semi-Supervised Learning for Robust Pothole Image Classification

  • Inki Kim;Beomjun Kim;Jeonghwan Gwak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.17-28
    • /
    • 2023
  • 포장도로에서 발생하는 포트홀은 고속 주행 차량에 치명적인 영향을 미치며, 사망사고를 유발할 수 있는 도로상의 장애물이다. 이를 방지하기 위해 일반적으로는 작업자가 직접 포트홀을 탐지하는 방식을 사용해왔으나, 이는 작업자의 안전 문제와 예측하기 어려운 범주에서 발생하는 모든 포트홀을 인력으로 탐지하는 것이 비효율적이기 때문에 한계가 있다. 또한, 도로 환경과 관련된 지반 환경이 포트홀 생성에 영향을 미치기 때문에, 완벽한 포트홀 방지는 어렵다. 데이터셋 구축을 위해서는 전문가의 지도하에 라벨링 작업이 필요하지만, 이는 매우 시간과 비용이 많이 필요하다. 따라서, 본 논문에서는 Mean Teacher 기법을 사용하여 라벨링된 데이터의 샘플 수가 적더라도 지도학습보다 더욱 강인한 포트홀 이미지 분류 성능을 보여준다. 이러한 결과는 성능지표와 GradCAM을 통해 입증되었으며, 준지도학습을 사용할 때 15개의 사전 학습된 CNN 모델이 평균 90.41%의 정확도를 달성하며, 지도학습과 비교하여 2%에서 9%의 차이로 강인한 성능을 나타내는 것을 확인하였다.

복부 CT 영상에서 신장 로컬 가이드 맵을 활용한 평균-교사 모델 기반의 준지도학습을 통한 신장 종양 분할 (Kidney Tumor Segmentation through Semi-supervised Learning Based on Mean Teacher Using Kidney Local Guided Map in Abdominal CT Images)

  • 정희영;김현진;홍헬렌
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권5호
    • /
    • pp.21-30
    • /
    • 2023
  • 부분신장절제술 전 수술 계획을 세우기 위해서는 신장 종양의 위치, 형태 및 수술 시 안전 마진 파악이 중요하므로 신장 종양을 정확히 분할하는 것이 필요하다. 그러나 신장 종양은 환자마다 위치 및 크기가 다양하며 소장과 비장 같은 주변 장기와 형태와 밝기값이 유사하여 신장 종양을 분할하는 것에 어려움이 있다. 본 논문에서는 레이블이 있는 데이터와 없는 데이터를 함께 사용하는 준지도학습 방법 중 하나인 평균-교사모델을 활용하여 신장의 여러 위치에서 발생하는 작은 크기의 신장 종양을 분할하기 위해 신장 위치 정보를 가지는 신장 로컬 가이드 맵을 이용해 신장 종양에 집중하는 평균-교사 네트워크를 제안하고, 신장 종양의 크기에 따른 성능을 분석한다. 실험 결과, 제안 방법은 신장 주변에 존재하는 종양의 위치를 찾기 위해 신장 로컬 가이드 맵을 사용하여 신장의 국소 정보를 고려함으로써 75.24%의 F1-score를 보였다. 특히 분할이 어려운 작은 크기의 종양에 대한 과소분할을 개선하였으며 nnU-Net보다 적은 양의 레이블 데이터를 사용하여도 13.9% 높은 F1-score를 보였다.