• 제목/요약/키워드: Active Semi-Supervised Learning

검색결과 14건 처리시간 0.021초

원거리 감독과 능동 배깅을 이용한 개체명 인식 (Named Entity Recognition Using Distant Supervision and Active Bagging)

  • 이성희;송영길;김학수
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.269-274
    • /
    • 2016
  • 개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

강건한 객체탐지 구축을 위해 Pseudo Labeling 을 활용한 Active Learning (Active Learning with Pseudo Labeling for Robust Object Detection)

  • 김채윤;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.712-715
    • /
    • 2023
  • 딥러닝 기술의 발전은 고품질의 대규모 데이터에 크게 의존한다. 그러나, 데이터의 품질과 일관성을 유지하는 것은 상당한 비용과 시간이 소요된다. 이러한 문제를 해결하기 위해 최근 연구에서 최소한의 비용으로 최대의 성능을 추구하는 액티브 러닝(active learning) 기법이 주목받고 있는데, 액티브 러닝은 모델 관점에서 불확실성(uncertainty)이 높은 데이터들을 샘플링 하는데 중점을 둔다. 하지만, 레이블 생성에 있어서 여전히 많은 시간적, 자원적 비용이 불가피한 점을 고려할 때 보완이 불가피 하다. 본 논문에서는 의사-라벨링(pseudo labeling)을 활용한 준지도학습(semi-supervised learning) 방식과 학습 손실을 동시에 사용하여 모델의 불확실성(uncertainty)을 측정하는 방법론을 제안한다. 제안 방식은 레이블의 신뢰도(confidence)와 학습 손실의 최적화를 통해 비용 효율적인 데이터 레이블 생성 방식을 제안한다. 특히, 레이블 데이터의 품질(quality) 및 일관성(consistency) 측면에서 딥러닝 모델의 정확도 성능을 높임과 동시에 적은 데이터만으로도 효과적인 학습이 가능할 수 있는 메커니즘을 제안한다.

An Active Co-Training Algorithm for Biomedical Named-Entity Recognition

  • Munkhdalai, Tsendsuren;Li, Meijing;Yun, Unil;Namsrai, Oyun-Erdene;Ryu, Keun Ho
    • Journal of Information Processing Systems
    • /
    • 제8권4호
    • /
    • pp.575-588
    • /
    • 2012
  • Exploiting unlabeled text data with a relatively small labeled corpus has been an active and challenging research topic in text mining, due to the recent growth of the amount of biomedical literature. Biomedical named-entity recognition is an essential prerequisite task before effective text mining of biomedical literature can begin. This paper proposes an Active Co-Training (ACT) algorithm for biomedical named-entity recognition. ACT is a semi-supervised learning method in which two classifiers based on two different feature sets iteratively learn from informative examples that have been queried from the unlabeled data. We design a new classification problem to measure the informativeness of an example in unlabeled data. In this classification problem, the examples are classified based on a joint view of a feature set to be informative/non-informative to both classifiers. To form the training data for the classification problem, we adopt a query-by-committee method. Therefore, in the ACT, both classifiers are considered to be one committee, which is used on the labeled data to give the informativeness label to each example. The ACT method outperforms the traditional co-training algorithm in terms of f-measure as well as the number of training iterations performed to build a good classification model. The proposed method tends to efficiently exploit a large amount of unlabeled data by selecting a small number of examples having not only useful information but also a comprehensive pattern.

상황 인식 기반 다중 영역 분류기 비접촉 인터페이스기술 개발 (Technology Development for Non-Contact Interface of Multi-Region Classifier based on Context-Aware)

  • 김송국;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.175-182
    • /
    • 2020
  • 비접촉식 시선추적 기술은 인간과 컴퓨터간의 인터페이스로서 장애가 있는 사람들에게 핸즈프리 통신을 제공하며, 최근 코로나 바이러스 등으로 인한 비접촉시스템에도 중요한 역할을 할 것으로 기대된다. 따라서 본 논문에서는 인간 중심의 상호 작용을 위한 상황인식 다중영역 분류기 및 ASSL 알고리즘을 기반으로 한 사용자 인터페이스 기술을 개발한다. 이전의 AdaBoost 알고리즘은 안구 특징 사이의 공간적 맥락 관계를 이용할 수 없기 때문에 눈의 커서 포인팅 추정을 위한 안면 추적에서 충분히 신뢰할 수 있는 성능을 제공 할 수 없다. 따라서 본 논문에서는 효율적인 비접촉식 시선 추적 및 마우스 구현을 위한 눈 영역의 상황기반 AdaBoost 다중 영역 분류기를 제시한다. 제안된 방식은 여러 시선 기능을 감지, 추적 및 집계하여 시선을 평가하고 온 스크린 커서 기반의 능동 및 반 감독 학습을 조정한다. 이는 눈 위치에 성공적으로 사용되었으며 눈 특징을 감지하고 추적하는 데에도 사용할 수 있다. 사용자의 시선을 따라 컴퓨터 커서를 제어하며 칼만 필터를 이용하여 실시간으로 추적하며, 가우시안 모델링을 적용함으로써 후처리하였다. Fits law에 의해 실험하였으며, 랜덤하게 대상객체를 생성하여 실시간으로 시선추적성능을 분석하였다. 제안하는 상황인식을 기반 인식기를 통하여 비접촉 인터페이스로서의 활용이 높아질 것이다.