• 제목/요약/키워드: Semi-Supervised learning

검색결과 152건 처리시간 0.021초

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

이미지 생성을 위해 노이즈를 이용한 GAN 시스템 (GAN System Using Noise for Image Generation)

  • 배상중;김민규;정회경
    • 한국정보통신학회논문지
    • /
    • 제24권6호
    • /
    • pp.700-705
    • /
    • 2020
  • 생성적 적대 신경망(GAN, Generative Adversarial Network)은 두 개의 신경망을 대립하여 이미지를 생성하는 방법이다. 이미지를 생성할 때 랜덤으로 생성한 노이즈를 재배열하여 이미지를 생성하는데 이러한 방법으로 생성된 이미지는 노이즈에 따라 생성이 잘 이루어지지 않고, 이미지의 픽셀이 적은 경우 제대로 된 이미지를 생성하기 어렵다는 문제점이 발생할 수 있다. 또한 데이터 분류에서 데이터가 쌓이는 속도와 크기가 증가되는데 이들을 라벨링하는 데는 많은 어려움이 있다. 본 논문에서는 이를 해결하기 위해 랜덤으로 생성하던 노이즈에 실제 데이터를 사용하여 노이즈를 생성하고 이를 기반으로 이미지를 생성하는 기법을 제안한다. 제안하는 시스템은 기존에 있는 이미지를 기반으로 하는 이미지를 생성하는 것이므로 좀 더 자연스러운 이미지의 생성이 가능하다는 것을 확인하였고 이를 학습에 이용할 경우 기존의 생성적 적대 신경망을 사용한 방법보다 더 높은 적중률을 보임을 확인하였다.

한글 획요소 추출 학습에서 적용 글자의 확장에 따른 추출 성능 분석 (Analysis of Extraction Performance according to the Expanding of Applied Character in Hangul Stroke Element Extraction)

  • 전자연;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권11호
    • /
    • pp.1361-1371
    • /
    • 2020
  • Fonts have developed as a visual element, and their influence has rapidly increased around the world. Research on font automation is actively being conducted mainly in English because Hangul is a combination character and the structure is complicated. In the previous study to solve this problem, the stroke element of the character was automatically extracted by applying the object detection by component. However, the previous research was only for similarity, so it was tested on various print style fonts, but it has not been tested on other characters. In order to extract the stroke elements of all characters and fonts, we performed a performance analysis experiment according to the expansion character in the Hangul stroke element extraction training. The results were all high overall. In particular, in the font expansion type, the extraction success rate was high regardless of having done the training or not. In the character expansion type, the extraction success rate of trained characters was slightly higher than that of untrained characters. In conclusion, for the perfect Hangul stroke element extraction model, we will introduce Semi-Supervised Learning to increase the number of data and strengthen it.

Tri-training algorithm based on cross entropy and K-nearest neighbors for network intrusion detection

  • Zhao, Jia;Li, Song;Wu, Runxiu;Zhang, Yiying;Zhang, Bo;Han, Longzhe
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권12호
    • /
    • pp.3889-3903
    • /
    • 2022
  • To address the problem of low detection accuracy due to training noise caused by mislabeling when Tri-training for network intrusion detection (NID), we propose a Tri-training algorithm based on cross entropy and K-nearest neighbors (TCK) for network intrusion detection. The proposed algorithm uses cross-entropy to replace the classification error rate to better identify the difference between the practical and predicted distributions of the model and reduce the prediction bias of mislabeled data to unlabeled data; K-nearest neighbors are used to remove the mislabeled data and reduce the number of mislabeled data. In order to verify the effectiveness of the algorithm proposed in this paper, experiments were conducted on 12 UCI datasets and NSL-KDD network intrusion datasets, and four indexes including accuracy, recall, F-measure and precision were used for comparison. The experimental results revealed that the TCK has superior performance than the conventional Tri-training algorithms and the Tri-training algorithms using only cross-entropy or K-nearest neighbor strategy.

준 지도 학습과 커리큘럼 학습을 이용한 유사 기사 추천 모델 (Semi-supervised GPT2 for News Article Recommendation with Curriculum Learning)

  • 서재형;오동석;어수경;박성진;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.495-500
    • /
    • 2020
  • 뉴스 기사는 반드시 객관적이고 넓은 시각으로 정보를 전달하지 않는다. 따라서 뉴스 기사를 기존의 추천 시스템과 같이 개인의 관심사나 사적 정보를 바탕으로 선별적으로 추천하는 것은 바람직하지 않다. 본 논문에서는 최대한 객관적으로 다양한 시각에서 비슷한 사건과 인물에 대해서 판단할 수 있도록 유사도 기반의 기사 추천 모델을 제시한다. 길이가 긴 문서 사이의 유사도를 측정하기 위해 GPT2 [1]언어 모델을 활용했다. 이 과정에서 단방향 디코더 모델인 GPT2 [1]의 단점을 추가 학습으로 개선했으며, 저장 공간의 효율과 핵심 문단 추출을 위해 BM25 [2]함수를 사용했다. 그리고 준 지도 학습 [3]을 통해 유사도 레이블링이 되어있지 않은 최신 뉴스 기사에 대해서도 자가 학습을 진행했으며, 이와 함께 길이가 긴 문단에 대해서도 효과적으로 학습할 수 있도록 문장 길이를 기준으로 3개의 단계로 나누어진 커리큘럼 학습 [4]방식을 적용했다.

  • PDF

비분류표시 데이타를 이용하는 분류 기반 Co-training 방법 (A Co-training Method based on Classification Using Unlabeled Data)

  • 윤혜성;이상호;박승수;용환승;김주한
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.991-998
    • /
    • 2004
  • 생물 정보학 등 많은 응용 분야에서 데이타 분석을 할 때는 적은 수의 분류표시된 데이터 (labeled data)와 많은 수의 비분류표시된 데이타(unlabeled data)가 있을 수 있다 분류표시된 자료는 사람의 노력이 요구되기 때문에 얻기가 어렵고 비용이 많이 들지만, 비분류표시된 자료는 별 어려움 없이 쉽게 얻을 수 있다. 이때 비분류표시된 자료를 이용하여 자료를 분류하고 분석하는데 널리 이용되고 있는 방법이 co-training 알고리즘이다. 이 방법은 적은 수의 분류표시된 자료에서 두 가지 뷰(view)로 각 분류자를 학습한다. 그리고 각 분류자는 분석하고자 하는 모든 비분류표시된 자료에서 가장 만족할만한 예측자들을 만들어 나간다. 이렇게 훈련 데이타 셋에서 실험을 여러 번 반복적으로 하게 되면 각 뷰에서 새로운 분류자가 학습되어 분류표시된 자료의 수가 증가한다. 본 논문에서는 비분류표시된 데이타를 이용하여 새로운 co-training 방법을 제시한다. 이 방법은 두 가지 분류자와 WebKB 및 BIND XML의 2가지 실험 데이타를 가지고 평가하였다. 실험 결과로서, 이 논문에서 제안한 co-training 방법이 분류표시된 자료의 수가 매우 적을 때 분류정확성을 효과적으로 향상시킬 수 있음을 보였다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

제한된 라벨 데이터 상에서 다중-태스크 반 지도학습을 사용한 동작 인지 모델의 성능 향상 (Improving Human Activity Recognition Model with Limited Labeled Data using Multitask Semi-Supervised Learning)

  • ;;이석룡
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.137-147
    • /
    • 2018
  • 기계 학습을 통한 인간 동작 인지 (human activity recognition) 시스템에서 중요한 요소는 충분한 양의 라벨 데이터 (labeled data)를 확보하는 것이다. 그러나 라벨 데이터를 확보하는 일은 많은 비용과 시간을 필요로 한다. 매우 적은 수의 라벨 데이터를 가지고 있는 새로운 환경 (타겟 도메인)에서 동작 인지 시스템을 구축하는 경우, 기존의 환경 (소스 도메인)의 데이터나 이 환경에서 학습된 분류기(classifier)를 사용하는 것은 도메인이 서로 다르기 때문에 바람직하지 않다. 기존의 기계 학습 방법들이 이러한 문제를 해결할 수 없으므로 전이 학습 (transfer learning) 방법이 제시되었으며, 이 방법에서는 소스 도메인에서 확보한 지식을 활용하여 타겟 도메인에서의 분류기 성능을 높이도록 하고 있다. 본 논문에서는 다중 태스크 신경망 (multitask neural network)을 사용하여 매우 제한된 수의 데이터만으로 정확도가 높은 동작 인지 분류기를 생성하는 전이 학습방법을 제안한다. 이 방법에서는 소스 및 타겟 도메인 분류기의 손실 함수 최소화가 별개의 태스크로 간주된다. 즉, 하나의 신경망을 사용하여 두 태스크의 손실 함수를 동시에 최소화하는 방식으로 지식 전이(knowledge transfer)가 일어나게 된다. 또한, 제안한 방법에서는 모델 학습을 위하여 비지도 방식(unsupervised manner)으로 라벨이 부여되지 않은 데이터를 활용한다. 실험 결과, 제안한 방법은 기존의 방법에 비하여 일관적으로 우수한 성능을 보여주고 있다.

온라인 학습을 이용한 비전 기반의 차량 검출 및 추적 (Vision-Based Vehicle Detection and Tracking Using Online Learning)

  • 길성호;김경환
    • 한국통신학회논문지
    • /
    • 제39A권1호
    • /
    • pp.1-11
    • /
    • 2014
  • 본 논문에서는 추적중인 차량의 외형 변화에 대해 온라인 학습 능력이 있는 비전 기반의 차량 검출 및 추적 시스템을 제안한다. 제안하는 시스템은 새로 검출된 차량의 연속된 프레임 간 움직임을 빠르고 강건하게 추정하기 위해 특징점 기반 추적 방법을 사용한다. 동시에 추적중인 차량에 대해 온라인 차량 검출기를 훈련시키고, 일시적인 차량 추적 실패 시 검출기의 결과를 이용해 추적기를 재초기화하여 강건한 추적을 가능하게 한다. 특히 차량 외형 모델의 업데이트 방법을 개선하여 시스템의 추적 성능을 높이고 처리시간을 단축시켰다. 다양한 주행환경에서 획득한 데이터세트를 사용하여 제안하는 시스템의 차량 검출 및 추적 성능을 평가하였다. 특히 우천 및 터널통과와 같은 악조건에서 기존의 방법에 비해 차량 추적 성능이 상당히 개선된 것을 증명하였다.

학계와 산업계의 정보 대중성 변동과 인용 정보에 기반한 최신 기술 동향 식별 시스템 (An Emerging Technology Trend Identifier Based on the Citation and the Change of Academic and Industrial Popularity)

  • 김선호;이준규;와카스 라시드;여운동
    • 기술혁신학회지
    • /
    • 제14권spc호
    • /
    • pp.1171-1186
    • /
    • 2011
  • 본 연구는 대용량 학술 및 특허 데이터 분석을 기본으로하여 중소 기업이 필요로 하는 유망기술을 도출하는 모형을 제시하고자 하였다. 유망기술 발굴은 국가와 기관의 주요 결정권자가 시간이나 돈과 같은 제한된 자원을 효과적으로 사용할 수 있게 하기 위한 중요한 연구이다. 많은 연구자들이 유망기술 발굴 방법에 대한 연구를 수행하고 있고 모델을 제시하고 있지만 아직까지 더 향상된 방법론의 개발이 필요하다. 이 논문은 학계와 산업계의 데이터를 동시에 이용하여 주어진 기술의 유망 기술 여부를 판단하는 모델을 제안한다. 대부분의 다른 유망기술 발굴 모델과는 다르게 이 논문에서 제안하는 모델은 완전자동 학습 방식이 아닌, 전문가가 개입하는 준-자동 학습 방식의 기계 학습 방법을 이용한다. 이는 학습 속도을 양보하고 대신 정확성을 높이기 위한 방법으로 유망기술 발굴 시스템의 원래 목적에 적당하다. 또한 이 모델은 유망기술 초기 신호를 감지하기 위해 학술 데이터의 인용정보를 분석하여 학습하도록 하였다.

  • PDF