• 제목/요약/키워드: 준지도 학습

검색결과 64건 처리시간 0.023초

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

균열 탐지의 의미론적 분할을 위한 Mean Teacher 학습 구조 최적화 (Mean Teacher Learning Structure Optimization for Semantic Segmentation of Crack Detection)

  • 심승보
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제27권5호
    • /
    • pp.113-119
    • /
    • 2023
  • 인프라 구조물은 대부분 경제 성장기에 완공되었다. 이러한 인프라 구조물은 최근 들어 공용연수가 점차 증가하고 있어 노후 구조물의 비중이 점차 증가하고 있다. 이러한 노후 구조물은 설계 당시의 기능과 성능이 저하될 수 있고 안전사고로까지 이어질 수 있다. 이를 예방하기 위해서는 정확한 점검과 적절한 보수가 필수적이다. 이를 위해서는 우선 미세한 균열까지 정확히 탐지할 수 있도록 컴퓨터 비전과 딥러닝 기술에 수요가 증가하고 있다. 하지만 딥러닝 알고리즘은 다수의 학습 데이터가 있어야 한다. 특히 영상 내 균열의 위치를 표시한 라벨 영상은 필수적이다. 이러한 라벨 영상을 다수 확보하기 위해서는 많은 노동력과 시간이 필요한 실정이다. 이러한 비용을 절감하고 탐지 정확도를 높이기 위해서 본 연구에서는 mean teacher 방식의 학습 구조를 제안하였다. 이 학습 구조는 900장의 라벨 영상 데이터 세트와 3000장의 비라벨 영상 데이터 세트로 훈련되었다. 학습된 균열 탐지 신경망 모델은 300여장의 실험용 데이터 세트를 통해 평가되었고 탐지 정확도는 89.23%의 mean intersection over union과 89.12%의 F1 score를 기록하였다. 이 설험을 통해 지도학습과 비교하여 탐지 성능이 향상된 것을 확인하였다. 향후에 이러한 방법은 라벨 영상을 확보하는데 필요한 비용을 절감하는데 활용될 것으로 기대한다.

준지도 학습 및 신경망 알고리즘을 이용한 전기가격 예측 (Electricity Price Prediction Based on Semi-Supervised Learning and Neural Network Algorithms)

  • 김항석;신현정
    • 대한산업공학회지
    • /
    • 제39권1호
    • /
    • pp.30-45
    • /
    • 2013
  • Predicting monthly electricity price has been a significant factor of decision-making for plant resource management, fuel purchase plan, plans to plant, operating plan budget, and so on. In this paper, we propose a sophisticated prediction model in terms of the technique of modeling and the variety of the collected variables. The proposed model hybridizes the semi-supervised learning and the artificial neural network algorithms. The former is the most recent and a spotlighted algorithm in data mining and machine learning fields, and the latter is known as one of the well-established algorithms in the fields. Diverse economic/financial indexes such as the crude oil prices, LNG prices, exchange rates, composite indexes of representative global stock markets, etc. are collected and used for the semi-supervised learning which predicts the up-down movement of the price. Whereas various climatic indexes such as temperature, rainfall, sunlight, air pressure, etc, are used for the artificial neural network which predicts the real-values of the price. The resulting values are hybridized in the proposed model. The excellency of the model was empirically verified with the monthly data of electricity price provided by the Korea Energy Economics Institute.

다중 분기 트리와 ASSL을 결합한 오픈 셋 물체 검출 (Open set Object Detection combining Multi-branch Tree and ASSL)

  • 신동균;민하즈 우딘 아흐메드;김진우;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.171-177
    • /
    • 2018
  • 최근 많은 이미지 데이터 셋들은 일반적인 특성을 추출하기 위한 다양한 데이터 클래스와 특징을 가지고 있다. 하지만 이러한 다양한 데이터 클래스와 특징으로 인해 해당 데이터 셋으로 훈련된 물체 검출 딥러닝 모델은 데이터 특성이 다른 환경에서 좋은 성능을 내지 못하는 단점을 보인다. 이 논문에서는 하위 카테고리 기반 물체 검출 방법과 오픈셋 물체 검출 방법을 이용하여 이를 극복하고, 강인한 물체 검출 딥러닝 모델을 훈련하기 위해 능동 준지도 학습 (Active Semi-Supervised Learning)을 이용한 다중 분기 트리 구조를 제안한다. 우리는 이 구조를 이용함으로써 데이터 특성이 다른 환경에서 적응할 수 있는 모델을 가질 수 있고, 나아가 이 모델을 이용하여 이전의 모델보다 높은 성능을 확보 할 수 있다.

LIME을 활용한 준지도 학습 기반 이상 탐지 모델: 반도체 공정을 중심으로 (Anomaly Detection Model Based on Semi-Supervised Learning Using LIME: Focusing on Semiconductor Process)

  • 안강민;신주은;백동현
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.86-98
    • /
    • 2022
  • Recently, many studies have been conducted to improve quality by applying machine learning models to semiconductor manufacturing process data. However, in the semiconductor manufacturing process, the ratio of good products is much higher than that of defective products, so the problem of data imbalance is serious in terms of machine learning. In addition, since the number of features of data used in machine learning is very large, it is very important to perform machine learning by extracting only important features from among them to increase accuracy and utilization. This study proposes an anomaly detection methodology that can learn excellently despite data imbalance and high-dimensional characteristics of semiconductor process data. The anomaly detection methodology applies the LIME algorithm after applying the SMOTE method and the RFECV method. The proposed methodology analyzes the classification result of the anomaly classification model, detects the cause of the anomaly, and derives a semiconductor process requiring action. The proposed methodology confirmed applicability and feasibility through application of cases.

자가학습과 지식증류 방법을 활용한 LiDAR 3차원 물체 탐지에서의 준지도 도메인 적응 (Semi-Supervised Domain Adaptation on LiDAR 3D Object Detection with Self-Training and Knowledge Distillation)

  • 우정완;김재열;임성훈
    • 로봇학회논문지
    • /
    • 제18권3호
    • /
    • pp.346-351
    • /
    • 2023
  • With the release of numerous open driving datasets, the demand for domain adaptation in perception tasks has increased, particularly when transferring knowledge from rich datasets to novel domains. However, it is difficult to solve the change 1) in the sensor domain caused by heterogeneous LiDAR sensors and 2) in the environmental domain caused by different environmental factors. We overcome domain differences in the semi-supervised setting with 3-stage model parameter training. First, we pre-train the model with the source dataset with object scaling based on statistics of the object size. Then we fine-tine the partially frozen model weights with copy-and-paste augmentation. The 3D points in the box labels are copied from one scene and pasted to the other scenes. Finally, we use the knowledge distillation method to update the student network with a moving average from the teacher network along with a self-training method with pseudo labels. Test-Time Augmentation with varying z values is employed to predict the final results. Our method achieved 3rd place in ECCV 2022 workshop on the 3D Perception for Autonomous Driving challenge.

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

한국어 서답형 문항 자동채점 시스템의 성능 개선 (Performance Comparison of Automated Scoring System for Korean Short-Answer Questions)

  • 천민아;김창현;김재훈;노은희;성경희;송미영;박종임;김유향
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.181-185
    • /
    • 2016
  • 최근 교육과정에서 학생들의 능력 평가는 단순 암기보다 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점하는 데 시간과 비용이 많이 들고, 채점자의 주관에 따라 채점 결과의 일관성과 신뢰성을 보장하기 어렵다는 문제가 있다. 이런 점을 해결하기 위해 해외의 사례를 참고하여 국내에서도 서답형 문항에 자동채점 시스템을 적용하는 연구를 진행하고 있다. 본 논문에서는 2014년도에 개발된 '한국어 문장 수준 서답형 문항 자동채점 시스템'의 성능분석을 바탕으로 언어 처리 기능과 자동채점 성능을 개선한 2015년도 자동채점 시스템을 간략하게 소개하고, 각 자동채점 시스템의 성능을 비교 분석한다. 성능 분석 대상으로는 2014년도 국가수준 학업성취도평가의 서답형 문항을 사용했다. 실험 결과, 개선한 시스템의 평균 완전 일치도와 평균 정확률이 기존의 시스템보다 각각 9.4%p, 8.9%p 증가했다. 자동채점 시스템의 목적은 가능한 채점 시간을 단축하면서 채점 기준의 일관성과 신뢰성을 확보하는 데 있으므로, 보완한 2015년 자동채점 시스템의 성능이 향상되었다고 판단할 수 있다.

  • PDF

한국어 서답형 문항 자동채점 시스템의 성능 개선 (Performance Comparison of Automated Scoring System for Korean Short-Answer Questions)

  • 천민아;김창현;김재훈;노은희;성경희;송미영;박종임;김유향
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-185
    • /
    • 2016
  • 최근 교육과정에서 학생들의 능력 평가는 단순 암기보다 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점하는 데 시간과 비용이 많이 들고, 채점자의 주관에 따라 채점 결과의 일관성과 신뢰성을 보장하기 어렵다는 문제가 있다. 이런 점을 해결하기 위해 해외의 사례를 참고하여 국내에서도 서답형 문항에 자동채점 시스템을 적용하는 연구를 진행하고 있다. 본 논문에서는 2014년도에 개발된 '한국어 문장 수준 서답형 문항 자동채점 시스템'의 성능분석을 바탕으로 언어 처리 기능과 자동채점 성능을 개선한 2015년도 자동채점 시스템을 간략하게 소개하고, 각 자동채점 시스템의 성능을 비교 분석한다. 성능 분석 대상으로는 2014년도 국가수준 학업성취도평가의 서답형 문항을 사용했다. 실험 결과, 개선한 시스템의 평균 완전 일치도와 평균 정확률이 기존의 시스템보다 각각 9.4%p, 8.9%p 증가했다. 자동채점 시스템의 목적은 가능한 채점 시간을 단축하면서 채점 기준의 일관성과 신뢰성을 확보하는 데 있으므로, 보완한 2015년 자동채점 시스템의 성능이 향상되었다고 판단할 수 있다.

  • PDF

이상탐지 알고리즘 성능 비교: 이상치 유형과 데이터 속성 관점에서 (Performance Comparison of Anomaly Detection Algorithms: in terms of Anomaly Type and Data Properties)

  • 김재웅;정승렬;김남규
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.229-247
    • /
    • 2023
  • 여러 분야에서 이상탐지의 중요성이 강조됨에 따라, 다양한 데이터 유형과 이상치 유형에 대한 이상탐지 알고리즘이 개발되고 있다. 하지만 이상탐지 알고리즘의 성능은 주로 공개 데이터 세트에 대해 측정될 뿐 특정 유형의 이상치에서 나타나는 각 알고리즘의 성능은 확인되지 않고 있으므로, 분석 상황에 맞는 적절한 이상탐지 알고리즘 선택에 어려움이 있다. 이에 본 논문에서는 이상치의 유형과 다양한 데이터 속성을 먼저 파악하여, 이를 기반으로 적절한 이상탐지 알고리즘 선택에 도움을 줄 수 있는 방안을 제시하고자 한다. 구체적으로 본 연구에서는 지역, 전역, 종속성, 그리고 군집화의 총 4가지 이상치 유형에 대해 이상탐지 알고리즘의 성능을 비교하고, 추가 분석을 통해 라벨 수준, 데이터 개수, 그리고 차원 수가 성능에 미치는 영향을 확인한다. 실험 결과 이상치 유형에 따라 가장 우수한 성능을 나타내는 알고리즘이 다르게 나타나며, 이상치 유형에 대한 정보가 없는 경우에도 안정적인 성능을 보여주는 알고리즘을 확인했다. 또한 비지도 학습 기반 이상탐지 알고리즘의 성능이 지도 학습 및 준지도 학습 알고리즘의 성능보다 낮게 나타나는 유형을 확인하였다. 마지막으로 데이터 개수가 상대적으로 적거나 많을 때 대부분 알고리즘들의 성능이 이상치 유형에 더 강하게 영향을 받으며, 상대적으로 고차원일 경우 지역, 전역 이상치에서는 우수한 성능을 보였지만 군집화 이상치 유형에서 낮은 성능을 나타냄을 확인하였다.