• 제목/요약/키워드: Semi-supervised

검색결과 172건 처리시간 0.022초

A semi-supervised interpretable machine learning framework for sensor fault detection

  • Martakis, Panagiotis;Movsessian, Artur;Reuland, Yves;Pai, Sai G.S.;Quqa, Said;Cava, David Garcia;Tcherniak, Dmitri;Chatzi, Eleni
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.251-266
    • /
    • 2022
  • Structural Health Monitoring (SHM) of critical infrastructure comprises a major pillar of maintenance management, shielding public safety and economic sustainability. Although SHM is usually associated with data-driven metrics and thresholds, expert judgement is essential, especially in cases where erroneous predictions can bear casualties or substantial economic loss. Considering that visual inspections are time consuming and potentially subjective, artificial-intelligence tools may be leveraged in order to minimize the inspection effort and provide objective outcomes. In this context, timely detection of sensor malfunctioning is crucial in preventing inaccurate assessment and false alarms. The present work introduces a sensor-fault detection and interpretation framework, based on the well-established support-vector machine scheme for anomaly detection, combined with a coalitional game-theory approach. The proposed framework is implemented in two datasets, provided along the 1st International Project Competition for Structural Health Monitoring (IPC-SHM 2020), comprising acceleration and cable-load measurements from two real cable-stayed bridges. The results demonstrate good predictive performance and highlight the potential for seamless adaption of the algorithm to intrinsically different data domains. For the first time, the term "decision trajectories", originating from the field of cognitive sciences, is introduced and applied in the context of SHM. This provides an intuitive and comprehensive illustration of the impact of individual features, along with an elaboration on feature dependencies that drive individual model predictions. Overall, the proposed framework provides an easy-to-train, application-agnostic and interpretable anomaly detector, which can be integrated into the preprocessing part of various SHM and condition-monitoring applications, offering a first screening of the sensor health prior to further analysis.

PA 흉부 X-선 영상 패치 분할에 의한 지역 특수성 이상 탐지 방법 (A Method for Region-Specific Anomaly Detection on Patch-wise Segmented PA Chest Radiograph)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.49-59
    • /
    • 2023
  • COVID-19로 대표되는 팬데믹 상황에서 의료 인력 부족으로 인한 문제가 대두되고 있다. 본 논문에서는 진단 업무를 지원하기 위한 컴퓨터 비전 솔루션으로 PA 흉부 X-선 영상에 대한 병변 유무 진단 방법에 대해 제시한다. 디지털 영상에 대한 특징 비교 방식의 이상 탐지 기법을 X-선 영상에 적용하여 비정상적인 영역을 예측할 수 있다. 정렬된 PA 흉부 X-선 영상으로부터 특징 벡터를 추출하고 패치 단위로 분할하여 지역적으로 등장하는 비정상을 포착한다. 사전 실험으로 다중 객체를 포함하는 시뮬레이션 데이터 세트를 생성하고 이에 대한 비교 실험 결과를 제시한다. 정렬된 영상에 대해 적용 가능한 패치 특징 하드마스킹을 통해 프로세스의 효율성 및 성능을 향상하는 방법을 제시한다. 지역 특수성 및 전역 이상 탐지 결과를 합산하여 기존 연구 대비 6.9%p AUROC 향상된 성능을 보인다.

넷플로우-타임윈도우 기반 봇넷 검출을 위한 오토엔코더 실험적 재고찰 (An Experimental Study on AutoEncoder to Detect Botnet Traffic Using NetFlow-Timewindow Scheme: Revisited)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제33권4호
    • /
    • pp.687-697
    • /
    • 2023
  • 공격 양상이 더욱 지능화되고 다양해진 봇넷은 오늘날 가장 심각한 사이버 보안 위협 중 하나로 인식된다. 본 논문은 UGR과 CTU-13 데이터 셋을 대상으로 반지도 학습 딥러닝 모델인 오토엔코더를 활용한 봇넷 검출 실험결과를 재검토한다. 오토엔코더의 입력벡터를 준비하기 위해, 발신지 IP 주소를 기준으로 넷플로우 레코드를 슬라이딩 윈도우 기반으로 그룹화하고 이들을 중첩하여 트래픽 속성을 추출한 데이터 포인트를 생성하였다. 특히, 본 논문에서는 동일한 흐름-차수(flow-degree)를 가진 데이터 포인트 수가 이들 데이터 포인트에 중첩된 넷플로우 레코드 수에 비례하는 멱법칙(power-law) 특징을 발견하고 실제 데이터 셋을 대상으로 97% 이상의 상관계수를 제공하는 것으로 조사되었다. 또한 이러한 멱법칙 성질은 오토엔코더의 학습에 중요한 영향을 미치고 결과적으로 봇넷 검출 성능에 영향을 주게 된다. 한편 수신자조작특성(ROC)의 곡선아래면적(AUC) 값을 사용해 오토엔코더의 성능을 검증하였다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

Tokamak plasma disruption precursor onset time study based on semi-supervised anomaly detection

  • X.K. Ai;W. Zheng;M. Zhang;D.L. Chen;C.S. Shen;B.H. Guo;B.J. Xiao;Y. Zhong;N.C. Wang;Z.J. Yang;Z.P. Chen;Z.Y. Chen;Y.H. Ding;Y. Pan
    • Nuclear Engineering and Technology
    • /
    • 제56권4호
    • /
    • pp.1501-1512
    • /
    • 2024
  • Plasma disruption in tokamak experiments is a challenging issue that causes damage to the device. Reliable prediction methods are needed, but the lack of full understanding of plasma disruption limits the effectiveness of physics-driven methods. Data-driven methods based on supervised learning are commonly used, and they rely on labelled training data. However, manual labelling of disruption precursors is a time-consuming and challenging task, as some precursors are difficult to accurately identify. The mainstream labelling methods assume that the precursor onset occurs at a fixed time before disruption, which leads to mislabeled samples and suboptimal prediction performance. In this paper, we present disruption prediction methods based on anomaly detection to address these issues, demonstrating good prediction performance on J-TEXT and EAST. By evaluating precursor onset times using different anomaly detection algorithms, it is found that labelling methods can be improved since the onset times of different shots are not necessarily the same. The study optimizes precursor labelling using the onset times inferred by the anomaly detection predictor and test the optimized labels on supervised learning disruption predictors. The results on J-TEXT and EAST show that the models trained on the optimized labels outperform those trained on fixed onset time labels.

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법 (Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases)

  • 박영민;김예진;강상우;서정연
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.27-41
    • /
    • 2016
  • 개체명 인식은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미하며 최근 주목 받고 있는 음성 비서 서비스 등 다양한 응용 분야에 널리 활용되고 있다. 본 논문에서는 지식베이스를 사용하여 개체명 인식 코퍼스를 자동으로 생성하는 방법을 제안한다. 지식베이스의 종류에 따라 두 가지 방법을 적용하며 그 중 첫 번째 방법은 위키피디아를 기반으로 위키피디아 본문의 문장에 개체명 표지를 부착하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 인터넷으로부터 다양한 형태의 문장을 수집하고 다양한 개체들 간의 관계를 데이터베이스에 보유 중인 프리베이스를 이용하여 개체명 표지를 부착하는 방법으로 학습 코퍼스를 생성한다. 자동 생성된 학습 코퍼스의 질과 본 논문에서 제안하는 학습 코퍼스 자동 생성 기법을 평가하기 위해 두 가지로 실험했다. 첫 번째, 다른 형태의 지식베이스인 위키피디아와 프리베이스(Freebase)를 기반으로 생성된 학습 코퍼스의 표지 부착 성능을 수동으로 측정하여 코퍼스의 질을 평가하였다. 두 번째, 각 코퍼스로 학습된 개체명 인식 모델의 성능을 통해 제안하는 학습 코퍼스 자동 생성 기법의 실용성을 평가하였다. 실험을 통해 본 방법이 타당함을 증명하였으며 특히 실제 응용에서 많이 사용되는 웹 데이터 환경에서 의미 있는 성능 향상을 보여주었다.

  • PDF

제한된 라벨 데이터 상에서 다중-태스크 반 지도학습을 사용한 동작 인지 모델의 성능 향상 (Improving Human Activity Recognition Model with Limited Labeled Data using Multitask Semi-Supervised Learning)

  • ;;이석룡
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.137-147
    • /
    • 2018
  • 기계 학습을 통한 인간 동작 인지 (human activity recognition) 시스템에서 중요한 요소는 충분한 양의 라벨 데이터 (labeled data)를 확보하는 것이다. 그러나 라벨 데이터를 확보하는 일은 많은 비용과 시간을 필요로 한다. 매우 적은 수의 라벨 데이터를 가지고 있는 새로운 환경 (타겟 도메인)에서 동작 인지 시스템을 구축하는 경우, 기존의 환경 (소스 도메인)의 데이터나 이 환경에서 학습된 분류기(classifier)를 사용하는 것은 도메인이 서로 다르기 때문에 바람직하지 않다. 기존의 기계 학습 방법들이 이러한 문제를 해결할 수 없으므로 전이 학습 (transfer learning) 방법이 제시되었으며, 이 방법에서는 소스 도메인에서 확보한 지식을 활용하여 타겟 도메인에서의 분류기 성능을 높이도록 하고 있다. 본 논문에서는 다중 태스크 신경망 (multitask neural network)을 사용하여 매우 제한된 수의 데이터만으로 정확도가 높은 동작 인지 분류기를 생성하는 전이 학습방법을 제안한다. 이 방법에서는 소스 및 타겟 도메인 분류기의 손실 함수 최소화가 별개의 태스크로 간주된다. 즉, 하나의 신경망을 사용하여 두 태스크의 손실 함수를 동시에 최소화하는 방식으로 지식 전이(knowledge transfer)가 일어나게 된다. 또한, 제안한 방법에서는 모델 학습을 위하여 비지도 방식(unsupervised manner)으로 라벨이 부여되지 않은 데이터를 활용한다. 실험 결과, 제안한 방법은 기존의 방법에 비하여 일관적으로 우수한 성능을 보여주고 있다.

상황 인식 기반 다중 영역 분류기 비접촉 인터페이스기술 개발 (Technology Development for Non-Contact Interface of Multi-Region Classifier based on Context-Aware)

  • 김송국;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.175-182
    • /
    • 2020
  • 비접촉식 시선추적 기술은 인간과 컴퓨터간의 인터페이스로서 장애가 있는 사람들에게 핸즈프리 통신을 제공하며, 최근 코로나 바이러스 등으로 인한 비접촉시스템에도 중요한 역할을 할 것으로 기대된다. 따라서 본 논문에서는 인간 중심의 상호 작용을 위한 상황인식 다중영역 분류기 및 ASSL 알고리즘을 기반으로 한 사용자 인터페이스 기술을 개발한다. 이전의 AdaBoost 알고리즘은 안구 특징 사이의 공간적 맥락 관계를 이용할 수 없기 때문에 눈의 커서 포인팅 추정을 위한 안면 추적에서 충분히 신뢰할 수 있는 성능을 제공 할 수 없다. 따라서 본 논문에서는 효율적인 비접촉식 시선 추적 및 마우스 구현을 위한 눈 영역의 상황기반 AdaBoost 다중 영역 분류기를 제시한다. 제안된 방식은 여러 시선 기능을 감지, 추적 및 집계하여 시선을 평가하고 온 스크린 커서 기반의 능동 및 반 감독 학습을 조정한다. 이는 눈 위치에 성공적으로 사용되었으며 눈 특징을 감지하고 추적하는 데에도 사용할 수 있다. 사용자의 시선을 따라 컴퓨터 커서를 제어하며 칼만 필터를 이용하여 실시간으로 추적하며, 가우시안 모델링을 적용함으로써 후처리하였다. Fits law에 의해 실험하였으며, 랜덤하게 대상객체를 생성하여 실시간으로 시선추적성능을 분석하였다. 제안하는 상황인식을 기반 인식기를 통하여 비접촉 인터페이스로서의 활용이 높아질 것이다.