• 제목/요약/키워드: Semi-Supervised learning

검색결과 150건 처리시간 0.026초

이상탐지 알고리즘 성능 비교: 이상치 유형과 데이터 속성 관점에서 (Performance Comparison of Anomaly Detection Algorithms: in terms of Anomaly Type and Data Properties)

  • 김재웅;정승렬;김남규
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.229-247
    • /
    • 2023
  • 여러 분야에서 이상탐지의 중요성이 강조됨에 따라, 다양한 데이터 유형과 이상치 유형에 대한 이상탐지 알고리즘이 개발되고 있다. 하지만 이상탐지 알고리즘의 성능은 주로 공개 데이터 세트에 대해 측정될 뿐 특정 유형의 이상치에서 나타나는 각 알고리즘의 성능은 확인되지 않고 있으므로, 분석 상황에 맞는 적절한 이상탐지 알고리즘 선택에 어려움이 있다. 이에 본 논문에서는 이상치의 유형과 다양한 데이터 속성을 먼저 파악하여, 이를 기반으로 적절한 이상탐지 알고리즘 선택에 도움을 줄 수 있는 방안을 제시하고자 한다. 구체적으로 본 연구에서는 지역, 전역, 종속성, 그리고 군집화의 총 4가지 이상치 유형에 대해 이상탐지 알고리즘의 성능을 비교하고, 추가 분석을 통해 라벨 수준, 데이터 개수, 그리고 차원 수가 성능에 미치는 영향을 확인한다. 실험 결과 이상치 유형에 따라 가장 우수한 성능을 나타내는 알고리즘이 다르게 나타나며, 이상치 유형에 대한 정보가 없는 경우에도 안정적인 성능을 보여주는 알고리즘을 확인했다. 또한 비지도 학습 기반 이상탐지 알고리즘의 성능이 지도 학습 및 준지도 학습 알고리즘의 성능보다 낮게 나타나는 유형을 확인하였다. 마지막으로 데이터 개수가 상대적으로 적거나 많을 때 대부분 알고리즘들의 성능이 이상치 유형에 더 강하게 영향을 받으며, 상대적으로 고차원일 경우 지역, 전역 이상치에서는 우수한 성능을 보였지만 군집화 이상치 유형에서 낮은 성능을 나타냄을 확인하였다.

준지도학습 방법을 이용한 한국어 서답형 문항 자동채점 시스템 (Korean Automated Scoring System for Supply-Type Items using Semi-Supervised Learning)

  • 천민아;서형원;김재훈;노은희;성경희;임은영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.112-116
    • /
    • 2014
  • 서답형 문항은 학생들의 종합적인 사고능력을 판단하는데 매우 유용하지만 채점할 때, 시간과 비용이 매우 많이 소요되고 채점자의 공정성을 확보해야 하는 어려움이 있다. 이러한 문제를 개선하기 위해 본 논문에서는 서답형 문항에 대한 자동채점 시스템을 제안한다. 본 논문에서 제안하는 시스템은 크게 언어 처리 단계와 채점 단계로 나뉜다. 첫 번째로 언어 처리 단계에서는 형태소 분석과 같은 한국어 정보처리 시스템을 이용하여 학생들의 답안을 분석한다. 두 번째로 채점 단계를 진행하는데 이 단계는 아래와 같은 순서로 진행된다. 1) 첫 번째 단계에서 분석 결과가 완전히 일치하는 답안들을 하나의 유형으로 간주하여 각 유형에 속한 답안의 빈도수가 높은 순서대로 정렬하여 인간 채점자가 고빈도 학생 답안을 수동으로 채점한다. 2) 현재까지 채점된 결과와 모범답안을 학습말뭉치로 간주하여 자질 추출 및 자질 가중치 학습을 수행한다. 3) 2)의 학습 결과를 토대로 미채점 답안들을 군집화하여 분류한다. 4) 분류된 결과 중에서 신뢰성이 높은 채점 답안에 대해서 인간 채점자가 확인하고 학습말뭉치에 추가한다. 5) 이와 같은 방법으로 미채점 답안이 존재하지 않을 때까지 반복한다. 제안된 시스템을 평가하기 위해서 2013년 학업성취도 평가의 사회(중3) 및 국어(고2) 과목의 서답형 문항을 사용하였다. 각 과목에서 1000개의 학생 답안을 추출하여 채점시간과 정확률을 평가하였다. 채점시간을 전체적으로 약 80% 이상 줄일 수 있었고 채점 정확률은 사회 및 국어 과목에 대해 각각 98.7%와 97.2%로 나타났다. 앞으로 자동 채점 시스템의 성능을 개선하고 인간 채점자의 집중도를 높일 수 있도록 인터페이스를 개선한다면 국가수준의 대단위 평가에 충분히 활용할 수 있을 것으로 생각한다.

  • PDF

Impurity profiling and chemometric analysis of methamphetamine seizures in Korea

  • Shin, Dong Won;Ko, Beom Jun;Cheong, Jae Chul;Lee, Wonho;Kim, Suhkmann;Kim, Jin Young
    • 분석과학
    • /
    • 제33권2호
    • /
    • pp.98-107
    • /
    • 2020
  • Methamphetamine (MA) is currently the most abused illicit drug in Korea. MA is produced by chemical synthesis, and the final target drug that is produced contains small amounts of the precursor chemicals, intermediates, and by-products. To identify and quantify these trace compounds in MA seizures, a practical and feasible approach for conducting chromatographic fingerprinting with a suite of traditional chemometric methods and recently introduced machine learning approaches was examined. This was achieved using gas chromatography (GC) coupled with a flame ionization detector (FID) and mass spectrometry (MS). Following appropriate examination of all the peaks in 71 samples, 166 impurities were selected as the characteristic components. Unsupervised (principal component analysis (PCA), hierarchical cluster analysis (HCA), and K-means clustering) and supervised (partial least squares-discriminant analysis (PLS-DA), orthogonal partial least squares-discriminant analysis (OPLS-DA), support vector machines (SVM), and deep neural network (DNN) with Keras) chemometric techniques were employed for classifying the 71 MA seizures. The results of the PCA, HCA, K-means clustering, PLS-DA, OPLS-DA, SVM, and DNN methods for quality evaluation were in good agreement. However, the tested MA seizures possessed distinct features, such as chirality, cutting agents, and boiling points. The study indicated that the established qualitative and semi-quantitative methods will be practical and useful analytical tools for characterizing trace compounds in illicit MA seizures. Moreover, they will provide a statistical basis for identifying the synthesis route, sources of supply, trafficking routes, and connections between seizures, which will support drug law enforcement agencies in their effort to eliminate organized MA crime.

A semi-supervised interpretable machine learning framework for sensor fault detection

  • Martakis, Panagiotis;Movsessian, Artur;Reuland, Yves;Pai, Sai G.S.;Quqa, Said;Cava, David Garcia;Tcherniak, Dmitri;Chatzi, Eleni
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.251-266
    • /
    • 2022
  • Structural Health Monitoring (SHM) of critical infrastructure comprises a major pillar of maintenance management, shielding public safety and economic sustainability. Although SHM is usually associated with data-driven metrics and thresholds, expert judgement is essential, especially in cases where erroneous predictions can bear casualties or substantial economic loss. Considering that visual inspections are time consuming and potentially subjective, artificial-intelligence tools may be leveraged in order to minimize the inspection effort and provide objective outcomes. In this context, timely detection of sensor malfunctioning is crucial in preventing inaccurate assessment and false alarms. The present work introduces a sensor-fault detection and interpretation framework, based on the well-established support-vector machine scheme for anomaly detection, combined with a coalitional game-theory approach. The proposed framework is implemented in two datasets, provided along the 1st International Project Competition for Structural Health Monitoring (IPC-SHM 2020), comprising acceleration and cable-load measurements from two real cable-stayed bridges. The results demonstrate good predictive performance and highlight the potential for seamless adaption of the algorithm to intrinsically different data domains. For the first time, the term "decision trajectories", originating from the field of cognitive sciences, is introduced and applied in the context of SHM. This provides an intuitive and comprehensive illustration of the impact of individual features, along with an elaboration on feature dependencies that drive individual model predictions. Overall, the proposed framework provides an easy-to-train, application-agnostic and interpretable anomaly detector, which can be integrated into the preprocessing part of various SHM and condition-monitoring applications, offering a first screening of the sensor health prior to further analysis.

PA 흉부 X-선 영상 패치 분할에 의한 지역 특수성 이상 탐지 방법 (A Method for Region-Specific Anomaly Detection on Patch-wise Segmented PA Chest Radiograph)

  • 김현빈;전준철
    • 인터넷정보학회논문지
    • /
    • 제24권1호
    • /
    • pp.49-59
    • /
    • 2023
  • COVID-19로 대표되는 팬데믹 상황에서 의료 인력 부족으로 인한 문제가 대두되고 있다. 본 논문에서는 진단 업무를 지원하기 위한 컴퓨터 비전 솔루션으로 PA 흉부 X-선 영상에 대한 병변 유무 진단 방법에 대해 제시한다. 디지털 영상에 대한 특징 비교 방식의 이상 탐지 기법을 X-선 영상에 적용하여 비정상적인 영역을 예측할 수 있다. 정렬된 PA 흉부 X-선 영상으로부터 특징 벡터를 추출하고 패치 단위로 분할하여 지역적으로 등장하는 비정상을 포착한다. 사전 실험으로 다중 객체를 포함하는 시뮬레이션 데이터 세트를 생성하고 이에 대한 비교 실험 결과를 제시한다. 정렬된 영상에 대해 적용 가능한 패치 특징 하드마스킹을 통해 프로세스의 효율성 및 성능을 향상하는 방법을 제시한다. 지역 특수성 및 전역 이상 탐지 결과를 합산하여 기존 연구 대비 6.9%p AUROC 향상된 성능을 보인다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법 (Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases)

  • 박영민;김예진;강상우;서정연
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.27-41
    • /
    • 2016
  • 개체명 인식은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미하며 최근 주목 받고 있는 음성 비서 서비스 등 다양한 응용 분야에 널리 활용되고 있다. 본 논문에서는 지식베이스를 사용하여 개체명 인식 코퍼스를 자동으로 생성하는 방법을 제안한다. 지식베이스의 종류에 따라 두 가지 방법을 적용하며 그 중 첫 번째 방법은 위키피디아를 기반으로 위키피디아 본문의 문장에 개체명 표지를 부착하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 인터넷으로부터 다양한 형태의 문장을 수집하고 다양한 개체들 간의 관계를 데이터베이스에 보유 중인 프리베이스를 이용하여 개체명 표지를 부착하는 방법으로 학습 코퍼스를 생성한다. 자동 생성된 학습 코퍼스의 질과 본 논문에서 제안하는 학습 코퍼스 자동 생성 기법을 평가하기 위해 두 가지로 실험했다. 첫 번째, 다른 형태의 지식베이스인 위키피디아와 프리베이스(Freebase)를 기반으로 생성된 학습 코퍼스의 표지 부착 성능을 수동으로 측정하여 코퍼스의 질을 평가하였다. 두 번째, 각 코퍼스로 학습된 개체명 인식 모델의 성능을 통해 제안하는 학습 코퍼스 자동 생성 기법의 실용성을 평가하였다. 실험을 통해 본 방법이 타당함을 증명하였으며 특히 실제 응용에서 많이 사용되는 웹 데이터 환경에서 의미 있는 성능 향상을 보여주었다.

  • PDF

상황 인식 기반 다중 영역 분류기 비접촉 인터페이스기술 개발 (Technology Development for Non-Contact Interface of Multi-Region Classifier based on Context-Aware)

  • 김송국;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.175-182
    • /
    • 2020
  • 비접촉식 시선추적 기술은 인간과 컴퓨터간의 인터페이스로서 장애가 있는 사람들에게 핸즈프리 통신을 제공하며, 최근 코로나 바이러스 등으로 인한 비접촉시스템에도 중요한 역할을 할 것으로 기대된다. 따라서 본 논문에서는 인간 중심의 상호 작용을 위한 상황인식 다중영역 분류기 및 ASSL 알고리즘을 기반으로 한 사용자 인터페이스 기술을 개발한다. 이전의 AdaBoost 알고리즘은 안구 특징 사이의 공간적 맥락 관계를 이용할 수 없기 때문에 눈의 커서 포인팅 추정을 위한 안면 추적에서 충분히 신뢰할 수 있는 성능을 제공 할 수 없다. 따라서 본 논문에서는 효율적인 비접촉식 시선 추적 및 마우스 구현을 위한 눈 영역의 상황기반 AdaBoost 다중 영역 분류기를 제시한다. 제안된 방식은 여러 시선 기능을 감지, 추적 및 집계하여 시선을 평가하고 온 스크린 커서 기반의 능동 및 반 감독 학습을 조정한다. 이는 눈 위치에 성공적으로 사용되었으며 눈 특징을 감지하고 추적하는 데에도 사용할 수 있다. 사용자의 시선을 따라 컴퓨터 커서를 제어하며 칼만 필터를 이용하여 실시간으로 추적하며, 가우시안 모델링을 적용함으로써 후처리하였다. Fits law에 의해 실험하였으며, 랜덤하게 대상객체를 생성하여 실시간으로 시선추적성능을 분석하였다. 제안하는 상황인식을 기반 인식기를 통하여 비접촉 인터페이스로서의 활용이 높아질 것이다.

영상 기반 Semantic Segmentation 알고리즘을 이용한 도로 추출 (Road Extraction from Images Using Semantic Segmentation Algorithm)

  • 오행열;전승배;김건;정명훈
    • 한국측량학회지
    • /
    • 제40권3호
    • /
    • pp.239-247
    • /
    • 2022
  • 현대에는 급속한 산업화와 인구 증가로 인해 도시들이 더욱 복잡해지고 있다. 특히 도심은 택지개발, 재건축, 철거 등으로 인해 빠르게 변화하는 지역에 해당한다. 따라서 자율주행에 필요한 정밀도로지도와 같은 다양한 목적을 위해 빠른 정보 갱신이 필요하다. 우리나라의 경우 기존 지도 제작 과정을 통해 지도를 제작하면 정확한 공간정보를 생성할 수 있으나 대상 지역이 넓은 경우 시간과 비용이 많이 든다는 한계가 있다. 지도 요소 중 하나인 도로는 인류 문명을 위한 많은 다양한 자원을 제공하는 중추이자 필수적인 수단에 해당한다. 따라서 도로 정보를 정확하고 신속하게 갱신하는 것이 중요하다. 이 목표를 달성하기 위해 본 연구는 Semantic Segmentation 알고리즘인 LinkNet, D-LinkNet 및 NL-LinkNet을 사용하여 광주광역시 도시철도 2호선 공사 현장을 촬영한 드론 정사영상에서 도로를 추출한 다음 성능이 가장 높은 모델에 하이퍼 파라미터 최적화를 적용하였다. 그 결과, 사전 훈련된 ResNet-34를 Encoder로 사용한 LinkNet 모델이 85.125 mIoU를 달성했다. 향후 연구 방향으로 최신 Semantic Segmentation 알고리즘 또는 준지도 학습 기반 Semantic Segmentation 기법을 사용하는 연구의 결과와의 비교 분석이 수행될 것이다. 본 연구의 결과는 기존 지도 갱신 프로세스의 속도를 개선하는 데 도움을 줄 수 있을 것으로 예상된다.