• 제목/요약/키워드: Machine learning labeling

검색결과 54건 처리시간 0.023초

준지도학습 기반 반도체 공정 이상 상태 감지 및 분류 (Semi-Supervised Learning for Fault Detection and Classification of Plasma Etch Equipment)

  • 이용호;최정은;홍상진
    • 반도체디스플레이기술학회지
    • /
    • 제19권4호
    • /
    • pp.121-125
    • /
    • 2020
  • With miniaturization of semiconductor, the manufacturing process become more complex, and undetected small changes in the state of the equipment have unexpectedly changed the process results. Fault detection classification (FDC) system that conducts more active data analysis is feasible to achieve more precise manufacturing process control with advanced machine learning method. However, applying machine learning, especially in supervised learning criteria, requires an arduous data labeling process for the construction of machine learning data. In this paper, we propose a semi-supervised learning to minimize the data labeling work for the data preprocessing. We employed equipment status variable identification (SVID) data and optical emission spectroscopy data (OES) in silicon etch with SF6/O2/Ar gas mixture, and the result shows as high as 95.2% of labeling accuracy with the suggested semi-supervised learning algorithm.

악성코드 분석의 Ground-Truth 향상을 위한 Unified Labeling과 Fine-Grained 검증 (Unified Labeling and Fine-Grained Verification for Improving Ground-Truth of Malware Analysis)

  • 오상진;박래현;권태경
    • 정보보호학회논문지
    • /
    • 제29권3호
    • /
    • pp.549-555
    • /
    • 2019
  • 최근 AV 벤더들의 악성코드 동향 보고서에 따르면 신종, 변종 악성코드의 출현 개수가 기하급수적으로 증가하고 있다. 이에 따라 분석 속도가 떨어지는 수동적 분석방법을 대체하고자 기계학습을 적용하는 악성코드 분석 연구가 활발히 연구되고 있다. 하지만 지도학습기반의 기계학습을 이용할 때 많은 연구에서 AV 벤더가 제공하는 신뢰성이 낮은 악성코드 패밀리명을 레이블로 사용하고 있다. 이와 같이 악성코드 레이블의 낮은 신뢰성 문제를 해결하기 위해 본 논문에서는 새로운 레이블링 기법인 "Unified Labeling"을 소개하고 나아가 Fine-grained 방식의 특징 분석을 통해 악성 행위 유사성을 검증한다. 본 연구의 검증을 위해 다양한 기반의 클러스터링 알고리즘을 이용하여 기존의 레이블링 기법과 비교하였다.

데이터 라벨링 중심의 머신러닝 교육이 초등학생 컴퓨팅 사고력에 미치는 효과 (Effect of Machine Learning Education Focused on Data Labeling on Computational Thinking of Elementary School Students)

  • 문우종;김봄솔;김정아;김봉철;서영호;오정철;김용민;김종훈
    • 정보교육학회논문지
    • /
    • 제25권2호
    • /
    • pp.327-335
    • /
    • 2021
  • 본 연구는 초등학생의 컴퓨팅 사고력을 향상시키기 위한 교육 방법으로 데이터 라벨링 중심의 머신러닝 교육 프로그램을 개발하여 적용한 후 그 효과를 검증하였다. 교육 프로그램은 현직 초등학교 교사 100명을 대상으로 실시한 사전 요구분석 결과를 바탕으로 설계 및 개발을 진행하였다. 개발한 교육 프로그램의 효과를 검증하기 위하여 K 초등학교에 재학 중인 6학년 학생 17명을 대상으로 1일 2차시씩 총 6주간 12차시의 교육을 진행하였다. 해당 교육이 컴퓨팅 사고력 향상에 미친 효과를 측정하기 위해 ' 버챌린지(Bebras Challenge)'를 활용하여 사전 사후 검사를 진행하여 교육적 효과를 분석하였다. 분석 결과 데이터 라벨링 중심의 머신러닝 교육이 초등학생의 컴퓨팅 사고력 향상에 기여한 것으로 나타났다.

접사 구조 분석과 기계 학습에 기반한 한국어 의미 역 결정 (Korean Semantic Role Labeling Based on Suffix Structure Analysis and Machine Learning)

  • 석미란;김유섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.555-562
    • /
    • 2016
  • 의미 역 결정은 한 문장에서 술어와 그것의 논항간의 의미 관계를 결정해주는 것을 말한다. 한편 한국어 의미 역 결정은 영어와는 다른 한국어 고유의 특이한 언어 구조 때문에 많은 어려움을 가지고 있는데, 이러한 어려움 때문에 지금까지 제안된 다양한 방법들을 곧바로 적용하기에 어려움이 있었다. 다시 말하자면, 지금까지 제안된 방법들은 영어나 중국어에 적용했을 때에 비해서 한국어에 적용하면 낮은 성능을 보여주었던 것이다. 이러한 어려움을 해결하기 위하여 본 연구에서는 조사나 어미와 같은 접사구조를 분석하는 것에 초점을 맞추었다. 한국어는 일본어와 같은 교착어의 하나인데, 이들 교착어에서는 매우 잘 정리되어 있는 접사구조가 어휘에 반영되어 있다. 교착어는 바로 이들 잘 정의된 접사 구조 때문에 매우 자유로운 어순이 가능하다. 또한 본 연구에서는 단일 형태소로 이루어진 논항은 기초 통계량을 기준으로 의미 역 결정을 하였다. 또한 지지 벡터 기계(Support Vector Machine: SVM)과 조건부 무작위장(Conditional Random Fields: CRFs)와 갗은 기계 학습 알고리즘을 사용하여 앞에서 결정되지 못한 논항들의 의미 역을 결정하였다. 본 논문에서 제시된 방법은 기계 학습 접근 방식이 처리해야 하는 논항의 범위를 줄여주는 역할을 하는데, 이는 기계 학습 접근은 상대적으로 불확실하고 부정확한 의미 역 결정을 하기 때문이다. 실험에서는 본 연구는 15,224 논항을 사용하였는데, 약 83.24%의 f1 점수를 얻을 수 있었는데, 이는 한국어 의미 역 결정 연구에 있어서 해외에서 발표된 연구 중 가장 높은 성능으로 알려진 것에 비해 약 4.85%의 향상을 보여준 것이다.

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅 (Syllable-based Korean POS Tagging Based on Combining a Pre-analyzed Dictionary with Machine Learning)

  • 이충희;임준호;임수종;김현기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.362-369
    • /
    • 2016
  • 본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.

A Study on Image Labeling Technique for Deep-Learning-Based Multinational Tanks Detection Model

  • Kim, Taehoon;Lim, Dongkyun
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제14권4호
    • /
    • pp.58-63
    • /
    • 2022
  • Recently, the improvement of computational processing ability due to the rapid development of computing technology has greatly advanced the field of artificial intelligence, and research to apply it in various domains is active. In particular, in the national defense field, attention is paid to intelligent recognition among machine learning techniques, and efforts are being made to develop object identification and monitoring systems using artificial intelligence. To this end, various image processing technologies and object identification algorithms are applied to create a model that can identify friendly and enemy weapon systems and personnel in real-time. In this paper, we conducted image processing and object identification focused on tanks among various weapon systems. We initially conducted processing the tanks' image using a convolutional neural network, a deep learning technique. The feature map was examined and the important characteristics of the tanks crucial for learning were derived. Then, using YOLOv5 Network, a CNN-based object detection network, a model trained by labeling the entire tank and a model trained by labeling only the turret of the tank were created and the results were compared. The model and labeling technique we proposed in this paper can more accurately identify the type of tank and contribute to the intelligent recognition system to be developed in the future.

Normal data based rotating machine anomaly detection using CNN with self-labeling

  • Bae, Jaewoong;Jung, Wonho;Park, Yong-Hwa
    • Smart Structures and Systems
    • /
    • 제29권6호
    • /
    • pp.757-766
    • /
    • 2022
  • To train deep learning algorithms, a sufficient number of data are required. However, in most engineering systems, the acquisition of fault data is difficult or sometimes not feasible, while normal data are secured. The dearth of data is one of the major challenges to developing deep learning models, and fault diagnosis in particular cannot be made in the absence of fault data. With this context, this paper proposes an anomaly detection methodology for rotating machines using only normal data with self-labeling. Since only normal data are used for anomaly detection, a self-labeling method is used to generate a new labeled dataset. The overall procedure includes the following three steps: (1) transformation of normal data to self-labeled data based on a pretext task, (2) training the convolutional neural networks (CNN), and (3) anomaly detection using defined anomaly score based on the softmax output of the trained CNN. The softmax value of the abnormal sample shows different behavior from the normal softmax values. To verify the proposed method, four case studies were conducted, on the Case Western Reserve University (CWRU) bearing dataset, IEEE PHM 2012 data challenge dataset, PHMAP 2021 data challenge dataset, and laboratory bearing testbed; and the results were compared to those of existing machine learning and deep learning methods. The results showed that the proposed algorithm could detect faults in the bearing testbed and compressor with over 99.7% accuracy. In particular, it was possible to detect not only bearing faults but also structural faults such as unbalance and belt looseness with very high accuracy. Compared with the existing GAN, the autoencoder-based anomaly detection algorithm, the proposed method showed high anomaly detection performance.

P-Triple Barrier Labeling: Unifying Pair Trading Strategies and Triple Barrier Labeling Through Genetic Algorithm Optimization

  • Ning Fu;Suntae Kim
    • International journal of advanced smart convergence
    • /
    • 제12권4호
    • /
    • pp.111-118
    • /
    • 2023
  • In the ever-changing landscape of finance, the fusion of artificial intelligence (AI)and pair trading strategies has captured the interest of investors and institutions alike. In the context of supervised machine learning, crafting precise and accurate labels is crucial, as it remains a top priority to empower AI models to surpass traditional pair trading methods. However, prevailing labeling techniques in the financial sector predominantly concentrate on individual assets, posing a challenge in aligning with pair trading strategies. To address this issue, we propose an inventive approach that melds the Triple Barrier Labeling technique with pair trading, optimizing the resultant labels through genetic algorithms. Rigorous backtesting on cryptocurrency datasets illustrates that our proposed labeling method excels over traditional pair trading methods and corresponding buy-and-hold strategies in both profitability and risk control. This pioneering method offers a novel perspective on trading strategies and risk management within the financial domain, laying a robust groundwork for further enhancing the precision and reliability of pair trading strategies utilizing AI models.

Labeling Big Spatial Data: A Case Study of New York Taxi Limousine Dataset

  • AlBatati, Fawaz;Alarabi, Louai
    • International Journal of Computer Science & Network Security
    • /
    • 제21권6호
    • /
    • pp.207-212
    • /
    • 2021
  • Clustering Unlabeled Spatial-datasets to convert them to Labeled Spatial-datasets is a challenging task specially for geographical information systems. In this research study we investigated the NYC Taxi Limousine Commission dataset and discover that all of the spatial-temporal trajectory are unlabeled Spatial-datasets, which is in this case it is not suitable for any data mining tasks, such as classification and regression. Therefore, it is necessary to convert unlabeled Spatial-datasets into labeled Spatial-datasets. In this research study we are going to use the Clustering Technique to do this task for all the Trajectory datasets. A key difficulty for applying machine learning classification algorithms for many applications is that they require a lot of labeled datasets. Labeling a Big-data in many cases is a costly process. In this paper, we show the effectiveness of utilizing a Clustering Technique for labeling spatial data that leads to a high-accuracy classifier.

Classification-Based Approach for Hybridizing Statistical and Rule-Based Machine Translation

  • Park, Eun-Jin;Kwon, Oh-Woog;Kim, Kangil;Kim, Young-Kil
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.541-550
    • /
    • 2015
  • In this paper, we propose a classification-based approach for hybridizing statistical machine translation and rulebased machine translation. Both the training dataset used in the learning of our proposed classifier and our feature extraction method affect the hybridization quality. To create one such training dataset, a previous approach used auto-evaluation metrics to determine from a set of component machine translation (MT) systems which gave the more accurate translation (by a comparative method). Once this had been determined, the most accurate translation was then labelled in such a way so as to indicate the MT system from which it came. In this previous approach, when the metric evaluation scores were low, there existed a high level of uncertainty as to which of the component MT systems was actually producing the better translation. To relax such uncertainty or error in classification, we propose an alternative approach to such labeling; that is, a cut-off method. In our experiments, using the aforementioned cut-off method in our proposed classifier, we managed to achieve a translation accuracy of 81.5% - a 5.0% improvement over existing methods.