• 제목/요약/키워드: semi-supervised method

검색결과 85건 처리시간 0.025초

그래프 임베딩 및 준지도 기반의 이더리움 피싱 스캠 탐지 (Ethereum Phishing Scam Detection based on Graph Embedding and Semi-Supervised Learning)

  • 정유영;김경태;임동혁
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권5호
    • /
    • pp.165-170
    • /
    • 2023
  • 최근 블록체인 기술이 부상하면서 이를 이용한 암호화폐 플랫폼이 늘어나며 화폐 거래가 활발이 이뤄지고 있다. 그러나 암호화폐의 특성을 악용한 범죄 또한 늘어나 문제가 되고 있다. 특히 피싱 스캠은 이더리움 사이버 범죄의 과반수 이상을 차지하며 주요 보안 위협원으로 여겨지고 있다. 따라서 효과적인 피싱 스캠 탐지 방법이 시급하다. 그러나 전체 이더리움 참여 계정 주소에서 라벨링된 피싱 주소의 부족으로 인한 데이터 불균형 문제로 지도학습에 충분한 데이터 제공이 어려운 상황이다. 이를 해결하기 위하여 본 논문에서는 이더리움 트랜잭션 네트워크를 고려한 효과적인 그래프 임베딩 기법인 trans2vec과 준지도 학습 모델 tri-training을 함께 사용하여 라벨링된 데이터 뿐만 아니라 라벨링되지 않은 데이터도 최대한 활용하는 피싱 스캠 탐지 방법을 제안한다.

준지도 학습 기반 선박충돌 예측에 대한 연구 (A Study on the Prediction of Ship Collision Based on Semi-Supervised Learning)

  • 석호준;심승;우정훈;조준래;조득재;백종화;정재룡
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.204-205
    • /
    • 2023
  • 본 연구는 준지도학습(SSL)을 기반한 소형 어선의 충돌 경보 송출 예측 모델에 관한 연구이다. 지도학습(SL) 방법은 레이블링된 다수의 데이터가 필요하지만 레이블링 과정에서 많은 자원과 시간이 소요된다. 본 연구는 '지능형 해상교통정보 서비스'와 연계한 데이터 파이프 라인을 통해 수집된 서비스 데이터와 실해역 시험에서 수집한 데이터를 사용하였다. 실제 사용자 만족도 기반으로 레이블이 결정된 실해역 시험 데이터만 아니라 레이블이 결정되지 않은 서비스 데이터를 함께 학습시킨 결과, 모델 정확도가 향상되었다.

  • PDF

Issues and Empirical Results for Improving Text Classification

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.150-160
    • /
    • 2011
  • Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

기계학습기법에 기반한 국제 유가 예측 모델 (Oil Price Forecasting Based on Machine Learning Techniques)

  • 박강희;;신현정
    • 대한산업공학회지
    • /
    • 제37권1호
    • /
    • pp.64-73
    • /
    • 2011
  • Oil price prediction is an important issue for the regulators of the government and the related industries. When employing the time series techniques for prediction, however, it becomes difficult and challenging since the behavior of the series of oil prices is dominated by quantitatively unexplained irregular external factors, e.g., supply- or demand-side shocks, political conflicts specific to events in the Middle East, and direct or indirect influences from other global economical indices, etc. Identifying and quantifying the relationship between oil price and those external factors may provide more relevant prediction than attempting to unclose the underlying structure of the series itself. Technically, this implies the prediction is to be based on the vectoral data on the degrees of the relationship rather than the series data. This paper proposes a novel method for time series prediction of using Semi-Supervised Learning that was originally designed only for the vector types of data. First, several time series of oil prices and other economical indices are transformed into the multiple dimensional vectors by the various types of technical indicators and the diverse combination of the indicator-specific hyper-parameters. Then, to avoid the curse of dimensionality and redundancy among the dimensions, the wellknown feature extraction techniques, PCA and NLPCA, are employed. With the extracted features, a timepointspecific similarity matrix of oil prices and other economical indices is built and finally, Semi-Supervised Learning generates one-timepoint-ahead prediction. The series of crude oil prices of West Texas Intermediate (WTI) was used to verify the proposed method, and the experiments showed promising results : 0.86 of the average AUC.

한정된 레이블 데이터를 이용한 효율적인 철도 표면 결함 감지 방법 (An Efficient Detection Method for Rail Surface Defect using Limited Label Data)

  • 한석민
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.83-88
    • /
    • 2024
  • 본 연구에서는 Railroad surface 데이터를 활용하여 Semi-Supervised learning방식으로 railroad surface의 defect를 검출해내는 방안을 제안한다. Resnet50에 ImageNet으로 pretrained된 모델을 이용한다. Label이 없는 데이터에서 무작위로 데이터를 선정, 선정한 데이터에 label을 부여한 뒤 이 데이터로 모델을 학습시킨다. 학습된 모델을 이용하여 나머지 데이터의 결과값을 예측한 후, 그 예측값이 일정한 threshold보다 큰 것을 골라내고, threshold보다 큰 값들을 값이 큰 순서대로 정렬하여, 일정한 크기만큼 training data에 추가한다. 이 때, 각 class에 속할 확률이 높은 쪽으로 pseudo-labeling을 수행한다. 초기에 label이 부여된 데이터 개수에 따른 전체적인 class 분류 성능을 확인하는 실험 또한 진행하였고, 전체 training data대비 10% 미만의 labeled data로 최대 98%의 정확도를 얻는 성능을 보였다.

SVM을 이용한 고속철도 궤도틀림 식별에 관한 연구 (A Study on Identification of Track Irregularity of High Speed Railway Track Using an SVM)

  • 김기동;황순현
    • 산업기술연구
    • /
    • 제33권A호
    • /
    • pp.31-39
    • /
    • 2013
  • There are two methods to make a distinction of deterioration of high-speed railway track. One is that an administrator checks for each attribute value of track induction data represented in graph and determines whether maintenance is needed or not. The other is that an administrator checks for monthly trend of attribute value of the corresponding section and determines whether maintenance is needed or not. But these methods have a weak point that it takes longer times to make decisions as the amount of track induction data increases. As a field of artificial intelligence, the method that a computer makes a distinction of deterioration of high-speed railway track automatically is based on machine learning. Types of machine learning algorism are classified into four type: supervised learning, unsupervised learning, semi-supervised learning, and reinforcement learning. This research uses supervised learning that analogizes a separating function form training data. The method suggested in this research uses SVM classifier which is a main type of supervised learning and shows higher efficiency binary classification problem. and it grasps the difference between two groups of data and makes a distinction of deterioration of high-speed railway track.

  • PDF

준 지도학습 알고리즘을 이용한 뇌파 감정 분석을 위한 학습데이터 선택 방법에 관한 연구 (A Study on Training Data Selection Method for EEG Emotion Analysis using Semi-supervised Learning Algorithm)

  • 윤종섭;김진헌
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.816-821
    • /
    • 2018
  • 최근 감정 분석 및 질병 진단을 위한 뇌파 연구 분야에서 인공 신경망을 기반으로 한 기계학습 알고리즘이 분류기로 널리 사용되기 시작했다. 뇌파 데이터 분류를 위해 기계학습 모델을 사용하는 경우 유사한 특성을 가지는 데이터만으로 학습데이터가 구성되면 다른 그룹의 데이터에 적용했을 때 분류 성능이 떨어질 수 있다. 본 논문에서는 이러한 문제점을 개선하기 위해 준 지도학습 알고리즘을 사용해 여러 그룹의 데이터를 선택하여 학습데이터 세트를 구성하는 방법을 제안한다. 이후 제안하는 방법을 사용하여 구성한 학습데이터 세트와 유사한 특성을 가지는 데이터로 구성된 학습데이터 세트로 모델을 학습하여 두 모델의 성능을 비교하였다.

자가학습과 지식증류 방법을 활용한 LiDAR 3차원 물체 탐지에서의 준지도 도메인 적응 (Semi-Supervised Domain Adaptation on LiDAR 3D Object Detection with Self-Training and Knowledge Distillation)

  • 우정완;김재열;임성훈
    • 로봇학회논문지
    • /
    • 제18권3호
    • /
    • pp.346-351
    • /
    • 2023
  • With the release of numerous open driving datasets, the demand for domain adaptation in perception tasks has increased, particularly when transferring knowledge from rich datasets to novel domains. However, it is difficult to solve the change 1) in the sensor domain caused by heterogeneous LiDAR sensors and 2) in the environmental domain caused by different environmental factors. We overcome domain differences in the semi-supervised setting with 3-stage model parameter training. First, we pre-train the model with the source dataset with object scaling based on statistics of the object size. Then we fine-tine the partially frozen model weights with copy-and-paste augmentation. The 3D points in the box labels are copied from one scene and pasted to the other scenes. Finally, we use the knowledge distillation method to update the student network with a moving average from the teacher network along with a self-training method with pseudo labels. Test-Time Augmentation with varying z values is employed to predict the final results. Our method achieved 3rd place in ECCV 2022 workshop on the 3D Perception for Autonomous Driving challenge.

준지도 학습을 활용한 사용자 기반 소형 어선 충돌 경보 분류모델에대한 연구 (A Study on the User-Based Small Fishing Boat Collision Alarm Classification Model Using Semi-supervised Learning)

  • 석호준;심승;우정훈;조준래;정재룡;조득재;백종화
    • 한국항해항만학회지
    • /
    • 제47권6호
    • /
    • pp.358-366
    • /
    • 2023
  • 본 연구는 해양수산부의 '지능형 해상교통정보시스템' 서비스 중 '사고취약선박 모니터링 서비스'의 선박 충돌 경보를 개선하기 위한 것으로, 현재의 선박 충돌 경보는 대형 선박 위주의 데이터와 그 운항자에 기반한 설문조사 레이블을 가지고 지도 학습(SL)한 모델을 사용하고 있다. 이로 인해, 소형선박 데이터 및 운항자의 의견이 현재 충돌 지도학습 모델에 반영되지 않아, 소형선박 운항자가 느끼는 체감보다 먼 거리에서 경보가 제공되기 때문에 그 효과가 미비하다. 또한, 지도학습(SL) 방법은 레이블링 된 다수의 데이터가 필요하지만, 레이블링 과정에서 많은 자원과 시간이 필요하다. 본 논문은 이러한 한계를 극복하기 위해 준지도학습(SSL)의 알고리즘인 Label Propagation과 TabNet을 사용하여 레이블이 결정되지 않은 데이터를 활용하여 소형선박을 위한 충돌 경보의 분류 모델을 연구하였다. 충돌 경보의 분류 모델을 활용하여 소형선박 운항자를 대상으로 실해역 시험을 수행한 결과 운항자의 만족도가 증가하는 결과를 확인하였다.

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary)

  • 강상욱;김민호;권혁철;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.107-112
    • /
    • 2016
  • 국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.