• 제목/요약/키워드: Semi-supervised

검색결과 172건 처리시간 0.124초

나이브 베이지안 환경에서 미분류 데이터를 이용한 성능향상 (Improving the Classification Accuracy Using Unlabeled Data: A Naive Bayesian Case)

  • 이창환
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.457-462
    • /
    • 2006
  • 많은 경우에 분류데이터의 생성은 사람의 시간과 노력에 의존하기 때문에 많은 비용과 시간을 요구한다. 이에 반하여 미분류 데이터는 거의 비용을 들이지 않고 무제한의 데이터를 쉽게 획득할 수 있다. 따라서 기계학습에 있어서 이러한 미분류 데이터를 이용하여 분류학습의 성능을 향상시킬 수 있는 준감독자(semi-supervised)학습 방법이 최근 관심을 끌고 있다. 본 논문에서는 미분류 데이터가 분류학습의 성능향상에 마치는 영향을 분석하기 위하여 나이브 베이지안의 환경에서 미분류 데이터를 이용한 학습방법을 제시하고 이를 이용하여 미분류 데이터의 효용성을 실험적으로 조사하였다. 미분류 데이터는 나이브 베이지안의 환경에서 분류데이터의 숫자가 적을 때 특히 많은 효과를 보임을 알 수 있었다.

다중 분기 트리와 ASSL을 결합한 오픈 셋 물체 검출 (Open set Object Detection combining Multi-branch Tree and ASSL)

  • 신동균;민하즈 우딘 아흐메드;김진우;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.171-177
    • /
    • 2018
  • 최근 많은 이미지 데이터 셋들은 일반적인 특성을 추출하기 위한 다양한 데이터 클래스와 특징을 가지고 있다. 하지만 이러한 다양한 데이터 클래스와 특징으로 인해 해당 데이터 셋으로 훈련된 물체 검출 딥러닝 모델은 데이터 특성이 다른 환경에서 좋은 성능을 내지 못하는 단점을 보인다. 이 논문에서는 하위 카테고리 기반 물체 검출 방법과 오픈셋 물체 검출 방법을 이용하여 이를 극복하고, 강인한 물체 검출 딥러닝 모델을 훈련하기 위해 능동 준지도 학습 (Active Semi-Supervised Learning)을 이용한 다중 분기 트리 구조를 제안한다. 우리는 이 구조를 이용함으로써 데이터 특성이 다른 환경에서 적응할 수 있는 모델을 가질 수 있고, 나아가 이 모델을 이용하여 이전의 모델보다 높은 성능을 확보 할 수 있다.

반지도식 자기조직화지도를 이용한 wifi fingerprint 보정 방법 (Wifi Fingerprint Calibration Using Semi-Supervised Self Organizing Map)

  • 타이광퉁;정기숙;금창섭
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.536-544
    • /
    • 2017
  • 무선 RSSI fingerprinting 방식은 기존 무선 인프라를 이용하면서 적정수준의 정확도를 얻을 수 있는 실내위치인식 방법 중의 하나이다. 하지만 라디오 맵 구성( fingerprint calibration) 과정에서 목표 환경의 다양한 위치에서 정확한 물리적 좌표와 무선 신호를 측정해야 하므로 시간과 노력이 많이 소요된다. 이 논문은 이러한 방식으로 위치 정보를 수집하지 않고 반지도식 자기조직화지도 학습 알고리즘을 사용하여 labeled RSSI를 얻고 RSSI 조합으로부터 맵을 구성하는 방법을 제안한다. 모의 데이터에 대한 실험을 통해 제안 방법이 fingerprint 데이터베이스로 부터 1%의 RSSI 샘플을 가지고 효과적인 전체 맵을 얻을 수 있다는 결론을 얻었다.

준 지도학습 알고리즘을 이용한 뇌파 감정 분석을 위한 학습데이터 선택 방법에 관한 연구 (A Study on Training Data Selection Method for EEG Emotion Analysis using Semi-supervised Learning Algorithm)

  • 윤종섭;김진헌
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.816-821
    • /
    • 2018
  • 최근 감정 분석 및 질병 진단을 위한 뇌파 연구 분야에서 인공 신경망을 기반으로 한 기계학습 알고리즘이 분류기로 널리 사용되기 시작했다. 뇌파 데이터 분류를 위해 기계학습 모델을 사용하는 경우 유사한 특성을 가지는 데이터만으로 학습데이터가 구성되면 다른 그룹의 데이터에 적용했을 때 분류 성능이 떨어질 수 있다. 본 논문에서는 이러한 문제점을 개선하기 위해 준 지도학습 알고리즘을 사용해 여러 그룹의 데이터를 선택하여 학습데이터 세트를 구성하는 방법을 제안한다. 이후 제안하는 방법을 사용하여 구성한 학습데이터 세트와 유사한 특성을 가지는 데이터로 구성된 학습데이터 세트로 모델을 학습하여 두 모델의 성능을 비교하였다.

Learning Context Awareness Model based on User Feedback for Smart Home Service

  • Kwon, Seongcheol;Kim, Seyoung;Ryu, Kwang Ryel
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권7호
    • /
    • pp.17-29
    • /
    • 2017
  • IRecently, researches on the recognition of indoor user situations through various sensors in a smart home environment are under way. In this paper, the case study was conducted to determine the operation of the robot vacuum cleaner by inferring the user 's indoor situation through the operation of home appliances, because the indoor situation greatly affects the operation of home appliances. In order to collect learning data for indoor situation awareness model learning, we received feedbacks from user when there was a mistake about the cleaning situation. In this paper, we propose a semi-supervised learning method using user feedback data. When we receive a user feedback, we search for the labels of unlabeled data that most fit the feedbacks collected through genetic algorithm, and use this data to learn the model. In order to verify the performance of the proposed algorithm, we performed a comparison experiments with other learning algorithms in the same environment and confirmed that the performance of the proposed algorithm is better than the other algorithms.

A Sentiment Classification Approach of Sentences Clustering in Webcast Barrages

  • Li, Jun;Huang, Guimin;Zhou, Ya
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.718-732
    • /
    • 2020
  • Conducting sentiment analysis and opinion mining are challenging tasks in natural language processing. Many of the sentiment analysis and opinion mining applications focus on product reviews, social media reviews, forums and microblogs whose reviews are topic-similar and opinion-rich. In this paper, we try to analyze the sentiments of sentences from online webcast reviews that scroll across the screen, which we call live barrages. Contrary to social media comments or product reviews, the topics in live barrages are more fragmented, and there are plenty of invalid comments that we must remove in the preprocessing phase. To extract evaluative sentiment sentences, we proposed a novel approach that clusters the barrages from the same commenter to solve the problem of scattering the information for each barrage. The method developed in this paper contains two subtasks: in the data preprocessing phase, we cluster the sentences from the same commenter and remove unavailable sentences; and we use a semi-supervised machine learning approach, the naïve Bayes algorithm, to analyze the sentiment of the barrage. According to our experimental results, this method shows that it performs well in analyzing the sentiment of online webcast barrages.

Constrained Sparse Concept Coding algorithm with application to image representation

  • Shu, Zhenqiu;Zhao, Chunxia;Huang, Pu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권9호
    • /
    • pp.3211-3230
    • /
    • 2014
  • Recently, sparse coding has achieved remarkable success in image representation tasks. In practice, the performance of clustering can be significantly improved if limited label information is incorporated into sparse coding. To this end, in this paper, a novel semi-supervised algorithm, called constrained sparse concept coding (CSCC), is proposed for image representation. CSCC considers limited label information into graph embedding as additional hard constraints, and hence obtains embedding results that are consistent with label information and manifold structure information of the original data. Therefore, CSCC can provide a sparse representation which explicitly utilizes the prior knowledge of the data to improve the discriminative power in clustering. Besides, a kernelized version of our proposed CSCC, namely kernel constrained sparse concept coding (KCSCC), is developed to deal with nonlinear data, which leads to more effective clustering performance. The experimental evaluations on the MNIST, PIE and Yale image sets show the effectiveness of our proposed algorithms.

군집화 기법을 이용한 준감독 군집화의 훈련예제 선정 (Selecting Examples to Be Labeled for Semi-Supervised Clustering Using Cluster-Based Sampling)

  • 김종성;강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.646-648
    • /
    • 2004
  • 기계학습의 군집화(clustering) 기법은 예제들 간의 유사성에 근거하여 주어진 예제들을 무리 짓는 방법이다. 준감독(semi-supervised) 군집화는 카테고리가 부여된(labeled) 소수의 예제들을 적극적으로 활용하여 군집형태가 보다 자연스럽게 형성되도록 유도하는 군집화 방법이다. 준감독 군집화 문제에서 예제에 카테고리를 부여하는 작업은 현실적으로 극히 제한적이거나 카테고리를 부여하는데 소요되는 비용이 상당하므로, 제한된 자원 내에서 군집화에 효용성이 높을 예제들을 선정하여 카테고리를 부여하는 것이 필요하다. 본 논문에서는 기존 연구에서 능동적 학습의 초기 훈련예제 선정을 위해 제안된 군집기반 훈련예제 선정 방법을 준감독 군집화에 적용하여 군집 결과의 질을 향상시키고자 한다. 군집화를 이용한 예제 선정 방법은 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 가정하에 전체 예제를 활용하여 선정하고자 하는 예제 수만큼 군집을 생성 한 후. 각 군집의 중심점에 가장 가까운 예제들을 대표 예제로 선정하여 훈련 집합을 구성하는 방법이다 본 논문에서는 문서를 대상으로 하는 준감독 군집화 실험을 통해, 카테고리를 부여할 예제를 임의로 선정한 경우에 비해 군집화를 이용한 훈련 예제들로 준감독 군집화를 수행한 경우가 보다 좋은 군집을 형성함을 확인하였다.

  • PDF

Semi-supervised based Unknown Attack Detection in EDR Environment

  • Hwang, Chanwoong;Kim, Doyeon;Lee, Taejin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4909-4926
    • /
    • 2020
  • Cyberattacks penetrate the server and perform various malicious acts such as stealing confidential information, destroying systems, and exposing personal information. To achieve this, attackers perform various malicious actions by infecting endpoints and accessing the internal network. However, the current countermeasures are only anti-viruses that operate in a signature or pattern manner, allowing initial unknown attacks. Endpoint Detection and Response (EDR) technology is focused on providing visibility, and strong countermeasures are lacking. If you fail to respond to the initial attack, it is difficult to respond additionally because malicious behavior like Advanced Persistent Threat (APT) attack does not occur immediately, but occurs over a long period of time. In this paper, we propose a technique that detects an unknown attack using an event log without prior knowledge, although the initial response failed with anti-virus. The proposed technology uses a combination of AutoEncoder and 1D CNN (1-Dimention Convolutional Neural Network) based on semi-supervised learning. The experiment trained a dataset collected over a month in a real-world commercial endpoint environment, and tested the data collected over the next month. As a result of the experiment, 37 unknown attacks were detected in the event log collected for one month in the actual commercial endpoint environment, and 26 of them were verified as malicious through VirusTotal (VT). In the future, it is expected that the proposed model will be applied to EDR technology to form a secure endpoint environment and reduce time and labor costs to effectively detect unknown attacks.

소량 데이터 딥러닝 기반 강판 표면 결함 검출 시스템 개발 (Development of a Steel Plate Surface Defect Detection System Based on Small Data Deep Learning)

  • 게이뷸라예프 압둘라지즈;이나현;이기환;김태형
    • 대한임베디드공학회논문지
    • /
    • 제17권3호
    • /
    • pp.129-138
    • /
    • 2022
  • Collecting and labeling sufficient training data, which is essential to deep learning-based visual inspection, is difficult for manufacturers to perform because it is very expensive. This paper presents a steel plate surface defect detection system with industrial-grade detection performance by training a small amount of steel plate surface images consisting of labeled and non-labeled data. To overcome the problem of lack of training data, we propose two data augmentation techniques: program-based augmentation, which generates defect images in a geometric way, and generative model-based augmentation, which learns the distribution of labeled data. We also propose a 4-step semi-supervised learning using pseudo labels and consistency training with fixed-size augmentation in order to utilize unlabeled data for training. The proposed technique obtained about 99% defect detection performance for four defect types by using 100 real images including labeled and unlabeled data.