• Title/Summary/Keyword: Semi-Supervised learning

Search Result 150, Processing Time 0.026 seconds

Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning (준지도학습을 통한 세부감성 어휘 구축)

  • Jo, Yo-Han;Oh, Hyo-Jung;Lee, Chung-Hee;Kim, Hyun-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.33-38
    • /
    • 2013
  • 소셜미디어를 통한 여론분석과 브랜드 모니터링에 대한 요구가 증가하면서, 빅데이터로부터 감성을 분석하는 기술에 대한 필요가 늘고 있다. 이를 위해, 본 논문에서는 단순 긍/부정 감성이 아닌 20종류의 세분화된 감성을 분석하기 위한 감성어휘 구축 알고리즘을 제시한다. 감성어휘 구축을 위해서는 준지도학습을 사용하였으며, 도메인에 특화되지 않은 일반 감성어휘를 구축하도록 학습되었다. 학습된 감성어휘를 인물, 스마트기기, 정책 등 다양한 도메인의 트위터 데이터에 적용하여 세부감성을 분석한 결과, 알고리즘의 특성상 재현율이 낮다는 한계를 가지고 있었으나, 대부분의 감성에 대해 높은 정확도를 지닌 감성어휘를 구축할 수 있었고, 감성을 직간접적으로 나타내는 표현들을 학습할 수 있었다.

  • PDF

A Topic Classification System in cQA Services Based on Semi-Automatic Learning Using Wikipedia (위키피디아를 이용한 반자동 학습 기반의 cQA 서비스 주제 분류 시스템)

  • Kim, Taehyun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.139-141
    • /
    • 2015
  • 본 논문은 커뮤니티 기반의 질의-응답 서비스에서 사용자 질의의 주제를 분류하는 시스템을 소개한다. 커뮤니티 기반의 질의-응답 서비스는 분야에 따라 다양한 주제를 가질 수 있으며 오늘 날 사용자 질의의 주제 분류에는 통계 기반의 분류 방법이 많이 이용되고 있다. 통계 기반의 분류 방법으로 사용자 질의를 분류하기 위해서는 주제에 적합한 대량의 학습 말뭉치가 필요하다. 주제에 적합한 대량의 학습 말뭉치를 사람이 직접 구축하는 것은 많은 시간과 비용이 든다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 위키피디아 문서를 Supervised K-means Clustering 기법으로 주제별로 분류함으로써 학습 말뭉치를 반자동으로 구축하는 방법을 제안한다. 그 다음, 생성된 학습 말뭉치로 지지 벡터 기계를 학습하여 사용자 질의의 주제를 분류하게 된다. 위키피디아 문서와 사용자 질의는 다른 도메인의 문서임에도 불구하고 본 논문의 시스템으로 사용자 질의의 주제를 분류한 결과 77.33%의 정확도를 보였다.

  • PDF

Saliency Detection Based on Semi-Supervised Learning (준 지도 학습에 기반한 중요 객체 검출 방법)

  • Hwang, Insung;Lee, Sang Hwa;Park, Jae Sung;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.169-172
    • /
    • 2015
  • 본 논문에서는 준 지도 학습에 기반한 중요 객체 검출 방법을 제안한다. 첫째, 색상과 공간 정보를 활용하여 이미지를 분할한 후, 분할된 영역을 색상의 유사도로 연결하여 그래프를 만든다. 둘째, 색 대비 및 가장자리 사전 지식을 활용하여 중요 객체에 해당하는 씨앗 노드와 배경에 해당하는 씨앗 노드를 추출한다. 끝으로, 중요 객체 및 배경 씨앗 노드를 이용하여 준 지도학습 기법에 적용함으로써 이미지 전체 노드의 중요도를 계산한다. 실험 결과, 제안한 알고리즘이 최신의 다른 알고리즘보다 높은 재현율 구간에서 높은 정밀도를 보임을 확인할 수 있고, 시각적으로도 좋은 성능을 보임을 확인할 수 있다.

  • PDF

A Semi-supervised Learning of HMM to Build a POS Tagger for a Low Resourced Language

  • Pattnaik, Sagarika;Nayak, Ajit Kumar;Patnaik, Srikanta
    • Journal of information and communication convergence engineering
    • /
    • v.18 no.4
    • /
    • pp.207-215
    • /
    • 2020
  • Part of speech (POS) tagging is an indispensable part of major NLP models. Its progress can be perceived on number of languages around the globe especially with respect to European languages. But considering Indian Languages, it has not got a major breakthrough due lack of supporting tools and resources. Particularly for Odia language it has not marked its dominancy yet. With a motive to make the language Odia fit into different NLP operations, this paper makes an attempt to develop a POS tagger for the said language on a HMM (Hidden Markov Model) platform. The tagger judiciously considers bigram HMM with dynamic Viterbi algorithm to give an output annotated text with maximum accuracy. The model is experimented on a corpus belonging to tourism domain accounting to a size of approximately 0.2 million tokens. With the proportion of training and testing as 3:1, the proposed model exhibits satisfactory result irrespective of limited training size.

Multi-view semi-supervised learning for 3D human pose estimation (3 차원 휴먼 자세 추정을 위한 다시점 준지도 학습)

  • Kim, Do Yeop;Chang, Ju Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.134-138
    • /
    • 2021
  • 3 차원 휴먼 자세 추정 모델은 다시점 모델과 단시점 모델로 분류될 수 있다. 일반적으로 다시점 모델은 단시점 모델에 비하여 뛰어난 자세 추정 성능을 보인다. 단시점 모델의 경우 3 차원 자세 추정 성능의 향상은 많은 양의 학습 데이터를 필요로 한다. 하지만 3 차원 자세에 대한 참값을 획득하는 것은 쉬운 일이 아니다. 이러한 문제를 다루기 위해, 우리는 다시점 모델로부터 다시점 휴먼 자세 데이터에 대한 의사 참값을 생성하고, 이를 단시점 모델의 학습에 활용하는 방법을 제안한다. 또한, 우리는 각각의 다시점 영상으로부터 추정된 자세의 일관성을 고려하는 다시점 일관성 손실함수를 제안하여, 이것이 단시점 모델의 효과적인 학습에 도움을 준다는 것을 보인다.

  • PDF

Air conditioner anomaly detection and real-time monitoring using Convolution AutoEncoder (합성곱 AutoEncoder를 이용한 공기조화기 이상 감지와 실시간 모니터링)

  • Lee, Se-hoon;Kim, Min-Ji;Im, Yu-Jin;Cho, Bi-gun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.5-6
    • /
    • 2021
  • 본 논문에서는 Semi-supervised Learning 방식의 이상감지 방법을 제안한다. 취득한 소음 데이터를 이미지화 시킨 후 Convolution AutoEncoder 학습 방법을 이용하여 모델을 학습한다. 고장 데이터와 정상 데이터 간의 데이터 불균형 문제가 대두되기 때문에 정상 데이터만을 활용한 이상감지는 실제 산업현장의 상황에 알맞게 사용할 수 있을 것이라 기대한다.

  • PDF

Detection Algorithm of Road Surface Damage Using Adversarial Learning (적대적 학습을 이용한 도로 노면 파손 탐지 알고리즘)

  • Shim, Seungbo
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.20 no.4
    • /
    • pp.95-105
    • /
    • 2021
  • Road surface damage detection is essential for a comfortable driving environment and the prevention of safety accidents. Road management institutes are using automated technology-based inspection equipment and systems. As one of these automation technologies, a sensor to detect road surface damage plays an important role. For this purpose, several studies on sensors using deep learning have been conducted in recent years. Road images and label images are needed to develop such deep learning algorithms. On the other hand, considerable time and labor will be needed to secure label images. In this paper, the adversarial learning method, one of the semi-supervised learning techniques, was proposed to solve this problem. For its implementation, a lightweight deep neural network model was trained using 5,327 road images and 1,327 label images. After experimenting with 400 road images, a model with a mean intersection over a union of 80.54% and an F1 score of 77.85% was developed. Through this, a technology that can improve recognition performance by adding only road images was developed to learning without label images and is expected to be used as a technology for road surface management in the future.

Analysis of massive data in astronomy (천문학에서의 대용량 자료 분석)

  • Shin, Min-Su
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.6
    • /
    • pp.1107-1116
    • /
    • 2016
  • Recent astronomical survey observations have produced substantial amounts of data as well as completely changed conventional methods of analyzing astronomical data. Both classical statistical inference and modern machine learning methods have been used in every step of data analysis that range from data calibration to inferences of physical models. We are seeing the growing popularity of using machine learning methods in classical problems of astronomical data analysis due to low-cost data acquisition using cheap large-scale detectors and fast computer networks that enable us to share large volumes of data. It is common to consider the effects of inhomogeneous spatial and temporal coverage in the analysis of big astronomical data. The growing size of the data requires us to use parallel distributed computing environments as well as machine learning algorithms. Distributed data analysis systems have not been adopted widely for the general analysis of massive astronomical data. Gathering adequate training data is expensive in observation and learning data are generally collected from multiple data sources in astronomy; therefore, semi-supervised and ensemble machine learning methods will become important for the analysis of big astronomical data.

Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences (기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구)

  • Kim, Seon-Wu;Ko, Gun-Woo;Choi, Won-Jun;Jeong, Hee-Seok;Yoon, Hwa-Mook;Choi, Sung-Pil
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.4
    • /
    • pp.141-164
    • /
    • 2018
  • Recently, as the amount of academic literature has increased rapidly and complex researches have been actively conducted, researchers have difficulty in analyzing trends in previous research. In order to solve this problem, it is necessary to classify information in units of academic papers. However, in Korea, there is no academic database in which such information is provided. In this paper, we propose an automatic classification system that can classify domestic academic literature into multiple classes. To this end, first, academic documents in the technical science field described in Korean were collected and mapped according to class 600 of the DDC by using K-Means clustering technique to construct a learning set capable of multiple classification. As a result of the construction of the training set, 63,915 documents in the Korean technical science field were established except for the values in which metadata does not exist. Using this training set, we implemented and learned the automatic classification engine of academic documents based on deep learning. Experimental results obtained by hand-built experimental set-up showed 78.32% accuracy and 72.45% F1 performance for multiple classification.

GAN System Using Noise for Image Generation (이미지 생성을 위해 노이즈를 이용한 GAN 시스템)

  • Bae, Sangjung;Kim, Mingyu;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.6
    • /
    • pp.700-705
    • /
    • 2020
  • Generative adversarial networks are methods of generating images by opposing two neural networks. When generating the image, randomly generated noise is rearranged to generate the image. The image generated by this method is not generated well depending on the noise, and it is difficult to generate a proper image when the number of pixels of the image is small In addition, the speed and size of data accumulation in data classification increases, and there are many difficulties in labeling them. In this paper, to solve this problem, we propose a technique to generate noise based on random noise using real data. Since the proposed system generates an image based on the existing image, it is confirmed that it is possible to generate a more natural image, and if it is used for learning, it shows a higher hit rate than the existing method using the hostile neural network respectively.