• Title/Summary/Keyword: 분류 모델

Search Result 4,295, Processing Time 0.033 seconds

Standard Industrial Classification in Short Sentence Based on Machine Learning Approach (기계학습 기반 단문에서의 문장 분류 방법을 이용한 한국표준산업분류)

  • Oh, Kyo-Joong;Choi, Ho-Jin;An, Hweongak
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.394-398
    • /
    • 2020
  • 산업/직업분류 자동코딩시스템은 고용조사 등을 함에 있어 사업체 정보, 업무, 직급, 부서명 등 사용자의 다양한 입력을 표준 산업/직업분류에 맞춰 코드 정보를 제공해주는 시스템이다. 입력 데이터로부터 비지도학습 기반의 색인어 추출 모델을 학습하고, 부분단어 임베딩이 적용된 색인어 임베딩 모델을 통해 입력 벡터를 추출 후, 출력 분류 코드를 인코딩하여 지도학습 모델에서 학습하는 방법을 적용하였다. 기존 시스템의 분류 결과 데이터를 통해 대, 중, 소, 세분류에서 높은 정확도의 모델을 구축할 수 있으며, 기계학습 기술의 적용이 가능한 시스템임을 알 수 있다.

  • PDF

Intelligent Shape Analysis of the 3D Hippocampus Using Support Vector Machines (SVM을 이용한 3차원 해마의 지능적 형상 분석)

  • Kim, Jeong-Sik;Kim, Yong-Guk;Choi, Soo-Mi
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1387-1392
    • /
    • 2006
  • 본 논문에서는 SVM (Support Vector Machine)을 기반으로 하여 인체의 뇌 하부구조인 해마에 대한 지능적 형상분석 방법을 제공한다. 일반적으로 의료 영상으로부터 해마의 형상 분석을 하기 위해서는 충분한 임상 데이터를 필요로 한다. 하지만 현실적으로 많은 양의 표본들을 얻는 것이 쉽지 않기 때문에 전문가의 지식을 기반으로 한 작업이 수반되어야 한다. 결국 이러한 요소들이 분석 작업을 어렵게 한다. 의학 기술이 복잡해 지면서 최근의 형상 분석 연구는 점차 통계적 모델을 기반으로 진행되고 있다. 본 연구에서는 해마로부터 고해상도의 매개변수형 모델을 만들어 형상 표현으로 이용하고, 집단간 분류 작업에 SVM 알고리즘을 적용하는 지능적 분석 방법을 구현한다. 우선 메쉬 데이터로부터 물리변형모델 기반의 매개변수 모델을 구축하고, PDM (point distribution model) 방법을 적용하여 두 집단을 대표하는 평균 모델을 생성한다. 마지막으로 SVM 기반의 이진 분류기를 구축하여 집단간 분류 작업을 수행한다. 구현한 모델링 방법과 분류기의 성능을 평가하기 위하여 본 연구에서는 네 가지 커널 함수 (linear, radial basis function, polynomial, sigmoid)들을 적용한다. 본 논문에서 제시한 매개변수형 모델은 다양한 형태의 의료 데이터로부터 보편적인 3차원 모델을 생성하고, 또한 모델의 전역적, 국부적인 특징들을 복합적으로 표현할 수 있기 때문에 통계적 형상분석에 적합하다. 그리고 SVM 기반의 분류기는 적은 수의 학습 데이터로부터 정상인 해마 집단과 간질 환자 집단간의 정확한 분류를 가능하게 한다.

  • PDF

Novel Intent Discovery Utilizing Large Language Models and Active Learning Strategies (대규모 언어 모델을 활용한 새로운 의도 발견 방법과 액티브 러닝 전략)

  • Changwoo Chun;Daniel Rim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.425-431
    • /
    • 2023
  • 음성 어시스턴트 시스템에서 발화의 의도를 분류하고 새로운 의도를 탐지하는 것은 매우 중요한 작업이다. 끊임없이 인입되는 새로운 발화로 인해 기존에 학습된 모델의 의도 분류 성능은 시간이 지남에 따라 점차 낮아진다. 기존 연구들에서 새로운 의도 발견을 위해 제안되었던 클러스터링 방법은 최적의 클러스터 수 결정과 명명에 어려움이 있다. 이러한 제한 사항을 보완하기 위해, 본 연구에서는 대규모 언어 모델 기반의 효과적인 의도 발견 방법을 제안한다. 이 방법은 기존 의도 분류기로 판단하기 어려운 발화에 새로운 의도 레이블을 할당하는 방법이다. 새롭게 인입되는 OOD(Out-of-Domain) 발화 내에서 오분류를 찾아 기존에 정의된 의도를 탐지하고, 새로운 의도를 발견하는 효율적인 프롬프팅 방법도 분석한다. 이를 액티브 러닝 전략과 결합할 경우, 분류 가능한 의도의 개수를 지속 증가시면서도 모델의 성능 하락을 방지할 수 있고, 동시에 새로운 의도 발견을 자동화 할 수 있다.

  • PDF

A Spatial Pyramid Matching LDA Model using Sparse Coding for Classification of Sports Scene Images (스포츠 이미지 분류를 위한 희소 부호화 기법을 이용한 공간 피라미드 매칭 LDA 모델)

  • Jeon, Jin;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.35-36
    • /
    • 2016
  • 본 논문에서는 기존 Bag-of-Visual words (BoW) 접근법에서 반영하지 못한 이미지의 공간 정보를 활용하기 위해서 Spatial Pyramid Matching (SPM) 기법을 Latent Dirichlet Allocation (LDA) 모델에 결합하여 이미지를 분류하는 모델을 제안한다. BoW 접근법은 이미지 패치를 시각적 단어로 변환하여 시각적 단어의 분포로 이미지를 표현하는 기법이며, 기존의 방식이 이미지 패치의 위치정보를 활용하지 못하는 점을 극복하기 위하여 SPM 기법을 도입하는 연구가 진행되어 왔다. 또한 이미지 패치를 정확하게 표현하기 위해서 벡터 양자화 대신 희소 부호화 기법을 이용하여 이미지 패치를 시각적 단어로 변환하였다. 제안하는 모델은 BoW 접근법을 기반으로 위치정보를 활용하는 SPM 을 LDA 모델에 적용하여 시각적 단어의 토픽을 추론함과 동시에 multi-class SVM 분류기를 이용하여 이미지를 분류한다. UIUC 스포츠 데이터를 이용하여 제안하는 모델의 분류 성능을 검증하였다.

  • PDF

희소 부호화 기법과 토픽 모델링을 통한 이미지 분류 모델

  • Jeon, Jin;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.49-50
    • /
    • 2015
  • 본 논문에서는 이미지를 시각적 단어로 표현하여 분석하는 기법인 bag-of-visual words (BoW) 모델을 기반으로 latent dirichlet allocation (LDA) 모델을 결합하여 시각적 단어의 구조를 파악하여 이미지를 분류할 수 있는 모델을 제안한다. 우선 이미지를 시각적 단어로 기존의 방법보다 정확하게 표현하기 위해서 희소 부호화(sparse coding) 기법을 적용한다. 기존의 BoW 모델은 하나의 이미지 패치를 하나의 단어로 표현하였지만, 희소 부호화 기법을 통해 하나의 이미지 패치를 여러 개의 단어로 표현할 수 있다. 제안하는 모델을 이용하여 이미지를 분류하기 위해서 분류 성능 측정에 많이 쓰이는 multi-class SVM 기법을 이용한다. UIUC 스포츠 데이터를 이용한 성능 측정을 통해 제안한 기법의 클래스 분류 성능을 검증하였다.

  • PDF

Image Classification Model using web crawling and transfer learning (웹 크롤링과 전이학습을 활용한 이미지 분류 모델)

  • Lee, JuHyeok;Kim, Mi Hui
    • Journal of IKEEE
    • /
    • v.26 no.4
    • /
    • pp.639-646
    • /
    • 2022
  • In this paper, to solve the large dataset problem, we collect images through an image collection method called web crawling and build datasets for use in image classification models through a data preprocessing process. We also propose a lightweight model that can automatically classify images by adding category values by incorporating transfer learning into the image classification model and an image classification model that reduces training time and achieves high accuracy.

Sentiment Classification Model Development Based On EDA-Applied BERT (EDA 기법을 적용한 BERT 기반의 감성 분류 모델 생성)

  • Lee, Jin-Sang;Lim, Heui-Seok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.79-80
    • /
    • 2022
  • 본 논문에서는 데이터 증강 기법 중 하나인 EDA를 적용하여 BERT 기반의 감성 분류 언어 모델을 만들고, 성능 개선 방법을 제안한다. EDA(Easy Data Augmentation) 기법은 테이터가 한정되어 있는 환경에서 SR(Synonym Replacement), RI(Random Insertion), RS(Random Swap), RD(Random Deletion) 총 4가지 세부 기법을 통해서 학습 데이터를 증강 시킬 수 있다. 이렇게 증강된 데이터를 학습 데이터로 이용해 구글의 BERT를 기본 모델로 한 전이학습을 진행하게 되면 감성 분류 모델을 생성해 낼 수 있다. 데이터 증강 기법 적용 후 전이 학습을 통해 생성한 감성 분류 모델의 성능을 증강 이전의 전이 학습 모델과 비교해 보면 정확도 측면에서 향상을 기대해 볼 수 있다.

  • PDF

A Convolutional Neural Network Model with Weighted Combination of Multi-scale Spatial Features for Crop Classification (작물 분류를 위한 다중 규모 공간특징의 가중 결합 기반 합성곱 신경망 모델)

  • Park, Min-Gyu;Kwak, Geun-Ho;Park, No-Wook
    • Korean Journal of Remote Sensing
    • /
    • v.35 no.6_3
    • /
    • pp.1273-1283
    • /
    • 2019
  • This paper proposes an advanced crop classification model that combines a procedure for weighted combination of spatial features extracted from multi-scale input images with a conventional convolutional neural network (CNN) structure. The proposed model first extracts spatial features from patches with different sizes in convolution layers, and then assigns different weights to the extracted spatial features by considering feature-specific importance using squeeze-and-excitation block sets. The novelty of the model lies in its ability to extract spatial features useful for classification and account for their relative importance. A case study of crop classification with multi-temporal Landsat-8 OLI images in Illinois, USA was carried out to evaluate the classification performance of the proposed model. The impact of patch sizes on crop classification was first assessed in a single-patch model to find useful patch sizes. The classification performance of the proposed model was then compared with those of conventional two CNN models including the single-patch model and a multi-patch model without considering feature-specific weights. From the results of comparison experiments, the proposed model could alleviate misclassification patterns by considering the spatial characteristics of different crops in the study area, achieving the best classification accuracy compared to the other models. Based on the case study results, the proposed model, which can account for the relative importance of spatial features, would be effectively applied to classification of objects with different spatial characteristics, as well as crops.

Taxonomy Framework for Metric-based Software Quality Prediction Models (소프트웨어 품질 예측 모델을 위한 분류 프레임워크)

  • Hong, Euy-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.6
    • /
    • pp.134-143
    • /
    • 2010
  • This paper proposes a framework for classifying metric-based software quality prediction models, especially case of software criticality, into four types. Models are classified along two vectors: input metric forms and the necessity of past project data. Each type has its own characteristics and its strength and weakness are compared with those of other types using newly defined criteria. Through this qualitative evaluation each organization can choose a proper model to suit its environment. My earlier studies of criticality prediction model implemented specific models in each type and evaluated their prediction performances. In this paper I analyze the experimental results and show that the characteristics of a model type is the another key of successful model selection.

Learning Probabilistic Graph Models for Extracting Topic Words in a Collection of Text Documents (텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습)

  • 신형주;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.265-267
    • /
    • 2000
  • 본 논문에서는 텍스트 문서의 주제어를 추출하고 문서를 주제별로 분류하기 위해 확률적 그래프 모델을 사용하는 방법을 제안하였다. 텍스트 문서 데이터를 문서와 단어의 쌍으로(dyadic)표현하여 확률적 생성 모델을 학습하였다. 확률적 그래프 모델의 학습에는 정의된 likelihood를 최대화하기 위한 EM(Expected Maximization)알고리즘을 사용하였다. TREC-8 AdHoc 텍스트 에이터에 대하여 학습된 확률 그래프 모델의 성능을 실험적으로 평가하였다. 이로부터 찾아 낸 문서에 대한 주제어가 사람이 제시한 주제어와 유사한 지와, 사람이 각 주제에 대해 분류한 문서가 이 확률모델로부터의 분류와 유사한 지를 실험적으로 검토하였다.

  • PDF