• 제목/요약/키워드: 분류 문제

검색결과 3,553건 처리시간 0.03초

다중 레이블 나이브 베이지안 분류기의 정확도 개선 연구 (Improving Accuracy of Multi-label Naive Bayes Classifier)

  • 김해천;이재성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.147-148
    • /
    • 2018
  • 다중 레이블 분류 문제는 다중 레이블 데이터를 입력받았을 때 연관된 다수의 레이블을 추측하는 문제이다. 본 논문에서는 다중 레이블 분류 문제의 기법 중 하나인 나이브 베이지안 분류기에 레이블 의존성을 계산하여 결과에 반영한 결과 다중 레이블 분류 문제의 성능이 개선됨을 확인하였다.

  • PDF

SVM 학습을 이용한 다중 클래스 뉴스그룹 문서 분류 (Classification of Multiclass Newsgroup Documents Using SVM Learning)

  • 오장민;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.60-62
    • /
    • 1999
  • 다중 클래스 문서분류는 주어진 여러 개의 관심사별로 문서를 선별해 주는 문제이다. 문서 분류 문제의 특징은 문서가 매우 높은 차원으로 표현된다는 것이다. 다른 학습 알고리즘에 비해 SVM 알고리즘은 차원을 전혀 줄이지 않고 문제를 해결한다. 본 논문에서는 SVM 학습 알고리즘을 이용하여 대규모의 뉴스 그룹 문서 분류 문제를 다룬다. 다중 클래스 문서 분류를 위해서 각 클래스에 대한 SVM학습 결과를 효과적으로 결합하였으며 실험을 통하여 SVM과 다른 학습 알고리즘과의 성능을 비교하였다.

  • PDF

문제분류규칙을 이용한 변수 순서화 알고리즘 (Variable Ordering Algorithms Using Problem Classifying)

  • 손석원
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.127-135
    • /
    • 2011
  • 백트래킹을 이용한 깊이우선탐색에서 해를 빨리 찾기 위한 방법 중 하나는 결정변수의 순서를 효과적으로 배열하는 것이다. 이 때 문제의 동적 및 정적 특성을 고려한 변수 순서화 알고리즘 개발은 매우 중요한 문제이다. 그러나 문제에 적합한 최적의 변수 순서화 알고리즘을 개발하는 것은 어려운 문제이다. 본 논문에서는 변수의 속성에 기반을 두어 문제의 형태를 규정하는 문제분류규칙을 제안하고 이 규칙을 이용하여 문제에 적합한 변수 순서화 알고리즘의 형태를 예측할 수 있게 한다. 결정변수가 동적 및 정적 특성을 갖는 DS-type 문제로서 주파수 할당문제를 선택하여 최적의 변수 순서화 알고리즘을 예측한다. 또한 문제분류규칙에 의해 생성되지 않는 특별한 형태의 문제인 기지국 위치문제를 적용하여 제안하는 문제분류규칙의 효용성을 입증한다.

One-class 문서 분류를 위한 긍정 자질과 부정 자질의 결합 (Combining Positive and Negative Features for One-Class Document Classification)

  • 송호진;강인수;나승훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-42
    • /
    • 2005
  • 문서 분류에서의 one class 분류 문제는 오직 하나의 범주를 생성하고 새로운 문서가 주어졌을 때 그 문서가 미리 만들어진 하나의 범주에 속하는가를 판별하는 문제이다. 기존의 여러 범주로 이루어진 분류 문제를 해결할 때와는 달리 one class 분류에서는 학습 시에 관심의 대상이 되는 하나의 범주와 관련이 있는 문서들만을 사용하여 학습을 수행하기 때문에 범주의 경계를 정하는 것은 매우 어려운 작업이다. 이에 본 논문에서는 기존의 연구에서 one class 분류 문제를 해결할 때 관심의 대상이 되는 예제의 일부를 부정 예제로 간주하여 one class 문제를 two class 문제로 변환하고 추가적으로 새로운 가상 부정 예제를 설정하여 학습을 수행하였던 방법에서 더 나아가 범주화를 위한 적절한 부정자질을 선택하고 이를 긍정자질과 함께 사용하여 학습을 수행한 후 SVM을 통하여 범주화 성능을 학인 해 보기로 한다.

  • PDF

대화에서 멀티태스크 학습을 이용한 감정 및 화행 분류 (Emotion and Speech Act classification in Dialogue using Multitask Learning)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-536
    • /
    • 2018
  • 심층인공신경망을 이용한 대화 모델링 연구가 활발하게 진행되고 있다. 본 논문에서는 대화에서 발화의 감정과 화행을 분류하기 위해 멀티태스크(multitask) 학습을 이용한 End-to-End 시스템을 제안한다. 우리는 감정과 화행을 동시에 분류하는 시스템을 개발하기 위해 멀티태스크 학습을 수행한다. 또한 불균형 범주 분류를 위해 계단식분류(cascaded classification) 구조를 사용하였다. 일상대화 데이터셋을 사용하여 실험을 수행하였고 macro average precision으로 성능을 측정하여 감정 분류 60.43%, 화행 분류 74.29%를 각각 달성하였다. 이는 baseline 모델 대비 각각 29.00%, 1.54% 향상된 성능이다. 본 논문에서는 제안하는 구조를 이용하여, 발화의 감정 및 화행 분류가 End-to-End 방식으로 모델링 가능함을 보였다. 그리고, 두 분류 문제를 하나의 구조로 적절히 학습하기 위한 방법과 분류 문제에서의 범주 불균형 문제를 해결하기 위한 분류 방법을 제시하였다.

  • PDF

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

대화 데이터셋의 클래스 불균형 문제 보정을 위한 적대적 학습 기법 (Adversarial Training Method for Handling Class Imbalance Problems in Dialog Datasets)

  • 조수필;최용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.434-439
    • /
    • 2019
  • 딥러닝 기반 분류 모델에 있어 데이터의 클래스 불균형 문제는 소수 클래스의 분류 성능을 크게 저하시킨다. 본 논문에서는 앞서 언급한 클래스 불균형 문제를 보완하기 위한 방안으로 적대적 학습 기법을 제안한다. 적대적 학습 기법의 성능 향상 여부를 확인하기 위해 총 4종의 딥러닝 기반 분류 모델을 정의하였으며, 해당 모델 간 분류 성능을 비교하였다. 실험 결과, 대화 데이터셋을 이용한 모델 학습 시 적대적 학습 기법을 적용할 경우 다수 클래스의 분류 성능은 유지하면서 동시에 소수 클래스의 분류 성능을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

크라우드소싱 기반의 딥러닝 분류 알고리즘을 이용한 댓글 분류 시스템 (Comment Classification System using Deep Learning Classification Algorithm based on Crowdsourcing)

  • 박희지;하지민;박혜림;강정호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.864-867
    • /
    • 2021
  • 뉴스, SNS 등의 인터넷 댓글은 익명으로 의견을 자유롭게 개진할 수 있는 반면 댓글의 익명성을 악용하여 비방이나 험담을 하는 악성 댓글이 여러 분야에서 사회적 문제가 되고 있다. 해당 문제를 해결하기 위해 AI를 활용한 댓글 분류 알고리즘을 개발하려는 많은 노력들이 이루어지고 있지만, 댓글 분류 모델에 사용되는 AI는 오버피팅의 문제로 인해 댓글 분류에 대한 정확도가 떨어지는 문제점을 가지고 있다. 이에 본 연구에서는 크라우드소싱을 활용하여 오버피팅으로 인한 악성 댓글 분류 및 판단 정확도 저하 문제를 개선한 크라우드소싱 기반 딥러닝 분류 알고리즘(Deep Learning Classification Algorithm Based on Crowdsourcing: DCAC)과 해당 알고리즘을 사용한 시스템을 제안한다. 또한, 실험을 통해 오버피팅으로 낮아진 판단 정확도를 증가시키는 데 제안된 방법이 도움이 되는 것을 확인하였다.

베이지안 분류기를 이용한 신문기사 필터링 (A Study On Filtering of Newspaper Article by Using Bayesian Classifier)

  • 손기준;노태길;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.490-492
    • /
    • 2002
  • 본 논문에서는 필터링 문제를 이진 문서 분류 문제로 보고 신문기사 필터링에 베이지안 분류자를 사용한다. 신문 기사 필터링 문제에서 베이지안 분류자를 사용할 경우 학습 문서가 고정되어 있지 않기 때문에 여러 가지 파라미터를 사용하여 실험을 하였다. 실험 결과 베이지안 이진 분류기는 제한된 학습 문서에서 더 나은 성능을 보였고 해당 문서 집합에서 10%이상 비율의 문서를 사용자가 선택해야 함을 알 수 있었다.

  • PDF

지지벡터기계를 이용한 다중 분류 문제의 학습과 성능 비교 (Learning and Performance Comparison of Multi-class Classification Problems based on Support Vector Machine)

  • 황두성
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.1035-1042
    • /
    • 2008
  • 이진 분류기로서 지지벡터기계는 다양한 응용을 통해 이진 분류 문제에서 기존의 패턴 분류기들보다 우수한 성능을 보였다. 지지벡터기계의 바탕이 되는 최대 마진 분류 이론을 다중 분류 문제에 확장은 어려움이 있다. 이 논문에서는 다중 분류 문제를 위한 지지벡터기계의 학습 전략을 논의하였으며 성능 비교를 수행하였다. 학습 데이터의 분배 전략에 따라 지지벡터기계는 고유의 이진 분류 특징을 수정하지 않고 다중분류 문제에 쉴게 적용될 수 있다. 다양한 벤치마킹 데이터에 대해 선택된 학습 전략, 커널함수, 학습 소요시간 등에 따라 성능비교가 수행되었고 오류역전파 학습의 신경망의 테스트 결과와 비교되었다. 신경망 모델과 비교 실험에서 지지벡터기계는 일반적인 다중 분류 문제에 응용성과 효과가 있음을 보였다.

  • PDF