• 제목/요약/키워드: 이진 분류

검색결과 605건 처리시간 0.027초

EM 알고리즘을 이용한 이진 분류 문서 범주화의 성능 향상 (Improving performance of Binary Text Classification Using the EM algorithm)

  • 한형동;고영중;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.790-792
    • /
    • 2004
  • 문서 범주화에서 이진분류를 다중 분류에 적용할 때, 일반적으로 One-Against-All 방법을 사용한다. 하지만, 이 One-Against-All 방법은 한가지 문제점을 가진다. 즉, positive 집합의 문서들은 사람이 직접 범주를 할당한 것이지만, negative 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해 Sliding Window기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 먼저 Sliding Window 기법을 이용하여 학습 데이터로부터 오류 문서들을 추출하고 이 문서들을 EM 알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

  • PDF

베이지안 분류기를 이용한 신문기사 필터링 (A Study On Filtering of Newspaper Article by Using Bayesian Classifier)

  • 손기준;노태길;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.490-492
    • /
    • 2002
  • 본 논문에서는 필터링 문제를 이진 문서 분류 문제로 보고 신문기사 필터링에 베이지안 분류자를 사용한다. 신문 기사 필터링 문제에서 베이지안 분류자를 사용할 경우 학습 문서가 고정되어 있지 않기 때문에 여러 가지 파라미터를 사용하여 실험을 하였다. 실험 결과 베이지안 이진 분류기는 제한된 학습 문서에서 더 나은 성능을 보였고 해당 문서 집합에서 10%이상 비율의 문서를 사용자가 선택해야 함을 알 수 있었다.

  • PDF

다중 패턴 분류를 위한 Import Vector Voting 모델 (Import Vector Voting Model for Multi-pattern Classification)

  • 최준혁;김대수;임기욱
    • 한국지능시스템학회논문지
    • /
    • 제13권6호
    • /
    • pp.655-660
    • /
    • 2003
  • 일반적으로 Support Vector Machine은 이진 분류 모형에 있어 우수한 성능을 보이지만 모델의 한계로 인하여 다중 패턴의 분류 문제에는 쉽게 적용하기가 어렵다. 본 논문에서는 이진 분류를 포함한 다중 레이블을 갖는 데이터의 정확한 패턴 분류를 위하여 Zhu가 제안한 Import Vector Machine에 커널 Bagging 전략을 적용하여 분류의 정확성을 향상시키기 위한 Import Vector Voting 모형을 제안한다. 이러한 Import Vector Voting 모형은 다수의 커널함수를 적용한 결과 중에서 가장 성능이 우수한 커널함수를 이용하여 최종 분류를 수행하기 위한 voting 전략으로 사용한다. 본 논문에서 제안하는 Import Vector Voting 모형은 이진 분류를 포함한 3개 이상의 다중 패턴 데이터에 대한 분류 문제에 있어 매우 정확한 분류 성능을 보임을 실험을 통해 입증한다.

Eigenvoice를 이용한 이진 마스크 분류 모델 적응 방법 (Eigenvoice Adaptation of Classification Model for Binary Mask Estimation)

  • 김기백
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.164-170
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 취득된 음성 신호에서 잡음을 제거하기 위한 방법으로 사용되는 이진 마스크 분류 모델의 적응과정에 대해 다루고자 한다. 기존 연구결과에 의하면, 잡음 환경 데이터에 이진 마스크 기법을 적용하면 음성 명료도를 향상시킬 수 있다고 알려져 있다. 하지만 이진 마스크 분류 모델 학습 시 테스트 환경 데이터가 포함되어야 한다는 단점을 안고 있다. 본 논문에서는 새로운 잡음 환경에서 이진 마스크 분류 모델을 적응하기 위해, 음성 인식에서 널리 사용되는 화자 적응 기법인 eigenvoice 방법을 적용하고자 한다. 실험결과에서는 모델 적응에 사용되는 데이터량에 따른 성능을 정검출율과 오검출율 관점에서 평가하였고, 그 결과 새로운 잡음 환경에서 데이터량을 증가시켜 모델을 적응함으로써 향상된 성능을 나타냄을 확인할 수 있었다.

오류 학습 문서 제거를 통한 문서 범주화 기법의 성능 향상 (A Text Categorization Method Improved by Removing Noisy Training Documents)

  • 한형동;고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.912-919
    • /
    • 2005
  • 문서 범주화에서 이진 분류를 다중 분류에 적용할 때 일반적으로 '한 범주에 적합-다른 모든 범주에서는 부적합(One-Against-All) 판정 방법'을 사용한다. 하지만, 이러한 '한 범주에 적합-다른 모든 범주에서는 부적합 판정 방법'은 한 가지 문제점을 가지는데, 적합(positive) 집합의 문서들은 사람이 직접범주를 할당한 것이지만 부적합(negative) 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 많이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 슬라이딩 원도우(sliding window) 기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 제안된 기법은 먼저 슬라이딩 윈도우 기법을 사용하여 오류 문서들을 추출하고 이들을 EM알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

퓨리에 형태표현자와 SVM 을 이용한 U87 세포의 형태학적 분류기 모델구축 (Binary Classifier Construction for U87 Cell Shapes using Fourier Shape Descriptor and SVM)

  • 강미선;김정식;김명희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.751-753
    • /
    • 2010
  • 본 논문에서는 위상차 현미경 영상 내 U87 세포의 정확한 형태학적 분류를 위한 이진 분류기 구축 방법을 제안한다. 본 방법은 Fourier descriptor 기반 세포형상 표현을 SVM 이진분류기 구축에 사용함으로써 분류 대상인 원추형과 원형세포에 대해 영상 내 세포의 위치와 회전, 크기의 변화에 대해 강인한 분류성능을 제공한다. 본 실험을 통해 polynomial 커널에서 학습된 SVM 분류기가 linear, RBF, sigmoid 에 비교하여 가장 정확한 분류 성능을 보임을 확인하였다. 본 연구는 논문상 기준인 두 종류의 세포 형태 분류기를 기반 프레임워크로 삼아 좀더 다양한 세포 형태를 분류할 수 있도록 개선된다면 악성뇌종양의 전이억제치료에 효과적인 전이행동분석에 도움을 줄 수 있을 것으로 기대된다.

패킷 분류를 위한 이차원 이진 프리픽스 트리 (A Two-Dimensional Binary Prefix Tree for Packet Classification)

  • 정여진;김혜란;임혜숙
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권4호
    • /
    • pp.543-550
    • /
    • 2005
  • 인터넷은 그 급속한 성장과 더불어 점차 더 나은 서비스를 제공할 것을 요구받게 되었다. 이에 따라 차세대 인터넷 라우터들에서의 지능적인 패킷 분류 기능은 필수 불가결한 것으로 여겨지고 있다. 패킷 분류란 미리 정의된 classifier에 의거하여 입력된 패킷에 매치하는 가장 순위가 높은 룰을 찾는 과정이다. 기존에 나와있는 많은 패킷 분류 검색 구조들이 출발지, 목적지 프리픽스 필드에 기반하여 룰을 추려내는 접근 방법을 사용하고 있다. 그러나 대부분의 검색 구조들은 출발지, 목적지 프리픽스 검색을 위하여 트라이 구조에 바탕을 둔 순차적인 일차원 검색을 따르고 있으며, 매우 큰 메모리를 요구한다는 단점을 가지고 있다. 본 논문에서는 메모리를 매우 효율적으로 사용하면서도 출발지-목적지 프리픽스 쌍에 기반한 이차원 패킷 분류 구조를 제안하고자 한다. 코드워드로 구성된 이진 프리픽스 트리를 구성함으로써, 출발지 프리픽스 검색과 목적지 프리픽스 검색이 하나의 이진 트리를 통해 동시에 가능하도록 하였다. 또한 본 논문에서 제안하는 구조인 이차원 이진 프리픽스 트리는 트리 구조 내부에 비어있는 노드를 포함하고 있지 않으므로 트라이 구조가 가지고 있는 메모리의 비효율성 문제를 완전히 제거하였다.

거대 언어 모델(LLM)을 이용한 비훈련 이진 감정 분류 (Utilizing Large Language Models for Non-trained Binary Sentiment Classification)

  • 안형진;황태욱;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2023
  • ChatGPT가 등장한 이후 다양한 거대 언어 모델(Large Language Model, LLM)이 등장하였고, 이러한 LLM을 목적에 맞게 파인튜닝하여 사용할 수 있게 되었다. 하지만 LLM을 새로 학습하는 것은 물론이고, 단순 튜닝만 하더라도 일반인은 시도하기 어려울 정도의 많은 컴퓨팅 자원이 필요하다. 본 연구에서는 공개된 LLM을 별도의 학습 없이 사용하여 zero-shot 프롬프팅으로 이진 분류 태스크에 대한 성능을 확인하고자 했다. 학습이나 추가적인 튜닝 없이도 기존 선학습 언어 모델들에 준하는 이진 분류 성능을 확인할 수 있었고, 성능이 좋은 LLM의 경우 분류 실패율이 낮고 일관적인 성능을 보여 상당히 높은 활용성을 확인하였다.

  • PDF

거절 조건을 가진 이진 분류기 순차 결합을 통한 얼굴인식 (Face Recognition Using Sequential Fusion of Binary Classifiers with Rejection)

  • 부덕희;고재필;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.334-336
    • /
    • 2003
  • 얼굴인식 연구는 얼굴표현에 집중하여 연구가 이루어져 왔으며, 이에 따라 최종 인식단계에서는 간단한 분류기가 적용되었다. 그러나, 보다 강건한 분류 성능을 얻기 위해서는 복잡한 분류기를 도입할 필요성이 있다. 복잡한 분류기를 사용하면서, 얼굴인식의 특성상 온라인 학습을 가능하게 하기 위해서는 이진 분류기 분해/결합 방법을 도입한다. 이러한 기법으로는 OPC와 PWC가 대표적이다. 본 방법의 성능은 기본이진 분류기의 성능에 좌우되기 때문에 SVM을 적용한다. 본 논문에서는 대표적인 방법인 OPC와 PWC의 장단점을 설명하고, 거절 조건을 갖는 이들 분류기들의 순차 결합 방법을 제안한다. ORL얼굴데이터 베이스에 대한 실험에서는, 제안하는 방법을 통해 얼굴인식 성능을 향상시킬 수 있음을 보인다.

  • PDF

오분류된 이진자료에서 Agresti-Coull유형의 신뢰구간에 대한 이론적 고찰 (Theoretical Considerations for the Agresti-Coull Type Confidence Interval in Misclassified Binary Data)

  • 이승천
    • Communications for Statistical Applications and Methods
    • /
    • 제18권4호
    • /
    • pp.445-455
    • /
    • 2011
  • 표본추출에서 오분류된 이진자료는 흔히 발생될 수 있는 현실적인 문제이지만 통계적 방법론은 상대적으로 제한적이라고 할 수 있다. 특히, 모비율의 구간추정 문제는 고전적인 Wald 방법에 의존하고 있었다. 그러나 최근 이승천과 최병수 (2009)에서 Agresti-Coull 방법을 적용하고 새로운 구간추정 방법을 제시하였으며, 수치적인 방법에 의해 Agresti-Coull 신뢰구간의 효율성을 주장하였다. 본 연구에서는 오분류된 이진자료에 대한 베이지안 모형을 다루었으며, 베이지안 모형이 Agresti-Coull 신뢰구간의 이론적 배경이 될 수 있는지 살펴 보았다.