• 제목/요약/키워드: 지지벡터기

검색결과 40건 처리시간 0.025초

지지벡터기계를 이용한 다중 분류 문제의 학습과 성능 비교 (Learning and Performance Comparison of Multi-class Classification Problems based on Support Vector Machine)

  • 황두성
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.1035-1042
    • /
    • 2008
  • 이진 분류기로서 지지벡터기계는 다양한 응용을 통해 이진 분류 문제에서 기존의 패턴 분류기들보다 우수한 성능을 보였다. 지지벡터기계의 바탕이 되는 최대 마진 분류 이론을 다중 분류 문제에 확장은 어려움이 있다. 이 논문에서는 다중 분류 문제를 위한 지지벡터기계의 학습 전략을 논의하였으며 성능 비교를 수행하였다. 학습 데이터의 분배 전략에 따라 지지벡터기계는 고유의 이진 분류 특징을 수정하지 않고 다중분류 문제에 쉴게 적용될 수 있다. 다양한 벤치마킹 데이터에 대해 선택된 학습 전략, 커널함수, 학습 소요시간 등에 따라 성능비교가 수행되었고 오류역전파 학습의 신경망의 테스트 결과와 비교되었다. 신경망 모델과 비교 실험에서 지지벡터기계는 일반적인 다중 분류 문제에 응용성과 효과가 있음을 보였다.

  • PDF

지지벡터기계의 변수 선택방법 비교 (Comparison of Feature Selection Methods in Support Vector Machines)

  • 김광수;박창이
    • 응용통계연구
    • /
    • 제26권1호
    • /
    • pp.131-139
    • /
    • 2013
  • 지지벡터기계는 잡음변수가 존재하는 경우에 성능이 저하될 수 있다. 또한 최종 분류기에서 각 변수들의 중요도를 알리 어려운 단점이 있다. 따라서 변수선택은 지지벡터기계의 해석력과 정확도를 높일 수 있다. 기존의 문헌상의 대부분의 연구는 선형 지지벡터기계에서 성근 해를 주는 벌점함수를 통해 변수를 선택에 관한 것이다. 실제로는 분류의 정확도를 높이기 위해 비선형 커널을 사용하는 경우가 일반적이다. 따라서 변수선택은 비선형 지지벡터기계에서도 마찬가지로 필요하다. 본 논문에서는 모의실험 및 실제자료를 통하여 비선형 지지벡터의 대표적인 변수선택법인 COSSO(component selection and smoothing operator)와 KNIFE(kernel iterative feature extraction)의 성능을 비교한다.

지지 벡터 기계를 이용한 질의 유형 분류기 (A Question Type Classifier Using a Support Vector Machine)

  • 안영훈;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터 (Spam Filter by Using X2 Statistics and Support Vector Machines)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.249-254
    • /
    • 2010
  • 본 논문은 지지벡터기계를 이용하여 스팸메일을 자동으로 분류하는 시스템을 제안한다. 이메일에 포함된 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이제곱 통계량을 이용하여 자질을 선택한 후 각각의 자질을 TF, TF-IDF, 이진 가중치 등으로 표현하여 실험하였다. 카이제곱 통계량을 이용하여 선택된 자질들을 이용하여 SVM을 학습한 후, SVM분류기는 각각의 이메일의 스팸 여부를 결정한다. 실험 결과, 선택되어진 자질들이 성능향상을 가져왔으며, TREC05-p1 스팸 말뭉치에 대해 약 98.9%의 정확도를 얻었다.

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석 (An analysis of Speech Acts for Korean Using Support Vector Machines)

  • 은종민;이성욱;서정연
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.365-368
    • /
    • 2005
  • 본 연구에서는 지지 벡터 기계(Support Vector Machines)를 이용하여 한국어 대화의 화행을 분석하는 방법을 제안한다. 우리는 발화의 어휘 및 품사와 이진 품사 쌍을 문장 자질로 사용하고 이전 발화의 문맥을 문맥 발화로 사용한다. 카이 제곱 통계량을 이용해 적절한 자질을 선택하고 선택된 자질로 지지 벡터 기계를 학습하였다. 학습된 지지 벡터 기계 분류기를 이용하여 각 발화의 화행을 분석하였다. 호텔 예약 영역의 말뭉치에 대해 제안된 시스템을 이용하여 실험한 결과 약 $90.54\%$의 정확률을 얻었다.

종자 어휘를 이용한 자질 추출과 지지 벡터 기계(SVM)을 이용한 문서 감정 분류 시스템의 개발 (A Sentiment Classification System Using Feature Extraction from Seed Words and Support Vector Machine)

  • 황재원;전태균;고영중
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.938-942
    • /
    • 2007
  • 신문 기사 및 상품 평은 특정 주제나 상품을 대상으로 하여 글쓴이의 감정과 의견이 잘 나타나 있는 대표적인 문서이다. 최근 여론 조사 및 상품 의견 조사 등 다양한 측면에서 대용량의 문서의 의미적 분류 및 분석이 요구되고 있다. 본 논문에서는 문서에 나타난 내용을 기준으로 문서가 나타내고 있는 감정을 긍정과 부정의 두 가지 범주로 분류하는 시스템을 구현한다. 문서 분류의 시작은 감정을 지닌 대표적인 종자 어휘(seed word)로부터 시작하며, 자질의 선정은 한국어 특징상 감정 및 감각을 표현하는 명사, 형용사, 부사, 동사를 대상으로 한다. 가중치 부여 방법은 한글 유의어 사전을 통해 종자 어휘의 의미를 확장하여 각각의 가중치를 책정한다. 단어 벡터로 표현된 입력 문서를 이진 분류기인 지지벡터 기계를 이용하여 문서에 나타난 감정을 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

문법관계 정보를 이용한 단계적 한국어 구문 분석 (Cascaded Parsing Korean Sentences Using Grammatical Relations)

  • 이성욱
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.69-72
    • /
    • 2008
  • 본 연구는 한국어 의존 구조를 결정하는 단계적 의존 구조 분석기를 제안한다. 각 단계에서는 주어진 문법관계의 후보열에서 올바른 문법관계를 결정하는데, 대상문법관계의 종류에 따라 독립적으로 수행된다. 문법관계의 후보열은 미리 학습된 지지벡터기계를 이용하여 주어, 목적어, 보어, 부사어 등 7가지의 문법관계로 추정한다. 각 단계에서는 지지벡터기계 분류기와 어절 간의 거리, 교차 구조 금지, 격 제한의 원칙 등의 한국어 언어 특성을 이용하여 대상문법관계를 결정하며, 모든 단계를 거쳐 최종적으로 전체 의존 구조와 문법관계가 결정된다. 트리 및 문법관계 부착 말뭉치를 이용하여 제안된 시스템을 구현 및 실험하였으며 약 85.7%의 정확률을 얻었다.

불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계 (Fraud detection support vector machines with a functional predictor: application to defective wafer detection problem)

  • 박민형;신승준
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.593-601
    • /
    • 2022
  • 빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.