• 제목/요약/키워드: 지지벡터기계학습

검색결과 64건 처리시간 0.025초

지지벡터기계를 이용한 다중 분류 문제의 학습과 성능 비교 (Learning and Performance Comparison of Multi-class Classification Problems based on Support Vector Machine)

  • 황두성
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.1035-1042
    • /
    • 2008
  • 이진 분류기로서 지지벡터기계는 다양한 응용을 통해 이진 분류 문제에서 기존의 패턴 분류기들보다 우수한 성능을 보였다. 지지벡터기계의 바탕이 되는 최대 마진 분류 이론을 다중 분류 문제에 확장은 어려움이 있다. 이 논문에서는 다중 분류 문제를 위한 지지벡터기계의 학습 전략을 논의하였으며 성능 비교를 수행하였다. 학습 데이터의 분배 전략에 따라 지지벡터기계는 고유의 이진 분류 특징을 수정하지 않고 다중분류 문제에 쉴게 적용될 수 있다. 다양한 벤치마킹 데이터에 대해 선택된 학습 전략, 커널함수, 학습 소요시간 등에 따라 성능비교가 수행되었고 오류역전파 학습의 신경망의 테스트 결과와 비교되었다. 신경망 모델과 비교 실험에서 지지벡터기계는 일반적인 다중 분류 문제에 응용성과 효과가 있음을 보였다.

  • PDF

지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석 (An analysis of Speech Acts for Korean Using Support Vector Machines)

  • 은종민;이성욱;서정연
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.365-368
    • /
    • 2005
  • 본 연구에서는 지지 벡터 기계(Support Vector Machines)를 이용하여 한국어 대화의 화행을 분석하는 방법을 제안한다. 우리는 발화의 어휘 및 품사와 이진 품사 쌍을 문장 자질로 사용하고 이전 발화의 문맥을 문맥 발화로 사용한다. 카이 제곱 통계량을 이용해 적절한 자질을 선택하고 선택된 자질로 지지 벡터 기계를 학습하였다. 학습된 지지 벡터 기계 분류기를 이용하여 각 발화의 화행을 분석하였다. 호텔 예약 영역의 말뭉치에 대해 제안된 시스템을 이용하여 실험한 결과 약 $90.54\%$의 정확률을 얻었다.

긍정 데이터 분포를 반영한 다중 인스턴스 지지 벡터 기계 학습 (Learning Multiple Instance Support Vector Machine through Positive Data Distribution)

  • 황중원;박성배;이상조
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.227-234
    • /
    • 2015
  • 본 논문에서는 데이터 분포를 고려한 다중 인스턴스 지지 벡터 기계 학습 알고리즘을 제안한다. 기존의 방법은 긍정 가방 안에서 "가장 긍정"인 인스턴스만 고려하여 마진을 찾는다. 일반적으로 다중 인스턴스로 표현된 데이터에서, 긍정 가방에 포함된 인스턴스들 중 실제로 긍정을 나타내는 인스턴스들은 자질 공간 상에서 서로 유사한 곳에 위치해 있다. 제안한 방법은 기존의 다중 인스턴스 지지 벡터 기계 학습 알고리즘 중에서 긍정 인스턴스들의 교차점을 찾아 이 교차점과 거리를 계산하여 "가장 긍정"인 인스턴스를 선택한다. 긍정 인스턴스들의 교차점인 피벗 포인트를 구하는 방식은 두 가지이다. 먼저, 학습과정 중 추정된 긍정 인스턴스들의 중심점을 사용하는 방법과 학습 시작 시에 가장 긍정일 것으로 예상되는 긍정 인스턴스들의 중심점을 찾는 방법으로 나뉜다. 총 12개의 벤치마크 다중 인스턴스 데이터 셋을 통해 제안한 방법이 기존의 학습 알고리즘에 비해 더 좋은 성능을 보임을 보인다.

휴대폰의 스팸문자메시지 판별 시스템 (A Spam Message Filter System for Mobile Environment)

  • 이성욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.194-196
    • /
    • 2010
  • 휴대폰의 광범위한 보급으로 문자메시지의 사용이 급증하고 있다. 이와 동시에 사용자가 원하지 않는 광고성 스팸문자도 넘쳐나고 있다. 본 연구는 이러한 스팸문자메시지를 자동으로 판별하는 시스템을 개발하는 것이다. 우리는 기계학습방법인 지지벡터기계(Support Vector Machine)을 사용하여 시스템을 학습하였으며 자질의 선택은 카이제곱 통계량을 이용하였다. 실험결과 F1 척도로 약 95.5%의 정확률을 얻었다

  • PDF

불균형 데이터 학습을 위한 지지벡터기계 알고리즘 (Support Vector Machine Algorithm for Imbalanced Data Learning)

  • 김광성;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.11-17
    • /
    • 2010
  • 본 논문에서는 클래스 불균형 학습을 위한 이차 최적화 문제의 해를 구하는 개선된 SMO 학습 알고리즘을 제안한다. 클래스에 서로 다른 정규화 값이 부여되는 지지벡터기계의 최적화 문제의 구현에 SMO 알고리즘이 적합하며, 제안된 알고리즘은 서로 다른 클래스에서 선택된 두 라그랑지 변수의 현재 해를 구하는 학습 단계를 반복한다. 제안된 학습 알고리즘은 UCI 벤치마킹 문제에서 테스트되어 클래스 불균형 분포를 반영하는 g-mean 평가를 이용한 일반화 성능이 SMO 알고리즘과 비교되었다. 실험 결과에서 제안된 알고리즘은 SMO에 비해 적은 클래스 데이터의 예측율을 높이고 학습시간을 단축시킬 수 있다.

센서 네트워크에서 위치 측정을 위한 분산 지지 벡터 머신 (Distributed Support Vector Machines for Localization on a Sensor Newtork)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.944-946
    • /
    • 2014
  • 최근 기계학습 방법을 도입하여 센서 노드에 대한 위치를 파악하는 방법이 관심을 받고 있다. 많은 기계학습 알고리즘 중, 지지벡터머신은 프로그래밍 언어로 구현하기 간편하고, 병렬로 수행이 가능하다. 본 논문에서는 파이썬 프로그래밍 언어로 지지벡터머신을 구현하고, 5대의 라즈베리파이를 사용하여 실험적인 하둡 센서 네트워크와 5개의 노드를 가진 맵리듀스 하둡 소프트웨어 프레임워크를 구성하였다. 기존 지지벡터머신 알고리즘을 분산 처리가 가능하도록 변형하여 위치 측정을 수행하였고, 다양한 파라미터를 변경해가면서 센서 네트워크를 구성하여 효율성, 자원분배, 처리속도를 비교하였다.

  • PDF

로우엔드 클러스터 센서 네트워크에서 위치 측정을 위한 지지 벡터 머신 (Constructing a Support Vector Machine for Localization on a Low-End Cluster Sensor Network)

  • 문상국
    • 한국정보통신학회논문지
    • /
    • 제18권12호
    • /
    • pp.2885-2890
    • /
    • 2014
  • 최근 기계학습 방법을 도입하여 센서 노드에 대한 위치를 파악하는 방법이 관심을 받고 있다. 많은 기계학습 알고리즘 중, 지지벡터머신은 프로그래밍 언어로 구현하기 간편하고, 병렬로 수행이 가능하다. 라즈베리파이는 작고 기능이 많아 센서 노드로 사용 시 인터넷 프로토콜을 사용하는 하둡 네트워크 클러스터 구성이 가능하다. 본 논문에서는 파이썬 프로그래밍 언어로 지지벡터머신을 구현하고, 5대의 라즈베리파이를 사용하여 실험적인 하둡 센서 네트워크와 5개의 노드를 가진 맵리듀스 하둡 소프트웨어 프레임워크를 구성하였다. 실험에서 우리는 다양한 파라미터를 변경해가면서 센서 네트워크를 구성하여 효율성, 자원분배, 처리속도를 비교하였다. 라즈베리파이의 컴퓨팅 파워와 메모리 용량은 부족했지만, 센서 클러스터의 노드 멤버의 역할을 충분히 수행하였고, 지지벡터머신 기계학습을 사용하여 센서 노드의 위치측정을 성공적으로 수행하였다.

분류 우선순위 적용과 후보정 규칙을 이용한 효과적인 한국어 화행 분류 (Effective Korean Speech-act Classification Using the Classification Priority Application and a Post-correction Rules)

  • 송남훈;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.80-86
    • /
    • 2016
  • 화행이란 발화 속에 포함되어 있는 화자에 의해 의도된 언어적 행위이다. 대화 시스템에서 입력된 발화에 적합한 화행을 분류하는 것은 중요하다. 기존의 화행분류에 관한 연구는 규칙기반과 기계학습 기반의 방법을 많이 사용한다. 본 논문에서는 대표적인 기계학습 방법인 지지벡터기계(SVM)와 변환기반 학습(TBL)을 조합한 화행 분류 방법을 제안한다. 이를 위해, 화행별 학습 발화의 수에 기반하여 분류 우선순위를 조정함으로써 지지벡터기계의 분류 편향 문제를 해결하였고, 오답일 확률이 높은 분류 결과에 대해서 변환 기반 학습을 통해 생성된 보정 규칙을 적용함으로써 화행분류 성능을 개선하는 방법을 제안한다. 본 논문에서 화행별 학습 발화 수의 차이를 고려한 분류 우선순위 변화와 후보정 규칙을 이용한 화행분류 방법을 실험을 통해 평가하였으며, 이는 학습 발화 수가 낮은 화행의 우선순위를 고려하지 않은 기존의 화행 분류보다 성능이 향상되었다.

듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법 (Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.