• 제목/요약/키워드: 반복적 부스팅 학습

검색결과 3건 처리시간 0.02초

반복적 부스팅 학습을 이용한 문서 여과 (Text Filtering using Iterative Boosting Algorithms)

  • 한상윤;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.270-277
    • /
    • 2002
  • 문서 여과 문제 (text filtering)는 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 따라서 증가하고 있는 추세이다. 이 논문에서는 새로운 학습 방법인 에이다부스트 학습 방법을 문서 여과 문제에 적용하여 기존의 방법들보다 우수한 분류 결과를 나타내는 문서 여과 시스템을 생성하고자 한다. 에이다 부스트는 간단한 가설의 집합을 생성하고 묶는 기법인데, 이 때 각각의 가설들은 문서가 특정 단어를 포함하고 있는지 검사하여 이에 따라 문서의 적합성을 판별한다. 먼저 최종 여과 시스템을 구성하는 각 가설의 출력이 1 또는 -1이 되는 이진 가설을 사용하는 기존의 에이다부스트 알고리즘에서 출발하여 좀 더 최근에 제안된 확신 정도 (실수값)를 출력하는 가설을 이용하는 에이다부스트 알고리즘을 적용함으로써 오류 감소 속도와 최종 오류율을 개선하고자 하였다. 또 각 데이타에 대한 초기 가중치를 연속 포아송 분포에 따라 임의로 부여하여 여러 번의 부스팅을 수행한 후 그 결과를 결합하는 방법을 사용함으로써 적은 학습 데이타로 인해 발생하는 과도학습의 문제를 완화하고자 하였다. 실험 데이터로는 TREC-8 필터링 트랙 데이타셋을 사용하였다. 이 데이타셋은 1992년도부터 1994년도 사이의 파이낸셜 타임스 기사로 이루어져 있다. 실험 결과, 실수값을 출력하는 가설을 사용했을 때 이진값을 갖는 가설을 사용했을 때 보다 좋은 결과를 보였고 임의 가중치를 사용하여 여러번 부스팅을 하는 방법이 더욱 향상된 성능을 나타내었다. 다른 TREC 참가자들과의 비교결과도 제시한다.

깊이영상에서 실시간 얼굴 검출을 위한 I-MCTBoost (The I-MCTBoost Classifier for Real-time Face Detection in Depth Image)

  • 주성일;원선희;최형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.25-35
    • /
    • 2014
  • 본 논문에서는 실시간 얼굴 검출을 위한 부스팅 기반 분류 방법을 제안한다. 제안하는 방법에서는 조명과 얼굴크기 및 변형에 강건하게 얼굴을 검출하기 위해 깊이영상을 이용하고, 깊이차이특징을 사용하여 I-MCTBoost 분류기를 통해 학습 및 인식을 수행한다. I-MCTBoost는 약분류기로 구성된 강분류기들의 연결을 통해 인식을 수행한다. 약분류기의 학습 과정은 깊이차이특징을 생성하고, 이중에서 8개의 특징을 조합하여 약분류기를 구성하며 이때 각 특징은 2진비트(binary bit)로 표현된다. 강분류기는 정해진 약분류기의 개수만큼 반복적으로 약분류기를 선택하는 과정을 통해 학습이 이루어지며, 학습 과정에서 학습 샘플의 가중치를 갱신하고 학습 데이터를 추가하여 강건한 분류를 수행할 수 있도록 한다. 본 논문에서는 깊이차이특징에 대해 설명하고 이를 이용한 I-MCTBoost의 약분류기 학습 방법과 강분류기 학습 방법에 대해 제안한다. 마지막으로 제안된 분류기를 기존 MCT를 이용한 분류기와 정성적, 정량적 분석을 통해 비교하고 제안한 분류기의 타당성과 효율성을 입증한다.

머신러닝 기법을 활용한 토양수분 예측 가능성 연구 (Study on Soil Moisture Predictability using Machine Learning Technique)

  • 조봉준;최완민;김영대;김기성;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF