• 제목/요약/키워드: 부스팅

검색결과 135건 처리시간 0.026초

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

뜰개 이동 예측을 위한 신경망 및 통계 기반 기계학습 기법의 성능 비교 (Performance Comparison of Machine Learning Based on Neural Networks and Statistical Methods for Prediction of Drifter Movement)

  • 이찬재;김경도;김용혁
    • 한국융합학회논문지
    • /
    • 제8권10호
    • /
    • pp.45-52
    • /
    • 2017
  • 뜰개는 해양에서 해수의 특성 및 흐름을 관측하기 위한 장비로서, 해수의 흐름 관측을 이용해 유출유 확산 예측을 위해 사용될 수 있다. 본 논문에서는 관측기관에서 사용하는 뜰개가 특정 시간 간격으로 관측한 바람 및 해수의 특성과 이동경로를 기계학습 기법들을 이용하여 학습시키고 예측하는 모델을 제안한다. 서포트벡터 회귀, 방사기저함수 네트워크, 가우시안 프로세스, 다층 퍼셉트론, 순환신경망을 이용하여 뜰개의 이동경로 예측 방법을 제시한다. 기존 MOHID 수치모델과 비교하여 각 기법별로 4 개의 사례중 3 개에서 성능이 개선되었으며, 가장 좋은 개선율을 보인 기법은 LSTM으로 평균 47.59% 개선되었다. 추후 연구에서는 배깅과 부스팅을 이용하여 가중치를 부여하여 정확도를 개선할 예정이다.

UHF RFID Tag Chip용 저면적·고신뢰성 512bit EEPROM IP 설계 (Design of Small-Area and High-Reliability 512-Bit EEPROM IP for UHF RFID Tag Chips)

  • 이동훈;김려연;장지혜;하판봉;김영희
    • 한국정보통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.302-312
    • /
    • 2012
  • 본 논문에서는 UHF RFID 태그 칩용 512bit EEPROM의 저면적 설계 기술과 고신뢰성 기술을 제안하였다. 저면적회로는 디코딩 로직(decoding logic)을 단순화한 WL 구동 회로, BGR 회로 대신 저항 분배기(resistor divider)를 이용한 VREF 발생회로이다. Magnachip $0.18{\mu}m$ EEPROM 공정을 이용하여 설계된 512bit EEPROM IP의 레이아웃 크기는 $59.465{\mu}m{\times}366.76{\mu}m$으로 기존 회로를 사용한 EEPROM 대비 16.7% 줄였다. 그리고 쓰기 모드(write mode)를 빠져나올 때 DC-DC 변환기(converter)에서 출력되는 부스팅된 출력전압을 VDDP(=3.15V)로 방전시키는 대신, 공통접지(common ground)인 VSS로 방전시키는 방식을 제안하여 VDDP 전압을 일정하게 유지함으로써 5V 소자가 파괴되는 문제를 해결하였다.

혼합분류기 기반 영상내 움직이는 객체의 혼잡도 인식에 관한 연구 (A Study on Recognition of Moving Object Crowdedness Based on Ensemble Classifiers in a Sequence)

  • 안태기;안성제;박광영;박구만
    • 한국통신학회논문지
    • /
    • 제37권2A호
    • /
    • pp.95-104
    • /
    • 2012
  • 혼합분류기를 이용한 패턴인식은 약한 분류기를 결합하여 강한 분류기를 구성하는 형태이다. 본 논문에서는 고정된 카메라를 통해 입력된 영상을 이용하여 특징을 추출하고 이것들을 이용한 약한 분류기의 결합으로 강한 분류기를 만들어 낸다. 제안하는 시스템 구성은 차영상 기법을 이용해서 이진화된 전경 영상을 얻고 모폴로지 침식연산 수행으로 얻어진 혼잡도 가중치 영상을 이용해 특징을 추출하게 된다. 추출된 특징을 조합하고 혼잡도를 판단하기 위한 모델의 훈련 및 인식을 위한 혼합분류기 알고리즘으로 부스팅 방법을 사용하였다. 혼합 분류기는 약한 분류기의 조합으로 하나의 강한 분류기를 만들어 내는 분류기로서 그림자나 반사 등이 일어나는 환경에서도 잠재적인 특징들을 잘 활용할 수 있다. 제안하는 시스템의 성능실험은 "AVSS 2007"의 도로환경의 차량 영상과 철도환경내의 승강장 영상을 사용하였다. 조명변화가 심한 야외환경과 승강장과 같은 복잡한 환경에서도 시스템의 우수한 성능을 보여주었다.

샘플 군집화를 이용한 개선된 아다부스트 알고리즘 (An Improved AdaBoost Algorithm by Clustering Samples)

  • 백열민;김중근;김회율
    • 방송공학회논문지
    • /
    • 제18권4호
    • /
    • pp.643-646
    • /
    • 2013
  • 본 논문에서는 아다부스트의 과적합 문제를 해결하기 위해 샘플 군집화를 이용한 개선된 아다부스트 알고리즘을 제안한다. 아다부스트는 다양한 객체 검출 방법에서 좋은 성능을 보이는 방법으로 알려져 있지만 훈련 샘플에 노이즈가 존재하는 경우 과적합 현상이 발생하는 문제가 있다. 이를 해결하기 위해 제안하는 방법은 우선 훈련 샘플의 긍정 샘플을 k-평균 군집화 알고리즘을 이용하여 K개의 군집으로 나눈다. 이후 아다부스트의 약분류기 훈련 시 K개의 군집 중 훈련 오차를 최소화하는 하나의 군집만을 선택하여 사용한다. 이로써, 제안하는 방법은 매 회 반복되는 약분류기의 훈련 시 훈련 샘플들이 과분할 되는 것과 노이즈 샘플이 훈련에 사용되는 것을 방지함으로써 기존 아다부스트의 과적합 현상을 효과적으로 줄여준다. 실험 결과, 제안하는 방법은 다양한 실제 데이터셋에서 기존의 부스팅 기반 방법들에 비해 더 나은 분류 성능 및 일반화 성능을 보여주었다.

학술정보서비스에서 인명검색 고도화 방법 (Enhanced Method for Person Name Retrieval in Academic Information Service)

  • 한희준;예용희;류범종
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.490-498
    • /
    • 2010
  • 웹이든 웹이 아니든 존재하는 모든 학술정보에는 창작자, 즉 그 정보를 생산한 주체가 존재한다. 그 주체는 개인, 단체, 기관이 될 수 있으며 또는 해당 정보의 성격에 따라 국가가 될 수도 있다. 대부분의 정보는 제목과 저자, 내용으로 구성된다. 학술정보 가운데 논문의 경우 제목, 저자, 키워드, 요약, 발행일, 발행처, ISSN 등의 메타정보로 기술되며, 특허의 경우는 명칭, 출원인, 발명자, 대리인, IPC, 출원번호, 청구항등의 메타정보로 표현된다. 대부분의 웹 기반의 학술정보 서비스에서는 이들 메타정보를 가공 및 처리하여 사용자들에게 검색기능을 제공하며, 특히 인명에 해당하는 저자필드를 이용한 검색기능은 중요한 요소이다. 본 논문에서는 인명검색을 위한 효율적인 색인운영과 구검색 기반의 부스팅 요소를 적용한 인접연산 결과 랭킹 알고리즘을 이용해 인명검색 결과의 정확성 개선 방법을 제안하며, 인명검색시 공저자 및 관련연구자 검색결과를 제공하는 방법을 설명한다. 이는 학술정보서비스에 있어서 정확하고 부가적인 검색결과를 제공하는데 효과적으로 적용될 수 있다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

판별 함수를 이용한 문턱치 선정에 의한 약분류기 개선 (Improving Weak Classifiers by Using Discriminant Function in Selecting Threshold Values)

  • 샴 아디카리;유현중;김형석
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.84-90
    • /
    • 2010
  • Viola와 Jones가 사용한 Haar-like 특징 기반 약분류기의 분별력을 개선하기 위하여, 2차 판별식에 기반한 판정 경계(decision boundary) 결정 방법을 제안한다. Viola와 Jones가 부스팅된 약분류기 앙상블을 사용해서 강분류기를 만들 때 사용한 단일 판정 경계 기반 약분류기는 특징 공간을 지나치게 단순하게 해석한 산물이어서 대부분의 경우 최적이 아니며, 객체 클래스와 배경 클래스 간을 효율적으로 분별하기에 흔히 너무 약하다. 이 논문에서 제안하는 2차 판별식 분석에 기반한 방법은 객체 클래스와 배경 클래스 사이에 다중 판정 경계를 사용하는 약분류기를 만들어준다. 1000개의 positive 샘플과 3000개의 negative 샘플을 훈련에 사용하고, 500개의 positive와 500개의 negative를 테스트에 사용한 차량 검출 실험을 통해서, 기존의 단일 문턱치 기반 약분류기 방식에 비해, 제안 기법이 더 적은 수의 분류기를 사용하면서도 더 우수한 분류 성능을 제공하는 것을 확인하였다.

데이터 마이닝 기반 스마트 공장 에너지 소모 예측 모델 (An Energy Consumption Prediction Model for Smart Factory Using Data Mining Algorithms)

  • ;이명배;임종현;김유빈;신창선;박장우;조용윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.153-160
    • /
    • 2020
  • 산업용 에너지 소비 예측은 에너지 수요와 공급에 동적이고 계절적인 변화가 있기 때문에 에너지 관리 및 제어 시스템에서 중요한 위치를 차지한다. 본 논문은 철강 산업의 에너지 소비 예측 모델을 제시하고 논의한다. 사용되는 데이터에는 후행 및 선도적인 전류 반응 전력, 후행 및 선도적인 전류 동력 계수, 이산화탄소(TCO2) 배출 및 부하 유형이 포함된다. 테스트 세트에서는 (a) 선형 회귀(LR), (b) 방사형 커널(SVM RBF), (c) Gradient Boosting Machine (GBM), (d) 무작위 포리스트(RF). 평균 제곱 오차(RMSE), 평균 절대 오차(MAE) 및 평균 절대 백분율 오차(ME)의 네 가지 통계 모델을 사용하여 예측하고 평가한다. 회귀 설계의 효율성 모든 예측 변수를 사용할 때 최상의 모델 RF는 테스트 세트에서 RMSE 값 7.33을 제공할 수 있다.

응답 시간을 향상 시킨 외부 커패시터가 없는 Low-Dropout 레귤레이터 회로 (A Capacitorless Low-Dropout Regulator With Enhanced Response Time)

  • 여재진;노정진
    • 전기전자학회논문지
    • /
    • 제19권4호
    • /
    • pp.506-513
    • /
    • 2015
  • 본 논문에서는 외부 커패시터가 없는 low-dropout (LDO) 레귤레이터를 설계하였으며, 대기 전류는 $4.5{\mu}A$ 이다. 제안하는 LDO 레귤레이터는 정밀한 로드 레귤레이션과 빠른 응답 속도를 만족하기 위해 두 개의 증폭기를 사용 하였고, 높은 이득을 갖는 증폭기와 빠른 속도 및 높은 슬루율을 가지는 증폭기로 구성 되어 있다. 이와 함께 패스 트랜지스터의 게이트에 존재하는 큰 기생 커패시터에 전류를 빠르게 충 방전시키기 위해, 전류 부스팅 회로를 추가하였다. 이를 통해 부하 전류 변화 시 응답 시간을 향상 시키게 된다. 설계된 회로는 $0.11-{\mu}m$ CMOS 공정으로 제작되었다. 최대 200mA 의 부하 전류를 구동할 수 있으며, 출력 전압 변동은 260mV, 회복 시간은 $0.8{\mu}s$ 을 측정하였다.