• 제목/요약/키워드: 랜덤포레스트기법

검색결과 134건 처리시간 0.022초

합성곱 신경망을 이용한 손상된 볼트의 이미지 분류 (Image Classification of Damaged Bolts using Convolution Neural Networks)

  • Lee, Soo-Byoung;Lee, Seok-Soon
    • 항공우주시스템공학회지
    • /
    • 제16권4호
    • /
    • pp.109-115
    • /
    • 2022
  • 딥러닝 기법과 컴퓨터 비전 기술을 융합한 합성곱 신경망 알고리즘은 고성능 컴퓨팅 시스템을 기반으로 이미지 데이터의 분류를 가용하게 한다. 본 논문에서는 합성곱 신경망 알고리즘을 대표적인 딥러닝 프레임워크인 텐서플로와 학습 기법을 이용하여 구현하고 이미지 분류 문제에 적용한다. 모델의 지도학습에 필요한 데이터는 동일 종류의 볼트를 이용하여 나사산이 정상인 볼트와 나사산이 손상된 볼트로 구분하여 이미지를 생성하였다. 소량의 이미지 데이터를 이용한 학습 모델은 좋은 성능으로 볼트의 손상을 탐지하였다. 그리고 모델의 내부 구성에 따른 학습 성능을 비교하기 위해 합성곱 신경망 내 컨볼루션 레이어의 개수를 변경하고 과적합 회피기법을 선택 적용하여 이미지 분류 성능을 확인하였다.

도시홍수 위험도 실시간 표출을 위한 수치해석 모형과 기계학습의 연계 (Linkage of Numerical Analysis Model and Machine Learning for Real-time Flood Risk Prediction)

  • 김현일;한건연;김태형;최규현;조효섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.332-332
    • /
    • 2021
  • 도시화가 상당히 이뤄지고 기습적인 폭우의 발생이 불확실하게 나타나는 시점에서 재산 및 인명피해를 야기할 수 있는 내수침수에 대한 위험도가 증가하고 있다. 내수침수에 대한 예측을 위하여 실측강우 또는 확률강우량 시나리오를 참조하고 연구대상 지역에 대한 1차원 그리고 2차원 수리학적 해석을 실시하는 연구가 오랫동안 진행되어 왔으나, 수치해석 모형의 경우 다양한 수문-지형학적 자료 및 계측 자료를 요구하고 집약적인 계산과정을 통한 단기간 예측에 어려움이 있음이 언급되어 왔다. 본 연구에서는 위와 같은 문제점을 해결하기 위하여 단일 도시 배수분구를 대상으로 관측 강우 자료, 1, 2차원 수치해석 모형, 기계학습 및 딥러닝 기법을 적용한 실시간 홍수위험지도 예측 모형을 개발하였다. 강우자료에 대하여 실시간으로 홍수량을 예측할 수 있도록 LSTM(Long-Short Term Memory) 기법을 적용하였으며, 전국단위 강우에 대한 다양한 1차원 도시유출해석 결과를 학습시킴으로써 예측을 수행하였다. 침수심의 공간적 분포의 경우 로지스틱 회귀를 이용하여, 기준 침수심에 대한 예측을 각각 수행하였다. 홍수위험 등급의 경우 침수심, 유속 그리고 잔해인자를 고려한 홍수위험등급 공식을 적용하여 산정하였으며, 이 결과를 랜덤포레스트(Random Forest)에 학습함으로써 실시간 예측을 수행할 수 있도록 개발하였다. 침수범위 및 홍수위험등급에 대한 예측은 격자 단위로 이뤄졌으며, 검증 자료의 부족으로 침수 흔적도를 통하여 검증된 2차원 침수해석 결과와 비교함으로써 예측력을 평가하였다. 본 기법은 특정 관측강우 또는 예측강우 자료가 입력되었을 때에, 도시 유역 단위로 접근이 불가하여 통제해야 할 구간을 실시간으로 예측하여 관리할 수 있을 것으로 판단된다.

  • PDF

인적요인을 고려한 머신러닝 활용 산림화재 예측 (Predicting Forest Fires Using Machine Learning Considering Human Factors)

  • 장진명;김주찬;김화중;김광태
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.109-126
    • /
    • 2023
  • 대형 산림화재를 예방하기 위해 산림화재의 조기발견은 매우 중요하다. 조기발견을 위한 하나의 방안으로 산림화재 발생 예측이 고려되고 있으며 다양한 관련 연구가 진행되었다. 그러나 대다수의 선행연구가 산림화재의 주요 발화 원인 중의 하나인 인적요인을 고려하지 않고 기상요인과 지리적 요인만을 주로 다루고 있다. 따라서 본 연구는 기상 및 지리적 요인뿐만 아니라 인적요인을 고려한 산림화재 예측모형을 개발하기 위해 2003년부터 2020년까지의 강원도 산림화재 데이터를 활용하여 로지스틱 회귀모형과 다양한 머신러닝 기법 기반의 예측모형을 개발하고 성능을 비교분석하였다. 성능분석 결과, 머신러닝 기법인 랜덤 포레스트(AUC=0.920)와 XG Boost 모형(AUC=0.925)이 가장 우수한 성능을 나타냈다. 운영시사점을 도출하기 위해 순열특성중요도 분석을 활용하여 요인들의 상대적 중요도를 분석하였으며, 기상요인이 인적요인보다 높은 영향도를 나타냈지만 다양한 인적요인도 유효한 것으로 확인되었다.

Learning-to-rank 기법을 활용한 서울 경마경기 순위 예측 (Horse race rank prediction using learning-to-rank approaches)

  • 정준형;신동욱;황세용;박건웅
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.239-253
    • /
    • 2024
  • 본 연구는 learning-to-rank (LTR) 기법 중 point-wise와 pair-wise learning을 적용하여 서울 경마경기 순위 예측을 수행하였다. Point-wise learning으로는 선형 회귀와 랜덤 포레스트를 pair-wise learning으로는 RankNet, LambdaMART (XGBoost Ranker, LightGBM Ranker, CatBoost Ranker)을 활용하였다. 또한 데이터 불균형 문제를 해결하기 위해 전처리 과정에서 경주기록을 경주거리에 따라 표준화하는 방식을 채택하였으며, 모형의 예측 능력 향상을 위해 경기 정보, 기수 정보, 마필 정보, 조교사 정보 등의 다양한 데이터를 사용하였다. 그 결과 아이템 간의 순위관계를 학습할 수 있는 pair-wise learning이 point-wise learning보다 전반적으로 더 뛰어난 예측력을 보이는 것을 확인하였다. 특히 CatBoost Ranker는 제시된 모형들 중 가장 뛰어난 예측 성능을 보였다. 마지막으로 섀플리 값을 통해 CatBoost Ranker에서 경주마의 성적, 직전 경주기록, 경주마의 출발훈련 횟수, 누적 출발훈련 횟수, 질병 진단횟수 등이 상위 10개 중요 변수에 포함된 것을 확인하였다.

온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법 (A Method for Identifying Nicknames of a User based on User Behavior Patterns in an Online Community)

  • 박상현;박석
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.165-174
    • /
    • 2018
  • 온라인 커뮤니티란 SNS와 달리 사용자들이 닉네임을 통해 익명으로 관심사와 취미를 공유하는 가상 그룹 서비스이다. 그런데 이런 익명성을 악의적으로 활용하는 사용자들이 존재하고, 닉네임의 변경으로 인해 동일 사용자의 데이터가 서로 다른 닉네임에 존재하는 데이터 파편화 문제가 발생할 수 있다. 또한 온라인 커뮤니티에서는 닉네임을 변경하는 일이 빈번하므로 동일 사용자를 식별하는데 어려움을 겪는다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 온라인 커뮤니티 특성을 고려한 사용자의 행동 패턴 특징 벡터를 제시하며, 관계 패턴이라는 새로운 암시적 행동 패턴을 제안함과 동시에 랜덤 포레스트 분류기를 이용한 동일 사용자의 닉네임을 식별하는 기법을 제안한다. 또한 실제 온라인 커뮤니티 데이터를 수집해 제안한 행동패턴과 분류기를 이용해 동일 사용자를 유의미한 수준으로 식별할 수 있음을 실험적으로 보인다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

대학생 중도탈락 예방을 위한 기계 학습 기반 추천 시스템 구현 방안 (Implementation of a Machine Learning-based Recommender System for Preventing the University Students' Dropout)

  • 정도헌
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.37-43
    • /
    • 2021
  • 본 연구는 대학생의 중도탈락 패턴을 식별하는 효과적인 자동 분류 기법을 제안하고, 이를 바탕으로 중도탈락을 예방하기 위한 지능형 추천 시스템의 구현 방안을 제시하는 것을 목표로 한다. 이를 위해 1) 실제 대학생의 재학/제적 데이터를 기반으로 기계 학습의 성능을 향상시킬 수 있는 데이터 처리 방안을 제안하고, 2) 5종의 기계학습 알고리즘을 이용하여 성능 비교 실험을 실시하였다. 3) 실험 결과, 제안 기법이 베이스라인에 비해 모든 알고리즘에서 우수한 성능을 보여주었다. 제적생의 식별 정확률(precision)은 랜덤 포레스트(Random Forest)를 사용할 때 최대 95.6%, 제적생의 재현율(recall)은 나이브 베이즈(Naive Bayes)를 사용할 때 최대 80.0%로 측정되었다. 4) 마지막으로, 실험 결과를 바탕으로 중도탈락 가능성이 높은 학생을 우선 상담하는 추천 시스템의 활용 방안을 제시하였다. 교육 현안 문제를 해결하기 위해 IT 분야의 기술을 활용하는 융합 연구를 통해 합리적인 의사결정을 수행할 수 있음을 확인하였으며 향후 지속적인 연구를 통해 다양한 인공지능 기술을 적용하고자 한다.

GLCM 기반 UAV 영상의 감독분류를 이용한 저수구역 내 농경지 탐지 (Detection of Cropland in Reservoir Area by Using Supervised Classification of UAV Imagery Based on GLCM)

  • 김규문;최재완
    • 한국측량학회지
    • /
    • 제36권6호
    • /
    • pp.433-442
    • /
    • 2018
  • 저수구역은 계획된 홍수위에 의하여 둘러싸인 지역 혹은 댐의 계획된 홍수위 내에 있는 지역으로 정의된다. 본 연구에서는 저수구역 내 농경지를 탐지하기 위하여, 대표적인 기계학습 기법인 RF (Random Forest) 기반의 감독 분류 방법을 적용하였다. 저수구역 내의 농경지를 효과적으로 분류하기 위하여, 질감정보를 정량화하기 위한 대표적인 기법인 GLCM (Gray Level Co-occurrence Matrix)과 NDWI (Normalized Difference Water Index), NDVI (Normalized Difference Vegetation Index)를 추가적인 입력자료로 활용하였다. 특히, 질감정보를 생성하는데 사용된 윈도우 크기가 농경지의 분류 정확도에 미치는 영향을 분석하여, 저수구역 내의 농경지를 효과적으로 분류하기 위한 방법론을 제시하였다. 실험결과, UAV 영상을 이용한 분류결과를 통하여 취득된 다중분광영상과 NDVI, NDWI, GLCM 영상들을 이용하여 저수구역 내의 농경지를 효과적으로 탐지할 수 있음을 확인하였다. 또한, GLCM의 윈도우 크기가 분류정확도를 향상시키기 위한 중요한 변수임을 확인하였다.

기계학습 기반의 실내 측위 성능 향상을 위한 학습 데이터 전처리 기법 (Learning data preprocessing technique for improving indoor positioning performance based on machine learning)

  • 김대진;황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1528-1533
    • /
    • 2020
  • 최근 Wi-Fi 전파 지문을 이용한 실내 위치 인식 기술이 다양한 산업 분야 및 공공 서비스에서 적용되어 운영되고 있다. 기계학습 기술의 관심과 함께 단말 주변의 무선 신호 데이터를 사용한 기계학습 기반의 위치 인식 기술이 빠르게 발전하고 있다. 이때 기계학습에 필요한 무선 신호 데이터의 수집 과정에서 왜곡되거나 학습에 적합하지 않은 데이터가 포함되어 위치 인식의 정확도가 낮아지는 결과가 발생한다. 또한 특정 위치에서 수집된 데이터를 기반의 위치 인식을 수행하는 경우 학습에 포함되지 않은 주변 위치에서의 위치 인식에 문제가 발생한다. 본 논문에서는 수집된 학습 데이터의 전처리 과정을 통해 향상된 위치 인식 결과를 얻기 위한 학습 데이터 전처리 기법을 제안한다.

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지 (Ensemble Machine Learning Model Based YouTube Spam Comment Detection)

  • 정민철;이지현;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.576-583
    • /
    • 2020
  • 이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.