• 제목/요약/키워드: 랜덤 포레스트 알고리즘

검색결과 87건 처리시간 0.029초

도시가스 배관압력 예측모델 (City Gas Pipeline Pressure Prediction Model)

  • 정원희;박길주;구영현;김성현;유성준;조영도
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.33-47
    • /
    • 2018
  • 도시가스 배관은 지중에 매설되어 있기 때문에 세부 관리가 어렵고 다양한 위험에 노출되어 있다. 본 연구에서는 도시가스 배관압력 실시간 데이터를 분석해 배관압력 이상을 예측하고 전문가의 의사결정을 돕는 모델을 제안한다. 국내 도시가스 공급업체들 중 하나인 중부도시가스사의 정압기에서 수집하는 실시간 배관압력 데이터와 시간변수, 외부환경변수를 통합해 분석 데이터로 사용한다. 아산시와 천안시에 위치하는 11개 정압기를 분석 대상으로 하며 분 단위 배관압력 예측모델을 구현한다. Random forest, support vector regression(SVR), long-short term memory(LSTM) 알고리즘을 사용해 회귀모델을 구현한 결과 LSTM 모델에서 우수한 성능을 보인다. 아산시 배관압력 예측모델의 경우 LSTM 모델에서 RMSE가 0.011, MAPE가 0.494이며, 천안시 배관압력 예측모델의 경우 LSTM 모델에서 평균제곱근오차(root mean square error, RMSE)가 0.015, 절대평균백분율오차(mean absolute percentage error, MAPE)가 0.668로 가장 낮은 오류율을 보인다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

광주광역시 아파트 매매가 영향요인 분석 (An Analysis of the Key Factors Affecting Apartment Sales Price in Gwangju, South Korea)

  • 임성연;고창완;정영선
    • 스마트미디어저널
    • /
    • 제11권3호
    • /
    • pp.62-73
    • /
    • 2022
  • 국내 아파트 매매가 예측에 관한 연구는 현재까지 지속적으로 수행되어 왔지만, 아파트 가격은 다양한 특성이 복합적으로 작용하기 때문에 예측하는데 어려움을 겪고 있다. 아파트 매매가를 예측하는데 앞서 정확도를 높이기 위해서는 주요 변수 선정 및 영향요인 분석이 무엇보다 중요하다. 이에 본 연구는 현재 꾸준한 상승률을 보이는 광주광역시를 대상으로 아파트 매매가에 영향을 주는 요인을 분석해보고자 한다. 이를 위해 6년간의 광주광역시 아파트 실거래가와 각종 사회적 요인 데이터를 토대로, 다중회귀분석, 랜덤 포레스트, 심층인공신경망 알고리즘을 적용하여 각 모델에서 주요 영향요인을 파악하였으며, 모델의 성능은 평균 제곱근 오차, 평균 절대 오차 그리고 결정계수를 통해 비교 분석하였다. 본 연구에서는 딥러닝의 일종인 심층인공신경망의 성능이 가장 우수함을 보였고, 매매가에 영향을 미치는 주요 요인으로 건축경과연수, 계약연도, 적용면적, 양도성예금증서, 주택담보대출금리, 선행지수, 생산자물가지수, 동행지수 등이 도출되었다.

OLE File Analysis and Malware Detection using Machine Learning

  • Choi, Hyeong Kyu;Kang, Ah Reum
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.149-156
    • /
    • 2022
  • 최근 전 세계적으로 사용되는 Microsoft Office 파일에 악성코드를 삽입하는 문서형 악성코드 사례가 증가하고 있다. 문서형 악성코드는 문서 내에 악성코드를 인코딩하여 숨기는 경우가 많기 때문에 백신 프로그램을 쉽게 우회할 수 있다. 이러한 문서형 악성코드를 탐지하기 위해 먼저 Microsoft Office 파일의 형식인 OLE(Object Linking and Embedding) 파일의 구조를 분석했다. Microsoft Office에서 지원하는 기능인 VBA(Visual Basic for Applications) 매크로에 외부 프로그램을 실행시키는 쉘코드, 외부 URL에서 파일을 다운받는 URL 관련 코드 등 다수의 악성코드가 삽입된 것을 확인했다. 문서형 악성코드에서 반복적으로 등장하는 키워드 354개를 선정하였고, 각 키워드가 본문에 등장하는 횟수를 feature 로 정의했다. SVM, naïve Bayes, logistic regression, random forest 알고리즘으로 머신러닝을 수행하였으며, 각각 0.994, 0.659, 0.995, 0.998의 정확도를 보였다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

머신러닝 기법을 활용한 토양수분 예측 가능성 연구 (Study on Soil Moisture Predictability using Machine Learning Technique)

  • 조봉준;최완민;김영대;김기성;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF

머신러닝 기반 노지 환경 변수에 따른 예측 토양 수분에 미치는 영향에 대한 연구 (A study on the impact on predicted soil moisture based on machine learning-based open-field environment variables)

  • 정광훈;이명훈
    • 스마트미디어저널
    • /
    • 제12권10호
    • /
    • pp.47-54
    • /
    • 2023
  • 지구 온난화로 인해 갑작스러운 기후변화와 농업 생산성에 대한 이해가 점점 중요해지면서, 토양 수분 예측은 농업에서 핵심 주제로 떠오르고 있다. 토양 수분은 농작물의 성장과 건강에 큰 영향을 미치며, 적절한 관리와 정확한 예측은 농업 생산성 향상과 자원 관리의 핵심 요소이다. 이러한 이유로 토양 수분 예측은 농업 및 환경 분야에서 큰 주목을 받고 있다. 본 논문에서는 머신러닝 알고리즘인 랜덤 포레스트를 통하여 시범포를 이용하여 노지 환경 데이터를 수집하고 분석하여 데이터 특성들과 토양 수분의 상관관계를 구하고 토양 수분 실제 값과 예측값을 비교하였으며 비교 결과 예측률이 약 92%의 정확성을 갖는다는 것을 확인하였다. 추후 연구를 통해 작물의 생장 데이터 변수들을 추가하여 토양 수분 예측을 진행한다면 토양 수분에 따른 작물의 생장 속도, 적절한 관수 타이밍 등의 주요 정보를 정확하게 제어함으로써 작물의 품질 상승, 물 관리 효율 증가 등 생산성 및 자원 효율성에 좋은 영향을 미칠 것이라고 기대된다.

머신러닝 기반 부산 청년인구 유출위험 요인 분석 (Analysis of Risk Factors for Youth Population Outflow in Busan Based on Machine Learning)

  • 손서영;양혜성;박민서
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.131-136
    • /
    • 2023
  • 지방을 떠나 수도권으로 이동하는 청년들이 나날이 늘고 있다. 청년 유출의 요인을 파악하기 위한 연구들이 다양하게 진행되고 있으나 각 지방별로 분석하는 연구는 부족한 실정이다. 이에 따라 본 연구는 부산의 청년 인구 유출 요인을 분석하고, 머신러닝 기법을 사용해 청년 인구 유출 위험 등급을 예측하고자 한다. 국가통계포털에서 수집한 부산의 구별 데이터를 활용하여 나이대(20대 초반, 20대 후반, 30대 초반)별로 세 그룹으로 나눈 뒤, 의사결정나무와 랜덤 포레스트 알고리즘을 이용해 청년 인구 유출 위험 등급을 분류하고 예측한다. 그 결과, 청년 인구 유출 위험 등급 예측 모델은 나이 그룹별 각각 최고 정확도 0.93, 0.75, 0.63을 갖는다.

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.