• 제목/요약/키워드: random forest algorithm

검색결과 221건 처리시간 0.023초

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

Stroke Disease Identification System by using Machine Learning Algorithm

  • K.Veena Kumari ;K. Siva Kumar ;M.Sreelatha
    • International Journal of Computer Science & Network Security
    • /
    • 제23권11호
    • /
    • pp.183-189
    • /
    • 2023
  • A stroke is a medical disease where a blood vessel in the brain ruptures, causes damage to the brain. If the flow of blood and different nutrients to the brain is intermittent, symptoms may occur. Stroke is other reason for loss of life and widespread disorder. The prevalence of stroke is high in growing countries, with ischemic stroke being the high usual category. Many of the forewarning signs of stroke can be recognized the seriousness of a stroke can be reduced. Most of the earlier stroke detections and prediction models uses image examination tools like CT (Computed Tomography) scan or MRI (Magnetic Resonance Imaging) which are costly and difficult to use for actual-time recognition. Machine learning (ML) is a part of artificial intelligence (AI) that makes software applications to gain the exact accuracy to predict the end results not having to be directly involved to get the work done. In recent times ML algorithms have gained lot of attention due to their accurate results in medical fields. Hence in this work, Stroke disease identification system by using Machine Learning algorithm is presented. The ML algorithm used in this work is Artificial Neural Network (ANN). The result analysis of presented ML algorithm is compared with different ML algorithms. The performance of the presented approach is compared to find the better algorithm for stroke identification.

LSTM Model-based Prediction of the Variations in Load Power Data from Industrial Manufacturing Machines

  • Rita, Rijayanti;Kyohong, Jin;Mintae, Hwang
    • Journal of information and communication convergence engineering
    • /
    • 제20권4호
    • /
    • pp.295-302
    • /
    • 2022
  • This paper contains the development of a smart power device designed to collect load power data from industrial manufacturing machines, predict future variations in load power data, and detect abnormal data in advance by applying a machine learning-based prediction algorithm. The proposed load power data prediction model is implemented using a Long Short-Term Memory (LSTM) algorithm with high accuracy and relatively low complexity. The Flask and REST API are used to provide prediction results to users in a graphical interface. In addition, we present the results of experiments conducted to evaluate the performance of the proposed approach, which show that our model exhibited the highest accuracy compared with Multilayer Perceptron (MLP), Random Forest (RF), and Support Vector Machine (SVM) models. Moreover, we expect our method's accuracy could be improved by further optimizing the hyperparameter values and training the model for a longer period of time using a larger amount of data.

RRCF 알고리즘을 활용한 RAN 장비 이상 검출에 관한 연구 (A Study on RAN Equipment Anomaly Detection Using RRCF Algorithm)

  • 이택현;국광호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.581-583
    • /
    • 2021
  • 코로나19의 펜데믹 현상으로 인하여 모바일 서비스의 활용 비중이 높아지고 있다. 그러나, 대부분의 모바일 장비에 대한 이상 현상을 장비의 알람 중심으로 인지하므로, 복잡한 장애가 발생할 경우에 직관적으로 장비의 문제 판별하기 어려운 한계가 발생한다. 이를 보완하기 위해서 본 연구에서는 장비의 알람과 성능 정보를 조합하여 직관적으로 문제를 인지할 수 있도록 RRCF 알고리즘을 활용하여 Anomaly Score 생성하였으며, 과거 장애 이력을 97% 검출하는 효과를 검증하였다.

  • PDF

빅데이터 분석을 활용한 초기 정보 기반 화재현장 위험도 예측 모델 개발 연구 (A Study on the Development of a Fire Site Risk Prediction Model based on Initial Information using Big Data Analysis)

  • 김도형;조병완
    • 한국재난정보학회 논문집
    • /
    • 제17권2호
    • /
    • pp.245-253
    • /
    • 2021
  • 연구목적: 본 연구는 화재발생 건축물 정보, 신고자 취득 정보 등 초기 정보를 활용하여 화재현장의 위험도를 예측하여, 재난 발생 초기에 효과적인 소방자원 동원 및 적절한 대응을 위한 피해최소화 전략 수립을 지원하는 위험도 예측 모델을 개발하고자 한다. 연구방법: 화재 통계 데이터 상에서 화재의 피해규모와 관련된 변수 규명을 위해 머신러닝 알고리즘을 이용한 변수간 상관성 분석을 실시하여 예측 가능성을 검토하고, 데이터 표준화 및 이산화 등의 전처리를 통해 학습 데이터 셋을 구축하였다. 이를 활용하여 예측 정확도가 높은 것으로 평가 받고 있는 복수의 머신러닝 알고리즘을 테스트하여 가장 정확도가 높은 알고리즘을 적용한 위험도 예측 모델을 개발하였다. 연구결과: 머신러닝 알고리즘 성능 테스트 결과 랜덤포레스트 알고리즘의 정확도가 가장 높게 나왔으며, 위험도 등급에 대해서는 중간치에 대한 정확성이 상대적으로 높은 것으로 확인되었다. 결론: 화재 통계 상 피해규모 데이터의 편향성에 의해 예측모델 정확도가 제한적으로 나타났으며, 예측 모델 성능 개선을 위해 데이터 정합성 및 결손치 보완 등을 통한 데이터 정제가 필요하다.

스마트 폰 기반 차량 환경에서의 랜덤 포레스트를 이용한 시선 인식 시스템 (Gaze Recognition System using Random Forests in Vehicular Environment based on Smart-Phone)

  • 오병훈;정광우;홍광석
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.191-197
    • /
    • 2015
  • 본 논문에서는 스마트 폰 기반 차량 환경에서의 랜덤 포레스트를 이용한 시선 인식 시스템을 제안한다. 제안한 시스템은 Adaboost 알고리즘을 이용한 얼굴 검출, 히스토그램 정보를 이용한 얼굴 구성 요소 추출, 그리고 랜덤 포레스트 알고리즘 기반의 시선 인식으로 구성되어 있다. 카메라로부터 획득한 영상정보를 바탕으로 운전자의 얼굴을 검출하고, 이를 기반으로 운전자의 얼굴 구성 요소를 추정한다. 그리고 추정된 구성 요소로부터 시선 인식에 필요한 특징 벡터를 추출하고, 랜덤 포레스트 인식 알고리즘을 이용하여 9개 방향에 대한 시선을 인식한다. 실험을 위해 실제 환경에서 다양한 시선 방향을 포함하여 DB를 수집하였으며, 실험 결과 얼굴 검출률은 약 82.02%, 시선 인식률은 약 84.77% 성능을 확인하였다.

KOMPSAT-3A 위성영상과 토지피복도를 활용한 산림식생의 임상 분류법 개발 (Development of a Classification Method for Forest Vegetation on the Stand Level, Using KOMPSAT-3A Imagery and Land Coverage Map)

  • 송지용;정종철;이상훈
    • 한국환경생태학회지
    • /
    • 제32권6호
    • /
    • pp.686-697
    • /
    • 2018
  • 오늘날 원격탐지기술의 발달로 인해, 산림지역과 같이 피복 분류작업이 난해한 지역을 비롯한 광범위한 지역에서의 세밀한 변화탐지를 위한 고해상도 위성영상 취득이 가능해졌다. 하지만, 고해상도 영상에 대한 시계열분석의 과정에서 많은 양의 지상 관측 데이터가 요구된다. 본 연구에서는 토지피복도를 지상 관측데이터로 활용한 위성영상 분류 방법의 가능성을 시험하였다. 연구대상지는 강원도 원주시이며, 산림지역과 시가화지역이 공존하는 공간이다. 연구 자료는 2015년 3월에 촬영된 KOMPSAT-3A 영상과 2017년도 토지피복도를 이용하여 분류를 시도하였다. 서포트벡터머신(SVM)과 랜덤포레스트(RF)의 두 가지 상이한 화소기반 분류기법을 적용하여 대상지에 대한 피복분류의 분류정확도를 비교 분석하였으며, SVM 분석의 경우 다수 분석(Majority analysis)을 후속 진행하였다. 분석대상은 산림식생만 포함한 지역과 연구대상지 전지역으로 구분하였고, 대상 면적이 협소한 습지는 분석과정에서 제외하였다. 분류 결과는 오차 행렬의 전체 정확도가 두 가지 분류대상에 대해 RF 기법이 SVM 기법보다 더 나은 것으로 나타났다. 산림지역만을 대상으로 한 경우, RF 기법이 SVM 기법에 비해 18.3% 높은 값을 나타낸 반면, 전체지역을 대상으로 한 경우는 둘 사이의 간격이 5.5%로 줄어들었다. SVM 기법에 다수 분석 (Majority analysis)을 추가로 실시한 경우, 1% 정도의 정확도 향상이 나타났다. RF 기법은 산림지역의 활엽수를 분석해 내는데 상당히 효과적이었지만, 다른 대상에 대해서는 SVM 기법이 더 나은 결과를 나타내었다. 본 연구는 고해상도 단일시기 영상에 대한 화소 기반의 분류기법을 시험한 것으로, 추후 시계열분석 및 객체기반 분류기법의 추가적인 적용으로 향상된 정확도와 신뢰도를 얻을 수 있을 것으로 판단된다. 이 연구의 방법론은 시공간적으로 고해상도 분석결과를 제공함으로써, 대면적의 토지계획에 유용할 것으로 기대된다.

Enhancing the Reliability of Wi-Fi Network Using Evil Twin AP Detection Method Based on Machine Learning

  • Seo, Jeonghoon;Cho, Chaeho;Won, Yoojae
    • Journal of Information Processing Systems
    • /
    • 제16권3호
    • /
    • pp.541-556
    • /
    • 2020
  • Wireless networks have become integral to society as they provide mobility and scalability advantages. However, their disadvantage is that they cannot control the media, which makes them vulnerable to various types of attacks. One example of such attacks is the evil twin access point (AP) attack, in which an authorized AP is impersonated by mimicking its service set identifier (SSID) and media access control (MAC) address. Evil twin APs are a major source of deception in wireless networks, facilitating message forgery and eavesdropping. Hence, it is necessary to detect them rapidly. To this end, numerous methods using clock skew have been proposed for evil twin AP detection. However, clock skew is difficult to calculate precisely because wireless networks are vulnerable to noise. This paper proposes an evil twin AP detection method that uses a multiple-feature-based machine learning classification algorithm. The features used in the proposed method are clock skew, channel, received signal strength, and duration. The results of experiments conducted indicate that the proposed method has an evil twin AP detection accuracy of 100% using the random forest algorithm.

Modeling with Thin Film Thickness using Machine Learning

  • Kim, Dong Hwan;Choi, Jeong Eun;Ha, Tae Min;Hong, Sang Jeen
    • 반도체디스플레이기술학회지
    • /
    • 제18권2호
    • /
    • pp.48-52
    • /
    • 2019
  • Virtual metrology, which is one of APC techniques, is a method to predict characteristics of manufactured films using machine learning with saving time and resources. As the photoresist is no longer a mask material for use in high aspect ratios as the CD is reduced, hard mask is introduced to solve such problems. Among many types of hard mask materials, amorphous carbon layer(ACL) is widely investigated due to its advantages of high etch selectivity than conventional photoresist, high optical transmittance, easy deposition process, and removability by oxygen plasma. In this study, VM using different machine learning algorithms is applied to predict the thickness of ACL and trained models are evaluated which model shows best prediction performance. ACL specimens are deposited by plasma enhanced chemical vapor deposition(PECVD) with four different process parameters(Pressure, RF power, $C_3H_6$ gas flow, $N_2$ gas flow). Gradient boosting regression(GBR) algorithm, random forest regression(RFR) algorithm, and neural network(NN) are selected for modeling. The model using gradient boosting algorithm shows most proper performance with higher R-squared value. A model for predicting the thickness of the ACL film within the abovementioned conditions has been successfully constructed.

Use of Information Technologies to Explore Correlations between Climatic Factors and Spontaneous Intracerebral Hemorrhage in Different Age Groups

  • Ting, Hsien-Wei;Chan, Chien-Lung;Pan, Ren-Hao;Lai, Robert K.;Chien, Ting-Ying
    • Journal of Computing Science and Engineering
    • /
    • 제11권4호
    • /
    • pp.142-151
    • /
    • 2017
  • Spontaneous intracerebral hemorrhage (sICH) has a high mortality rate. Research has demonstrated that sICH occurrence is related to weather conditions; therefore, this study used the decision tree method to explore the impact of climatic risk factors on sICH at different ages. The Taiwan National Health Insurance Research Database (NHIRD) and other open-access data were used in this study. The inclusion criterion was a first-attack sICH. The decision tree algorithm and random forest were implemented in R programming language. We defined a high risk of sICH as more than the average number of cases daily, and the younger, middle-aged and older groups were calculated as having 0.77, 2.26 and 2.60 cases per day, respectively. In total, 22,684 sICH cases were included in this study; 3,102 patients were younger (<44 years, younger group), 9,089 were middle-aged (45-64 years, middle group), and 10,457 were older (>65 years, older group). The risk of sICH in the younger group was not correlated with temperature, wind speed or humidity. The middle group had two decision nodes: a higher risk if the maximum temperature was >$19^{\circ}C$ (probability = 63.7%), and if the maximum temperature was <$19^{\circ}C$ in addition to a wind speed <2.788 (m/s) (probability = 60.9%). The older group had a higher risk if the average temperature was >$23.933^{\circ}C$ (probability = 60.7%). This study demonstrated that the sICH incidence in the younger patients was not significantly correlated with weather factors; that in the middle-aged sICH patients was highly-correlated with the apparent temperature; and that in the older sICH patients was highly-correlated with the mean ambient temperature. "Warm" cold ambient temperatures resulted in a higher risk of sICH, especially in the older patients.