• 제목/요약/키워드: Random Forest Classification

검색결과 299건 처리시간 0.027초

한국 지방자치단체의 주민참여예산제도 운영에 관한 연구 - Support Vector Machine 기법을 이용한 유형 구분 (A Study on Korean Local Governments' Operation of Participatory Budgeting System : Classification by Support Vector Machine Technique)

  • 한준현;유재민;배재연;임충혁
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.461-466
    • /
    • 2024
  • 한국의 주민참여예산제도는 자치단체별로 자율적으로 운영되도록 하고 있어서, 본 연구는 이들을 몇 개의 유사한 유형들로 구분하여서 각각의 특징들을 살펴보고자 한다. 본 연구는 다양한 머신 러닝 기법들을 활용하여 2022년도 기초 시(市)를 중심으로 운영유형을 분류하였다. 그 결과, 여러 머신 러닝 기법(Neural Network, Rule Induction(CN2), KNN, Decision Tree, Random Forest, Gradient Boosting, SVM, Naïve Bayes) 중에서 SVM 기법이 성능이 가장 좋은 것으로 확인되었다. SVM 기법이 밝혀낸 운영유형은 모두 3개인데, 하나는 위원회 활동은 적게 하지만, 참여예산은 많이 확보하는 클러스터(C1)이고, 다른 하나는 주민참여예산제에 매우 소극적인 도시들의 클러스터(C3)이다. 마지막 클러스터(C2)는 참여예산에 전반적으로 적극적인데, 대다수 지역이 여기에 해당한다. 결론적으로 한국의 대다수 자치단체는 주민참여예산제를 긍정적으로 운영하고 있으며, 오직 소수의 자치단체만 소극적이다. 후속 연구로 지난 10여 년간의 시계열 자료를 분석한다면, 우리는 주민참여예산에 관한 지방자치단체 유형 분류의 신뢰도를 더욱 높일 수 있을 것으로 기대한다.

White striping degree assessment using computer vision system and consumer acceptance test

  • Kato, Talita;Mastelini, Saulo Martiello;Campos, Gabriel Fillipe Centini;Barbon, Ana Paula Ayub da Costa;Prudencio, Sandra Helena;Shimokomaki, Massami;Soares, Adriana Lourenco;Barbon, Sylvio Jr.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제32권7호
    • /
    • pp.1015-1026
    • /
    • 2019
  • Objective: The objective of this study was to evaluate three different degrees of white striping (WS) addressing their automatic assessment and customer acceptance. The WS classification was performed based on a computer vision system (CVS), exploring different machine learning (ML) algorithms and the most important image features. Moreover, it was verified by consumer acceptance and purchase intent. Methods: The samples for image analysis were classified by trained specialists, according to severity degrees regarding visual and firmness aspects. Samples were obtained with a digital camera, and 25 features were extracted from these images. ML algorithms were applied aiming to induce a model capable of classifying the samples into three severity degrees. In addition, two sensory analyses were performed: 75 samples properly grilled were used for the first sensory test, and 9 photos for the second. All tests were performed using a 10-cm hybrid hedonic scale (acceptance test) and a 5-point scale (purchase intention). Results: The information gain metric ranked 13 attributes. However, just one type of image feature was not enough to describe the phenomenon. The classification models support vector machine, fuzzy-W, and random forest showed the best results with similar general accuracy (86.4%). The worst performance was obtained by multilayer perceptron (70.9%) with the high error rate in normal (NORM) sample predictions. The sensory analysis of acceptance verified that WS myopathy negatively affects the texture of the broiler breast fillets when grilled and the appearance attribute of the raw samples, which influenced the purchase intention scores of raw samples. Conclusion: The proposed system has proved to be adequate (fast and accurate) for the classification of WS samples. The sensory analysis of acceptance showed that WS myopathy negatively affects the tenderness of the broiler breast fillets when grilled, while the appearance attribute of the raw samples eventually influenced purchase intentions.

수목 동정을 위한 수피 분류 데이터셋 구축과 합성곱 신경망 기반 53개 수종의 동정 모델 개발 (Construction of a Bark Dataset for Automatic Tree Identification and Developing a Convolutional Neural Network-based Tree Species Identification Model)

  • 김태경;백규헌;김현석
    • 한국산림과학회지
    • /
    • 제110권2호
    • /
    • pp.155-164
    • /
    • 2021
  • 자연환경에 대한 국민들의 관심 증가로 스마트폰과 같은 휴대용 기기를 이용한 수목 동정의 자동화에 대한 요구가 증가하고 있다. 최근 딥러닝 기술의 발전에 힘입어, 외국에서는 수목 인식 분야에의 적용이 활발하게 이루어지고 있다. 수목의 분류를 위해 꽃, 잎 등 다양한 형질들을 대상으로 연구가 진행되고 있지만, 접근성을 비롯한 여러 장점을 가진 수피의 경우 복잡도가 높고 자료가 부족하여 연구가 제한적이었다. 본 연구에서는 국내에서 흔히 관찰 가능한 수목 54종의 사진자료를 약 7,000 여장 수집 및 공개하였고, 이를 해외의 20 수종에 대한 BarkNet 1.0의 자료와 결합하여 학습에 충분한 수의 사진 수를 가지는 53종을 선정하고, 사진들을 7:3의 비율로 나누어 훈련과 평가에 활용하였다. 분류 모델의 경우, 딥러닝 기법의 일종인 합성곱 신경망을 활용하였는데, 가장 널리 쓰이는 VGGNet (Visual Geometry Group Network) 16층, 19층 모델 두 가지를 학습시키고 성능을 비교하였다. 또한 본 모형의 활용성 및 한계점을 확인하기 위하여 학습에 사용하지 않은 수종과 덩굴식물과 같은 방해 요소가 있는 사진들에 대한 모델의 정확도를 확인하였다. 학습 결과 VGG16과 VGG19는 각각 90.41%와 92.62%의 높은 정확도를 보였으며, 더 복잡도가 높은 모델인 VGG19가 조금 더 나은 성능을 보임을 확인하였다. 학습에 활용되지 않은 수목을 동정한 결과 80% 이상의 경우에서 같은 속 또는 같은 과에 속한 수종으로 예측하는 것으로 드러났다. 반면, 이끼, 만경식물, 옹이 등의 방해 요소가 존재할 경우 방해요소가 자치하는 비중에 따라 정확도가 떨어지는 것이 확인되어 실제 현장에서 이를 보완하기 위한 방법들을 제안하였다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

컴퓨터 단층 촬영 영상에서의 전이성 척추 종양의 정량적 분류를 위한 라디오믹스 기반의 머신러닝 기법 (Radiomics-based Machine Learning Approach for Quantitative Classification of Spinal Metastases in Computed Tomography)

  • 이은우;임상헌;전지수;강혜원;김영재;전지영;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제42권3호
    • /
    • pp.71-79
    • /
    • 2021
  • Currently, the naked eyes-based diagnosis of bone metastases on CT images relies on qualitative assessment. For this reason, there is a great need for a state-of-the-art approach that can assess and follow-up the bone metastases with quantitative biomarker. Radiomics can be used as a biomarker for objective lesion assessment by extracting quantitative numerical values from digital medical images. In this study, therefore, we evaluated the clinical applicability of non-invasive and objective bone metastases computer-aided diagnosis using radiomics-based biomarkers in CT. We employed a total of 21 approaches consist of three-classifiers and seven-feature selection methods to predict bone metastases and select biomarkers. We extracted three-dimensional features from the CT that three groups consisted of osteoblastic, osteolytic, and normal-healthy vertebral bodies. For evaluation, we compared the prediction results of the classifiers with the medical staff's diagnosis results. As a result of the three-class-classification performance evaluation, we demonstrated that the combination of the random forest classifier and the sequential backward selection feature selection approach reached AUC of 0.74 on average. Moreover, we confirmed that 90-percentile, kurtosis, and energy were the features that contributed high in the classification of bone metastases in this approach. We expect that selected quantitative features will be helpful as biomarkers in improving the patient's survival and quality of life.

Extra Tree와 ANN을 활용한 이상 탐지 및 공격 유형 분류 메커니즘 (Anomaly detection and attack type classification mechanism using Extra Tree and ANN)

  • 김민규;한명묵
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.79-85
    • /
    • 2022
  • 이상 탐지는 일반적인 사용자들의 데이터 집합 속에서 비정상적인 데이터 흐름을 파악하여 미리 차단하는 방법이다. 기존에 알려진 방식은 이미 알려진 공격의 시그니처를 활용하여 시그니처 기반으로 공격을 탐지 및 방어하는 방식인데, 이는 오탐율이 낮다는 장점이 있지만 제로 데이 취약점 공격이나 변형된 공격에 대해서는 매우 취약하다는 점이 문제점이다. 하지만 이상 탐지의 경우엔 오탐율이 높다는 단점이 존재하지만 제로 데이 취약점 공격이나 변형된 공격에 대해서도 식별하여 탐지 및 차단할 수 있다는 장점이 있어 관련 연구들이 활발해지고 있는 중이다. 본 연구에서는 이 중 이상 탐지 메커니즘에 대해 다뤘다. 앞서 말한 단점인 높은 오탐율을 보완하며 그와 더불어 이상 탐지와 분류를 동시에 수행하는 새로운 메커니즘을 제안한다. 본 연구에서는 여러 알고리즘의 특성을 고려하여 5가지의 구성으로 실험을 진행하였다. 그 결과로 가장 우수한 정확도를 보이는 모델을 본 연구의 결과로 제안하였다. Extra Tree와 Three layer ANN을 동시에 적용하여 공격 여부를 탐지한 후 공격을 분류된 데이터에 대해서는 Extra Tree를 활용하여 공격 유형을 분류하게 된다. 본 연구에서는 NSL-KDD 데이터 세트에 대해서 검증을 진행하였으며, Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.8%, 99.1%, 98.9%, 98.7%, 97.9%의 결과를 보였다. 본 구성은 다른 모델에 비해 우수한 성능을 보였다.

인공지능을 활용한 경관 지각반응 예측모델 개발 가능성 기초연구 - 머신러닝 기법을 중심으로 - (Basic Research on the Possibility of Developing a Landscape Perceptual Response Prediction Model Using Artificial Intelligence - Focusing on Machine Learning Techniques -)

  • 김진표;서주환
    • 한국조경학회지
    • /
    • 제51권3호
    • /
    • pp.70-82
    • /
    • 2023
  • 최근 IT 기술과 데이터의 범람으로 생활 전반적인 부분의 패러다임이 전환되고 있다. 이러한 기술의 발전과 변화는 학술영역에도 영향을 미치고 있다. 학문적 교류와 연계를 통해 연구주제나 연구 방법의 개선이 이루어지고 있다. 특히, 데이터 기반의 연구 방법이 다양한 학문분야에서 진행되고 있으며 조경학에서도 지속적인 연구가 필요한 시점이다. 따라서 본 연구에서는 이러한 시대적 상황을 반영하여 인공지능의 한 분야인 머신러닝을 활용한 경관 선호 평가 및 예측모델의 개발 가능성을 알아보는 것을 목표로 한다. 본 연구의 목표를 달성하기 위하여 경관 분야에 머신러닝 기법을 적용하여 경관 선호 평가 및 예측 모델을 구축하고, 구축된 모형의 모의정도를 검증하였다. 이를 위해 본 연구에서는 최근 신재생에너지 사업으로 주목받는 풍력발전시설 경관 이미지를 연구대상으로 선정하였다. 분석을 위하여 풍력발전시설 경관 이미지를 웹크롤링 기법을 활용하여 수집하고 분석 테이터셋을 구축하였다. 우수한 성능의 예측모델 도출을 위하여 머신러닝 분석에 활용되는 University of Ljubljana의 프로그램인 오렌지 버전 3.33을 활용하였다. 또, 머신러닝 학습데이터의 평가기준을 통합한 모델과 평가기준 별도 모델 구조를 활용하였으며, 머신러닝 분류모델에 적합한 kNN. SVM, Random Forest, Logistic Regression, Neural Network 알고리즘을 사용해 모델을 생성하였다. 생성된 모델을 성능 평가를 실시하여 본 연구에 가장 적합한 예측모델을 도출하였다. 본 연구에서 도출된 예측모델은 경관의 유형에 따른 분류, 경관과 대상의 시거리에 따른 분류, 선호에 따른 분류 등 3가지 평가기준을 별도로 평가 후 종합해 예측하여 결과를 도출하였다. 연구 결과 경관 유형에 따른 평가 기준 정확도 0.986, 시거리에 따른 평가 기준 정확도 0.973, 선호에 따른 평가 기준 정확도 0.952에 달하는 높은 정확도를 가진 예측모델을 개발하였으며, 평가데이터 예측 결과를 통한 검증과정을 보아도 모델의 성능 치를 상회하는 성과를 도출했음을 알 수 있다. 경관 관련 연구에서 머신러닝을 활용한 예측모델 개발 가능성을 알아본 실험적 시도로 이미지 데이터의 수집 및 정제를 통해 데이터 세트를 구축하여 높은 성능의 예측모델이 생성 가능하며, 이후 경관 관련 연구 분야에 활용될 수 있다는 가능성을 확인할 수 있었다. 본 연구의 결과와 시사점, 한계점을 반영한다면 풍력발전시설의 경관뿐만 아니라 자연경관이나 문화경관 등 다양한 형태의 경관 예측모델 개발이 가능할 것으로 생각되며, 경관 유형에 따라 이미지를 분류하는 모델의 연구를 통해 데이터 분류의 시간을 단축하거나 머신러닝을 활용한 경관예측 인자분석을 통해 경관계획 요소의 중요도 분석 등의 주제에 맞는 연구 방법을 탐색하고 적용하여 후속 연구를 진행한다면 조경학 분야에서도 머신러닝 기법을 보다 유용하고 가치 있게 활용할 수 있을 것으로 생각된다.

Genetic characterization of microsporidians infecting Indian non-mulberry silkworms (Antheraea assamensis and Samia cynthia ricini) by using PCR based ISSR and RAPD markers assay

  • Hassan, Wazid;Nath, B. Surendra
    • International Journal of Industrial Entomology and Biomaterials
    • /
    • 제30권1호
    • /
    • pp.6-16
    • /
    • 2015
  • This study established the genetic characterisation of 10 microsporidian isolates infecting non-mulberry silkworms (Antheraea assamensis and Samia cynthia ricini) collected from biogeographical forest locations in the State of Assam, India, using PCR-based markers assays: inter simple sequence repeat (ISSR) and random amplified polymorphic DNA (RAPD). A Nosema type species (NIK-1s_mys) was used as control for comparison. The shape of mature microsporidian spores were observed oval to elongated, measuring 3.80 to $4.90{\mu}m$ in length and 2.60 to $3.05{\mu}m$ in width. Fourteen ISSR primers generated reproducible profiles and yielded 178 fragments, of which 175 were polymorphic (98%), while 16 RAPD primers generated reproducible profiles with 198 amplified fragments displaying 95% of polymorphism. Estimation of genetic distance coefficients based on dice coefficients method and clustering with un-weighted pair group method using arithmetic average (UPGMA) analysis was done to unravel the genetic diversity of microsporidians infecting Indian muga and eri silkworm. The similarity coefficients varied from 0.385 to 0.941 in ISSR and 0.083 to 0.938 in RAPD data. UPGMA analysis generated dendrograms with two microsporidian groups, which appear to be different from each other. Based on Euclidean distance matrix method, 2-dimensional distribution also revealed considerable variability among different identified microsporidians. Clustering of these microsporidian isolates was in accordance with their host and biogeographic origin. Both techniques represent a useful and efficient tool for taxonomical grouping as well as for phylogenetic classification of different microsporidians in general and genotyping of these pathogens in particular.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

열화상 이미지 분석을 통한 배전 설비 공정능력지수 감지 시스템 개발 (Identifying Process Capability Index for Electricity Distribution System through Thermal Image Analysis)

  • 이형근;홍용민;강성우
    • 품질경영학회지
    • /
    • 제49권3호
    • /
    • pp.327-340
    • /
    • 2021
  • Purpose: The purpose of this study is to propose a system predicting whether an electricity distribution system is abnormal by analyzing the temperature of the deteriorated system. Traditional electricity distribution system abnormality diagnosis was mainly limited to post-inspection. This research presents a remote monitoring system for detecting thermal images of the deteriorated electricity distribution system efficiently hereby providing safe and efficient abnormal diagnosis to electricians. Methods: In this study, an object detection algorithm (YOLOv5) is performed using 16,866 thermal images of electricity distribution systems provided by KEPCO(Korea Electric Power Corporation). Abnormality/Normality of the extracted system images from the algorithm are classified via the limit temperature. Each classification model, Random Forest, Support Vector Machine, XGBOOST is performed to explore 463,053 temperature datasets. The process capability index is employed to indicate the quality of the electricity distribution system. Results: This research performs case study with transformers representing the electricity distribution systems. The case study shows the following states: accuracy 100%, precision 100%, recall 100%, F1-score 100%. Also the case study shows the process capability index of the transformers with the following states: steady state 99.47%, caution state 0.16%, and risk state 0.37%. Conclusion: The sum of caution and risk state is 0.53%, which is higher than the actual failure rate. Also most transformer abnormalities can be detected through this monitoring system.