• 제목/요약/키워드: Random Forest Classification

검색결과 302건 처리시간 0.019초

Predictive Model for Evaluating Startup Technology Efficiency: A Data Envelopment Analysis (DEA) Approach Focusing on Companies Selected by TIPS, a Private-led Technology Startup Support Program

  • Jeongho Kim;Hyunmin Park;JooHee Oh
    • International Journal of Advanced Culture Technology
    • /
    • 제12권2호
    • /
    • pp.167-179
    • /
    • 2024
  • This study addresses the challenge of objectively evaluating the performance of early-stage startups amidst limited information and uncertainty. Focusing on companies selected by TIPS, a leading private sector-driven startup support policy in Korea, the research develops a new indicator to assess technological efficiency. By analyzing various input and output variables collected from Crunchbase and KIND (Korea Investor's Network for Disclosure System) databases, including technology use metrics, patents, and Crunchbase rankings, the study derives technological efficiency for TIPS-selected startups. A prediction model is then developed utilizing machine learning techniques such as Random Forest and boosting (XGBoost) to classify startups into efficiency percentiles (10th, 30th, and 50th). The results indicate that prediction accuracy improves with higher percentiles based on the technical efficiency index, providing valuable insights for evaluating and predicting startup performance in early markets characterized by information scarcity and uncertainty. Future research directions should focus on assessing growth potential and sustainability using the developed classification and prediction models, aiding investors in making data-driven investment decisions and contributing to the development of the early startup ecosystem.

Sentiment Analysis on 'HelloTalk' App Reviews Using NRC Emotion Lexicon and GoEmotions Dataset

  • Simay Akar;Yang Sok Kim;Mi Jin Noh
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.35-43
    • /
    • 2024
  • During the post-pandemic period, the interest in foreign language learning surged, leading to increased usage of language-learning apps. With the rising demand for these apps, analyzing app reviews becomes essential, as they provide valuable insights into user experiences and suggestions for improvement. This research focuses on extracting insights into users' opinions, sentiments, and overall satisfaction from reviews of HelloTalk, one of the most renowned language-learning apps. We employed topic modeling and emotion analysis approaches to analyze reviews collected from the Google Play Store. Several experiments were conducted to evaluate the performance of sentiment classification models with different settings. In addition, we identified dominant emotions and topics within the app reviews using feature importance analysis. The experimental results show that the Random Forest model with topics and emotions outperforms other approaches in accuracy, recall, and F1 score. The findings reveal that topics emphasizing language learning and community interactions, as well as the use of language learning tools and the learning experience, are prominent. Moreover, the emotions of 'admiration' and 'annoyance' emerge as significant factors across all models. This research highlights that incorporating emotion scores into the model and utilizing a broader range of emotion labels enhances model performance.

머신러닝 기반 시설물 안전 점검·진단용역 부실 판정 요인에 대한 연구 (Investigating Factors Contributing to Inadequate Facility Safety Inspections and Diagnosis Services: A Machine Learning Approach)

  • 박준용;송지훈
    • 한국산업융합학회 논문집
    • /
    • 제27권4_2호
    • /
    • pp.897-908
    • /
    • 2024
  • Evaluating the adequacy of facility safety inspection and diagnosis services performed by private enterprises is a time-consuming and administratively complex process. This study aims to analyze the determinants that could influence the rating of these safety inspection and diagnosis services using data analytics approach. Through a comparative analysis of several machine learning algorithms suitable for multi-class classification, we selected the model with the best performance (Random Forest) and identified the main determinants using the permutation importance technique. Among the variables examined, "contract value," "days of service performed" and "adherence to fair market value" were found to be strongly correlated with the rating assessments. Furthermore, we discovered that the skills and expertise of service performing personnel significantly impacted the rating. The results of this study can contribute to the enhancement of the current post-evaluation administrative processes and offer valuable insights into rating assessments by incorporating previously unexplored variables pertaining to both service providers and the services itself.

백두대간의 구룡령에서 약수산 마루금의 식생구조 특성에 관한 연구 (Phytosociological Community Classification of Mountain Ridge from Guryongryeong to Mt. Yaksu in the Baekdudaegan, Korea)

  • 안현철;추갑철;박삼봉;조현서;안종빈;박정근;하현우;김진중;김봉규
    • 한국환경생태학회지
    • /
    • 제28권6호
    • /
    • pp.741-750
    • /
    • 2014
  • 백두대간 구룡령-약수산 마루금에 22개의 방형구($100m^2$)를 설정하여 식생을 조사하였다. 식생군집을 분석한 결과 신갈나무-까치박달나무-당단풍나무군집, 신갈나무군집, 층층나무-신갈나무군집 등 3개의 군집으로 분류되었다. 백두대간 구룡령-약수산 마루금은 대부분 신갈나무가 우점하고 있었으며, 일부지역에서 까치박달나무와 층층나무 등이 혼효하고 있었다. 수종간의 상관관계에서 신갈나무와 노린재나무, 철쭉; 피나무와 찰피나무, 노린재나무; 찰피나무와 노린재나무, 철쭉; 거제수나무와 고로쇠나무; 노린재나무와 철쭉 등의 수종 간에는 높은 정의 상관이 인정되었다. 당단풍나무와 노린재나무, 철쭉 등의 수종 간에는 높은 부의 상관이 인정되었다. 조사지의 군집별 종다양성 지수는 0.8170~1.1446범위로 백두대간에 위치한 국립공원들의 능선부 식생구조 보다는 약간 낮게 나타났다.

기계적 모터 고장진단을 위한 머신러닝 기법 (A Machine Learning Approach for Mechanical Motor Fault Diagnosis)

  • 정훈;김주원
    • 산업경영시스템학회지
    • /
    • 제40권1호
    • /
    • pp.57-64
    • /
    • 2017
  • In order to reduce damages to major railroad components, which have the potential to cause interruptions to railroad services and safety accidents and to generate unnecessary maintenance costs, the development of rolling stock maintenance technology is switching from preventive maintenance based on the inspection period to predictive maintenance technology, led by advanced countries. Furthermore, to enhance trust in accordance with the speedup of system and reduce maintenances cost simultaneously, the demand for fault diagnosis and prognostic health management technology is increasing. The objective of this paper is to propose a highly reliable learning model using various machine learning algorithms that can be applied to critical rolling stock components. This paper presents a model for railway rolling stock component fault diagnosis and conducts a mechanical failure diagnosis of motor components by applying the machine learning technique in order to ensure efficient maintenance support along with a data preprocessing plan for component fault diagnosis. This paper first defines a failure diagnosis model for rolling stock components. Function-based algorithms ANFIS and SMO were used as machine learning techniques for generating the failure diagnosis model. Two tree-based algorithms, RadomForest and CART, were also employed. In order to evaluate the performance of the algorithms to be used for diagnosing failures in motors as a critical railroad component, an experiment was carried out on 2 data sets with different classes (includes 6 classes and 3 class levels). According to the results of the experiment, the random forest algorithm, a tree-based machine learning technique, showed the best performance.

Estimation of Fractional Vegetation Cover in Sand Dunes Using Multi-spectral Images from Fixed-wing UAV

  • Choi, Seok Keun;Lee, Soung Ki;Jung, Sung Heuk;Choi, Jae Wan;Choi, Do Yoen;Chun, Sook Jin
    • 한국측량학회지
    • /
    • 제34권4호
    • /
    • pp.431-441
    • /
    • 2016
  • Since the use of UAV (Unmanned Aerial Vehicle) is convenient for the acquisition of data on broad or inaccessible regions, it is nowadays used to establish spatial information for various fields, such as the environment, ecosystem, forest, or for military purposes. In this study, the process of estimating FVC (Fractional Vegetation Cover), based on multi-spectral UAV, to overcome the limitations of conventional methods is suggested. Hence, we propose that the FVC map is generated by using multi-spectral imaging. First, two types of result classifications were obtained based on RF (Random Forest) using RGB images and NDVI (Normalized Difference Vegetation Index) with RGB images. Then, the result map was reclassified into vegetation and non-vegetation. Finally, an FVC map-based RF were generated by using pixel calculation and FVC map-based GI (Gutman and Ignatov) model were indirectly made by fixed parameters. The method of adding NDVI shows a relatively higher accuracy compared to that of adding only RGB, and in particular, the GI model shows a lower RMSE (Root Mean Square Error) with 0.182 than RF. In this regard, the availability of the GI model which uses only the values of NDVI is higher than that of RF whose accuracy varies according to the results of classification. Our results showed that the GI mode ensures the quality of the FVC if the NDVI maintained at a uniform level. This can be easily achieved by using a UAV, which can provide vegetation data to improve the estimation of FVC.

전문가의 형태소 분류를 활용한 과학 논증 자동 채점 (Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제40권3호
    • /
    • pp.321-336
    • /
    • 2020
  • 본 연구는 실제 교실에서 이루어진 학생의 과학 논증과정을 기계학습을 활용한 자동 채점에 적용함으로써, 논증 자동 채점의 가능성 및 개선 방향을 탐색한다. 분자 구조에 대한 고등학생의 과학 논증수업 중 발생한 2,605개의 모든 발화를 대상으로 연구를 진행하였다. 지도 학습을 위해 5가지의 논증 요소로 발화를 분류하였고, 분류된 발화를 대상으로 텍스트 전처리를 수행하였다. 전처리된 학생 발화를 활용하여 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, 인공신경망의 기계 학습 방법으로 자동 채점 모델을 구성하였다. 불용어 처리가 되지 않은 학생 발화를 활용한 자동 채점의 결과 랜덤 포레스트의 정확도는 65.96%, kappa는 0.5298의 유미한 결과를 얻었다. 불용어 처리를 수행한 학생 발화를 활용한 새로운 채점 모델의 결과 채점의 정확도가 크게 변화하지 않음에도 논증 발화 중 과학 용어 및 논증 요소의 담화표지가 채점 모델의 분류 기준이 되는 결과를 얻었다. 또한 인간 전문가의 논증 채점 과정을 분석하여 얻어진 전문가 형태소를 자동 채점 모델에 생성 규칙 알고리즘으로 적용하였다. 그 결과 의사결정나무에서 반박에 대한 재현율(recall)이 21.74% 증가하였다. 이에 본 연구 결과는 과학 교육 연구에서 기계 학습 및 논증에 대한 자동 채점의 활용 가능성과 연구 방향성을 제안하였다.

비행교육과정 단계별 분석을 통한 조종적성검사 항목 타당성 연구 (A Study on Propriety of Pilot Aptitude Test Using Phased Analysis of Pilot Training)

  • 김희영;김수환;문호석
    • 한국지능시스템학회논문지
    • /
    • 제26권3호
    • /
    • pp.218-225
    • /
    • 2016
  • 첨단과학기술의 집합체로서 비약적으로 발전한 항공기 성능과 나날이 고도화되어 가고 있는 군 작전 환경을 고려해 볼 때 이상적인 조종적성을 가지고 있는 인원을 선발하는 문제는 매우 중요하다. 또한 무위로 돌아갈 수밖에 없는 중도 탈락자의 손실비용과 항공사고의 대부분이 인적요인에 의해 발생하고 있다는 사실은 조종적성검사를 통한 인원선발이 왜 중요한지에 대한 좀 더 현실적인 이유가 될 것이다. 이에 본 연구에서는 한국 공군이 2004년 개선하여 조종사 선발에 사용하고 있는 조종적성검사 항목의 타당성을 다양한 분류모형을 통하여 분석하고 선택된 변수에 대한 의미와 향후 발전방향에 대하여 논의하였다. 그리고 광의의 적성검사 항목에 속하는 개인특성변수를 투입하여 분류모형을 구성함으로써 예측력을 높이는 연구를 수행하였다.

심층신경망을 통한 해파리 출현 예측 (The prediction of appearance of jellyfish through Deep Neural Network)

  • 황철훈;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.1-8
    • /
    • 2019
  • 본 논문은 지구온난화로 인하여 수온이 상승되며 증가한 해파리의 피해를 감소하고자 연구를 진행하였다. 해수욕장에서 해파리의 등장은 해파리의 쏘임 사고로 인한 인명피해와 폐장으로 인한 경제적 손실이 발생할 수 있다. 본 논문은 선행 연구들로부터 해파리의 출현 패턴을 머신러닝을 통하여 예측 가능함 확인하였다. SVM을 이용한 해파리 출현 예측 모델 연구를 확대하여 진행하였다. 심층신경망을 이용하여 해파리 출현 유무 예측인 이진 분류에서 지수화 된 방법인 다중 분류로 확장하고자 하였다. 수집된 데이터의 크기가 작다는 한계점으로 인하여 84.57%라는 예측 정확도의 한계를 부트스트래핑을 이용하여 데이터 확장을 통해 해결하고자 하였다. 확장된 데이터는 원본 데이터보다 약 7% 이상의 높은 성능을 보여주었으며, Transfer learning과 비교하여 약 6% 이상의 좋은 성능을 보여주었다. 최종적으로 테스트 데이터를 통하여 해파리 출현 예측 성능을 확인한 결과, 해파리의 출현 유무를 예측할 시 높은 정확도로 예측이 가능함을 확인하였으나, 지수화를 통한 예측에서는 의미 있는 결과를 얻지 못하였다.

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지 (Ensemble Machine Learning Model Based YouTube Spam Comment Detection)

  • 정민철;이지현;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.576-583
    • /
    • 2020
  • 이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.