• 제목/요약/키워드: Random forests

검색결과 109건 처리시간 0.025초

Creation of regression analysis for estimation of carbon fiber reinforced polymer-steel bond strength

  • Xiaomei Sun;Xiaolei Dong;Weiling Teng;Lili Wang;Ebrahim Hassankhani
    • Steel and Composite Structures
    • /
    • 제51권5호
    • /
    • pp.509-527
    • /
    • 2024
  • Bonding carbon fiber-reinforced polymer (CFRP) laminates have been extensively employed in the restoration of steel constructions. In addition to the mechanical properties of the CFRP, the bond strength (PU) between the CFRP and steel is often important in the eventual strengthened performance. Nonetheless, the bond behavior of the CFRP-steel (CS) interface is exceedingly complicated, with multiple failure causes, giving the PU challenging to forecast, and the CFRP-enhanced steel structure is unsteady. In just this case, appropriate methods were established by hybridized Random Forests (RF) and support vector regression (SVR) approaches on assembled CS single-shear experiment data to foresee the PU of CS, in which a recently established optimization algorithm named Aquila optimizer (AO) was used to tune the RF and SVR hyperparameters. In summary, the practical novelty of the article lies in its development of a reliable and efficient method for predicting bond strength at the CS interface, which has significant implications for structural rehabilitation, design optimization, risk mitigation, cost savings, and decision support in engineering practice. Moreover, the Fourier Amplitude Sensitivity Test was performed to depict each parameter's impact on the target. The order of parameter importance was tc> Lc > EA > tA > Ec > bc > fc > fA from largest to smallest by 0.9345 > 0.8562 > 0.79354 > 0.7289 > 0.6531 > 0.5718 > 0.4307 > 0.3657. In three training, testing, and all data phases, the superiority of AO - RF with respect to AO - SVR and MARS was obvious. In the training stage, the values of R2 and VAF were slightly similar with a tiny superiority of AO - RF compared to AO - SVR with R2 equal to 0.9977 and VAF equal to 99.772, but large differences with results of MARS.

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

Corpus of Eye Movements in L3 Spanish Reading: A Prediction Model

  • Hui-Chuan Lu;Li-Chi Kao;Zong-Han Li;Wen-Hsiang Lu;An-Chung Cheng
    • 아시아태평양코퍼스연구
    • /
    • 제5권1호
    • /
    • pp.23-36
    • /
    • 2024
  • This research centers on the Taiwan Eye-Movement Corpus of Spanish (TECS), a specially created corpus comprising eye-tracking data from Chinese-speaking learners of Spanish as a third language in Taiwan. Its primary purpose is to explore the broad utility of TECS in understanding language learning processes, particularly the initial stages of language learning. Constructing this corpus involves gathering data on eye-tracking, reading comprehension, and language proficiency to develop a machine-learning model that predicts learner behaviors, and subsequently undergoes a predictability test for validation. The focus is on examining attention in input processing and their relationship to language learning outcomes. The TECS eye-tracking data consists of indicators derived from eye movement recordings while reading Spanish sentences with temporal references. These indicators are obtained from eye movement experiments focusing on tense verbal inflections and temporal adverbs. Chinese expresses tense using aspect markers, lexical references, and contextual cues, differing significantly from inflectional languages like Spanish. Chinese-speaking learners of Spanish face particular challenges in learning verbal morphology and tenses. The data from eye movement experiments were structured into feature vectors, with learner behaviors serving as class labels. After categorizing the collected data, we used two types of machine learning methods for classification and regression: Random Forests and the k-nearest neighbors algorithm (KNN). By leveraging these algorithms, we predicted learner behaviors and conducted performance evaluations to enhance our understanding of the nexus between learner behaviors and language learning process. Future research may further enrich TECS by gathering data from subsequent eye-movement experiments, specifically targeting various Spanish tenses and temporal lexical references during text reading. These endeavors promise to broaden and refine the corpus, advancing our understanding of language processing.

우리나라 산불 발생의 원인별 공간적 특성 분석 (Cause-specific Spatial Point Pattern Analysis of Forest Fire in Korea)

  • 곽한빈;이우균;이시영;원명수;구교상;이병두;이명보
    • 한국산림과학회지
    • /
    • 제99권3호
    • /
    • pp.259-266
    • /
    • 2010
  • 우리나라에서 산불 발생 공간분포는 인간 활동과 큰 관련성이 있기 때문에, 지역별 군집형태의 강한 공간의존성을 갖는다. 본 연구에서는 공간의존성의 개념에 입각하여 점자료 분석법을 통한 산불발생의 공간분포패턴을 분석하였다. Ripley의 K 함수를 이용하여 산불 발생 원인별 공간분포 형태를 파악하였으며, Kernel 함수를 통해 산불발생의 공간적 집중도를 분석하였다. 그 결과 정도는 상이하지만 모든 원인의 산불이 임의(random) 분포가 아닌 군집화(clustered)되어 발생하는 특징이 있는 것으로 나타났다. 또한, 산불 발생의 군집성을 원인별로 크게 두 집단으로 나눌 수 있었다. 첫째는 전국적 발생 패턴을 가지는 원인으로 입산자 실화, 논밭두렁 소각과 같은 활동과 관련된 것이고 또 다른 하나는 국지적 군집성을 가지는 원인으로 담뱃불이나 어린이 불장난, 방화이다. 그 군집성의 범위는 30 km내외로 나타났으며, 그 범위 밖에서는 임의 분포하고 있었다. Kernel 함수에 의한 원인별 집중도 분석에서는 강한 군집도를 나타냈던 3가지 원인(담뱃불, 어린이 불장난, 방화)의 경우 대부분 인구밀도가 높은 수도권을 중심으로 발생하는 것을 확인할 수 있었다.

낙동강의 중·하류 4개보에서 남조류 우점 환경 요인 분석 (Factors analysis of the cyanobacterial dominance in the four weirs installed in of Nakdong River)

  • 김성진;정세웅;박형석;조영철;이희숙
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.413-413
    • /
    • 2019
  • 하천과 호수에서 남조류의 이상 과잉증식 문제(이하 녹조문제)는 담수생태계의 생물다양성을 감소시키며, 음용수의 이취미 원인물질을 발생시켜 물 이용에 장해가 된다. 또한 독소를 생산하는 유해남조류가 대량 증식할 경우에는 가축이나 인간의 건강에 치명적 해를 끼치기도 한다. 그 동안 국내에서 녹조문제는 댐 저수지와 하구호와 같은 정체수역에서 간헐적으로 문제를 일으켰으나, 4대강사업(2010-2011)으로 16개의 보가 설치된 이후 낙동강, 금강, 영산강 등 대하천에서도 광범위하게 발생되고 있어 중요한 사회적 환경적 이슈로 대두되었다. 한편, 대하천에 설치된 보 구간에서 빈번히 발생하는 녹조현상의 원인에 대해서는 전 지구적 기온상승에 따른 기후변화의 영향이라는 주장과 유역으로부터 영양염류의 과도한 유입, 가뭄에 따른 유량감소, 보 설치에 따른 체류시간 증가 등 다양한 의견이 제시되고 있으나, 대상 유역과 수체의 특성에 따라 녹조 발생의 원인이 상이하거나 또는 다양한 요인이 복합적으로 작용하기 때문에 보편적 해석(universal interpretation)이 어려운 것이 현실이다. 따라서 각 수계별, 보별 녹조현상에 대한 정확한 원인분석과 효과적인 대책 마련을 위해서는 집중된 실험자료와 데이터마이닝 기법에 근거로 한 보다 과학적이고 객관적인 접근이 이루어져야 한다. 본 연구에서는 2012년 보 설치 이후 남조류에 의한 녹조현상이 빈번히 발생하고 있는 낙동강 4개보(강정고령보, 달성보, 합천창녕보, 창녕함안보)를 대상으로 집중적인 현장조사와 실험분석을 수행하고, 수집된 기상, 수문, 수질, 조류 자료에 대해 통계분석과 다양한 데이터모델링 기법을 적용하여 보별 남조류 우점 환경조건과 이를 제어하기 위한 주요 조절변수를 규명하는데 있다. 연구대상 보 별 수질과 식물플랑크톤의 정성 및 정량 실험은 2017년 5월부터 2018년 11월까지 2년에 걸쳐 실시하였으며, 남조류 세포수 밀도와 환경요인과의 상관성 분석을 실시하고, 단계적 다중회귀모델(Step-wise Multiple Linear Regressions, SMLR), 랜덤포레스트(Random Forests, RF) 모델과 재귀적 변수 제거 기법(Recursive Feature Elimination using Random Forest, RFE-RF)을 이용한 변수중요도 평가, 의사결정나무(Decision Tree, DT), 주성분분석(Principal Component Analysis, PCA) 기법 등 다양한 모수적 및 비모수적 데이터마이닝 결과를 바탕으로 각 보별 남 조류 우점 환경요인을 종합적으로 해석하였다.

  • PDF

아파트 매매가 추이 예측에 관한 연구: 정부 정책, 경제, 수요·공급 속성을 중심으로 (A Study on the Forecasting Trend of Apartment Prices: Focusing on Government Policy, Economy, Supply and Demand Characteristics)

  • 이중목;최수안;우수한;김성훈;김태준;우종필
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.91-113
    • /
    • 2021
  • 한국 자산 시장에서 부동산이 가지는 영향력에도 불구하고 시장 추이 예측은 쉽지 않으며, 그중 아파트는 주거 공간인 동시에 투자 속성을 내포하고 있어 더욱 예측이 쉽지 않다. 아파트 가격에 영향을 주는 요인은 다양하며 지역적 특성 또한 고려되어야 한다. 본 연구는 서울시 전체, 강남 3구, 노원, 도봉, 강북, 금천, 관악, 구로구의 아파트 매매가에 영향을 미치는 요인과 특성을 비교하고 이를 기반으로 가격 예측의 가능성을 파악하기 위해 수행되었다. 분석에는 신경망, CHAID, 선형회귀, 랜덤포레스트 등 머신러닝 알고리즘이 사용되었다. 서울시 전체 아파트 평균 매매가에 가장 중요한 영향을 미치는 요소는 정부 정책 요소였으며, 거래규제 완화, 금융규제 완화 등의 완화 정책이 영향력이 높게 도출되었다. 강남 3구의 경우 정책의 영향력이 낮은 것으로 파악되었으며 강남구의 경우 주택 공급량이 가장 중요한 요인이었다. 반면 6개의 중·하위구들은 정부 정책이 중요 변수로 작용하였으며 공통적으로 금융규제 정책이 영향을 끼치는 요인이었다.

머신러닝을 활용한 뇌졸중 환자의 기능적 결과 예측: 체계적 고찰 (Predicting Functional Outcomes of Patients With Stroke Using Machine Learning: A Systematic Review)

  • 배수영;;남상훈;홍익표
    • 재활치료과학
    • /
    • 제11권4호
    • /
    • pp.23-39
    • /
    • 2022
  • 목적 : 본 연구는 뇌졸중 환자의 기능적 결과를 예측하기 위한 인구통계학적 및 임상학적 특징과 머신러닝의 사용을 체계적으로 분석하고 요약하기 위해 수행되었다. 연구방법 : PubMed, CINAHL과 Web of Science를 사용하여 2010년부터 2021년 사이에 게재된 연구를 검색하였다. 주요 검색어는 "machine learning OR data mining AND stroke AND function OR prediction OR/AND rehabilitation"을 사용하였다. 뇌 이미지 처리 기법만을 분석한 연구, 딥러닝만 적용한 연구와 전체 본문을 열람할 수 없는 연구는 제외되었다. 결과 : 검색한 결과, 총 9편의 국내외 논문을 선정했다. 선정된 논문에서 가장 많이 사용된 머신러닝 알고리즘은 서포트 벡터 머신(support vector machine, 19.05%)과 랜덤포레스트(random forest, 19.05%)였다. 9개 중 7개의 연구에서 뇌졸중 환자의 기능을 예측하기 위해 중요하다고 추출된 변수를 결과로 제시했다. 그 결과, 5개(55.56%)의 연구에서 뇌졸중 환자의 기능을 예측하기 위해 환자의 임상적 특성이 아닌 modified ranking scale (mRS) 및 functional independence measure (FIM)과 같은 초기 또는 퇴원 평가 점수가 중요하다고 도출되었다. 결론 : 이 연구는 mRS 및 FIM과 같은 뇌졸중 환자의 초기 또는 퇴원 평가 점수가 임상적 특성보다 기능적 결과에 더 많은 영향을 미칠 수 있음을 나타냈다. 따라서, 뇌졸중 환자의 기능적 결과를 향상시키기 위한 최적의 중재를 개발하고 적용하기 위해서는 뇌졸중 환자의 초기 및 퇴원 시 기능적 결과를 평가하고 검토하는 것이 필요하다.

종분포모형을 이용한 참매의 서식지 예측 -충청북도를 대상으로- (Predicting the Goshawk's habitat area using Species Distribution Modeling: Case Study area Chungcheongbuk-do, South Korea)

  • 조해진;김달호;신만석;강태한;이명우
    • 한국환경생태학회지
    • /
    • 제29권3호
    • /
    • pp.333-343
    • /
    • 2015
  • 본 연구는 국내에서 아직 미흡한 조류 번식지 예측 모형을 이용해 참매의 서식지 예측 및 대체번식지로서 이용 가능한 지역을 선정하고, 향후 참매 번식 가능지역을 대상으로 보호관리 지역을 확대할 수 있는 근거를 제시하기 위한 방안이다. 참매의 번식지는 현장조사에서 확인된 둥지(N=10)를 이용하였으며, 출현지점은 제3차자연환경조사를 통해 확인된 참매출현지점(N=23)을 활용해 분석하였다. 모형변수로는 지형인자 4가지, 자연환경인자(식생) 3가지, 거리인자 7가지, 기후변수 9가지를 활용하였다. 활용변수 중 Random sampling을 통해 확보된 비출현 좌표와 출현좌표간 비모수 검증을 통해 최종 환경변수를 선정하였다. 유의성 검증을 통해 선택된 변수는 번식지 대상 10가지, 출현지점 대상 7가지였으며, 이 변수를 활용해 최종 서식지 예측 모형(MaxEnt)을 구축하였다. 모델 구축결과 번식에 활용된 각 변수별 모형 기여도는 온도의 계절적 변동, 혼효림 과의 거리, 입목밀도, 경급의 순이었으며, 출현지점에 활용된 각 변수별 모형 기여도는 온도의 계절적 변동, 수계와의 거리, 경작지와의 거리, 경사도의 순이었다. 번식지점을 대상으로 한 모델링은 기후환경과 숲 내부에서 번식하는 참매의 특성이 반영된 것으로 판단된다. 예상서식지는 충청북도 중부 이북지역으로 예상되었으며, 그 면적은 $189.5km^2$(2.55%)였다. 충북 이남지역은 청주와 충주 등의 비교적 큰 도시가 발달되어 있는 반면 충청북도 북부지역의 경우 산림과 경작지가 고루 발달되어 있어 번식에 있어 일정한 세력권과 먹이원이 필요한 참매로서는 번식에 유리한 지역일 것으로 판단된다. 출현지점 대상으로 한 모델링은 면적이 $3,071km^2$(41.38%)으로 확인되었으며, 이는 출현지점을 대상으로 하여 단순이동 관찰 및 계절적인 변동 미고려 등의 한계가 있기 때문에 번식지점을 대상으로 한 모델링보다 광범위한 서식예상지역을 예측하였다. 결과에서 확인된 예측지점은 번식지를 대상으로 하였을 경우 정밀한 서식예측이 가능하나, 둥지의 특성상 확인되는 지점이 적고, 참매의 행동영역을 반영하지 못하는 단점이 있다. 반면 출현지점을 대상으로 하였을 경우 더 광범위한 지점에 대한 결과 도출이 가능하였으나, 단순 이동이나 지속적인 이용실태를 반영하지 못하기 때문에 정밀도에서는 다소 떨어진다고 할 수 있다. 다만 이러한 결과들을 통해 참매의 서식지를 예측할 수 있으며, 특히 정밀한 번식지역의 예측자료는 환경영향평가나 개발계획 수립시 서식지 모형 결과를 도입하여 반영할 필요성이 있다.

항공 LiDAR 자료를 이용한 산림재적추정 모델 개발 - 봉화군 춘양면 애당리 혼효림을 대상으로 - (Development of Forest Volume Estimation Model Using Airborne LiDAR Data - A Case Study of Mixed Forest in Aedang-ri, Chunyang-myeon, Bonghwa-gun -)

  • 조승완;김용구;박주원
    • 한국지리정보학회지
    • /
    • 제20권3호
    • /
    • pp.181-194
    • /
    • 2017
  • 본 연구의 목적은 산림재적 현장자료와 항공 LiDAR 자료 기반의 산림재적 추정을 위한 회귀모델의 개발이다. 추정 모델은 경상북도 봉화군 지역에서 임의추출법에 의해 선정된 30개의 원형 표본지로부터 산출한 표본지별 산림재적을 반응변수로 하고, 항공 LiDAR 원자료로부터 개별 표본지의 고도분포 백분위수(Height Percentiles, HP) 및 층위 단위 점 개체수 백분율(Height Bin, HB)을 추출하여 예측변수로 사용하여 구성하였다. 단순선형회귀분석, 이차 다항회귀분석 및 단계적 회귀분석 방법을 이용한 다중회귀분석을 실시하여 적합모델들의 후보들을 도출하였으며, 검증을 위하여 각 모델별로 교차 타당성 검증을 실시하여 PRESS 통계치를 구하였다. 모델의 $R^2$ 및 PRESS을 비교하여 적합성을 검토한 결과, $HB_{5-10}$, $HB_{15-20}$, $HB_{20-25}$, $HBgt_{25}$의 다중회귀모델의 $R^2$이 0.509로 가장 높고, $HP_{25}$ 단순회귀모델의 PRESS 값이 122.352으로 가장 낮은 것으로 나타났다. 수직구조가 복잡한 우리나라 산림재적을 추정하는 모델로는 다양한 수직적 정보를 포함하고 있는 $HB_{5-10}$, $HB_{15-20}$, $HB_{20-25}$, $HBgt_{25}$이 상대적으로 보다 적합하다고 사료된다.

Creation of an Environmental Forest as an Ecological Restoration

  • Lee, Chang-Seok;You, Young-Han
    • The Korean Journal of Ecology
    • /
    • 제24권2호
    • /
    • pp.101-109
    • /
    • 2001
  • We created an environmental forest on the basis of ecological design around the incineration plant of Jindo Engineering and Construction Co., Ltd., which is located in Jeongwang-dong, Siheung-si, Kyunggi-do. To get ecological information of this site, physico-chemical properties of soil on salt marsh, which is located close to the syudy site and of forest soil transported from other sites for ecological restoration were analyzed. Texture of salt marsh and transported soils were loam and sandy loam, respectively. pH, organic matter, T-N, available P, and exchangeable K and Na contents of salt marsh and transported forest soils were 6.7 and 5.4, 4.1 and 0.4%, 1.0 and 0.3mg/g, 46.7 and 6.8ppm, 521 and 207ppm, and 3.8 and 0.5mg/g, respectively. Introduced plants were selected among the dominant species of forests and the species composing the potential natural vegetation around the present study site. Those plants were selected again by considering the tolerances to air pollution and to salt, and their availability. Selected trees were Pinus thunbergii, Sophora japonica, Celtis sinensis, Quercus aliena, Q. serrata, Q. dentata, and Q. acutissima. Selected sub-trees were Albizzia julibrissin, Koelreuteria poniculata, and Styrax japonica and shrubs were Rhododendron yedoense var. poukhanense, R. mucronulatum, Callicarpa japonica, Euonymus alatus, E. japonica, and R. schlippenbachii. On the other hand, introduction of herbs was not considered except for Liriope platyphylla, which was ornamentally planted in one site. Planting bed of mound type was adopted to provide the fine drainage system. Mound was designed to furnish litter, A, B, and C layers simuating the profile of forest soil. Slope of mound was mulched by rice straw of 2cm in thickness to prevent for sliding of litter and soil in cases of strong wind or heavy rain. Height of mound was designed to secure more than 1 m by combining A and B layers. Narrow zones, in which mound with stable slope degree cannot be prepared, was designed to equip the standard soil depth with the introduction of stone for supporting. On the other hand, plants with shallow root system were arranged in some zones, in which satisfactory soil depth cannot be ensured. Plants were arranged in the order of tree, sub-tree, and shrub from center to edge on the mound to make a mature forest of a dome shape in the future. Dispersion of plants was designed to be random pattern rather than clumped one. Problems on creation of the environmental forest by such ecological design were found to be management or inspection by non-specialized project operators and inspecting officers, and regulations for construction without ecological background. Alternative plans to solve such problems were suggested.

  • PDF