• 제목/요약/키워드: Regression estimator

검색결과 311건 처리시간 0.025초

Machine learning-based prediction of wind forces on CAARC standard tall buildings

  • Yi Li;Jie-Ting Yin;Fu-Bin Chen;Qiu-Sheng Li
    • Wind and Structures
    • /
    • 제36권6호
    • /
    • pp.355-366
    • /
    • 2023
  • Although machine learning (ML) techniques have been widely used in various fields of engineering practice, their applications in the field of wind engineering are still at the initial stage. In order to evaluate the feasibility of machine learning algorithms for prediction of wind loads on high-rise buildings, this study took the exposure category type, wind direction and the height of local wind force as the input features and adopted four different machine learning algorithms including k-nearest neighbor (KNN), support vector machine (SVM), gradient boosting regression tree (GBRT) and extreme gradient (XG) boosting to predict wind force coefficients of CAARC standard tall building model. All the hyper-parameters of four ML algorithms are optimized by tree-structured Parzen estimator (TPE). The result shows that mean drag force coefficients and RMS lift force coefficients can be well predicted by the GBRT algorithm model while the RMS drag force coefficients can be forecasted preferably by the XG boosting algorithm model. The proposed machine learning based algorithms for wind loads prediction can be an alternative of traditional wind tunnel tests and computational fluid dynamic simulations.

A GEE approach for the semiparametric accelerated lifetime model with multivariate interval-censored data

  • Maru Kim;Sangbum Choi
    • Communications for Statistical Applications and Methods
    • /
    • 제30권4호
    • /
    • pp.389-402
    • /
    • 2023
  • Multivariate or clustered failure time data often occur in many medical, epidemiological, and socio-economic studies when survival data are collected from several research centers. If the data are periodically observed as in a longitudinal study, survival times are often subject to various types of interval-censoring, creating multivariate interval-censored data. Then, the event times of interest may be correlated among individuals who come from the same cluster. In this article, we propose a unified linear regression method for analyzing multivariate interval-censored data. We consider a semiparametric multivariate accelerated failure time model as a statistical analysis tool and develop a generalized Buckley-James method to make inferences by imputing interval-censored observations with their conditional mean values. Since the study population consists of several heterogeneous clusters, where the subjects in the same cluster may be related, we propose a generalized estimating equations approach to accommodate potential dependence in clusters. Our simulation results confirm that the proposed estimator is robust to misspecification of working covariance matrix and statistical efficiency can increase when the working covariance structure is close to the truth. The proposed method is applied to the dataset from a diabetic retinopathy study.

사례기반추론을 이용한 초기단계 공사비 예측 방법: 속성 가중치 산정을 중심으로 (Schematic Cost Estimation Method using Case-Based Reasoning: Focusing on Determining Attribute Weight)

  • 박문서;성기훈;이현수;지세현;김수영
    • 한국건설관리학회논문집
    • /
    • 제11권4호
    • /
    • pp.22-31
    • /
    • 2010
  • 프로젝트 초기단계에서 산정된 공사비는 발주자의 중요한 의사결정에 영향을 미치므로 그 중요성이 강조되고 있지만, 정보의 부족으로 인하여 주로 견적전문가의 경험과 지식에 의존하여 진행된다. 이것은 현재 문제와 가장 유사한 과거 사례를 선택하여 사용하는 사례기반추론으로 발전되었다. 사례기반추론 모델의 예측 성능은 속성 가중치의 산정 결과에 많은 영향을 받으므로, 정확한 속성 가중치의 산정이 요구된다. 기존의 연구는 수학적 방법 또는 전문가의 주관적 판단을 이용하는 방법을 사용한다. 본 연구는 기존 연구의 문제점을 보완하기 위해 유전자 알고리즘을 이용한 사례기반추론 공사비 예측 모델을 제안한다. 공사비 예측 모델은 최근이웃 조회 방법의 과정에 의해 추출한 사례의 공사비 정보를 이용하여 예측 대상의 공사비를 산정한다. 검증 결과 AACE에서 정의한 견적시기별 예측 정확도와 표준화 회귀계수 동일가중치를 사용한 방법보다 높은 오차율을 나타내었다. 따라서 본 연구는 유전자 알고리즘을 도입하여 예측 성능을 향상시키고, 사례기반추론 방법을 사용하여 사용자가 이해하기 용이한 해결책 도출과정을 제시하였다는데 그 의미가 있다.

국가산림자원조사 자료와 임상도를 이용한 지상부 바이오매스의 공간규모 확장 (Spatial Upscaling of Aboveground Biomass Estimation using National Forest Inventory Data and Forest Type Map)

  • 김은숙;김경민;이정빈;이승호;김종찬
    • 한국산림과학회지
    • /
    • 제100권3호
    • /
    • pp.455-465
    • /
    • 2011
  • 기후변화에 대응하기 위해 산림의 탄소저장 능력을 정량적으로 이해하기 위한 연구가 국내외적으로 요구되고 있다. 본 연구에서는 지상부바이오매스의 공간적 분포현황을 제공하기 위해 국가산림자원조사 표본점 단위로 계산된 지상부바이오매스를 임상도를 이용하여 공간규모를 확장(upscaling)하는 기법을 개발하고자 한다. 이를 위해 국가산림자원조사 자료를 이용하여 우세/준우세목 수고와 수관 밀도를 설명변수로 하는 지상부바이오매스 회귀모델과 영급을 설명변수로 하는 우세/준우세목 수고 회귀모델을 개발하였다. 그리고 이 회귀모델들과 임상도 속성정보(수종, 수관밀도, 영급)을 결합하여 지상부 바이오매스 공간분포를 추정하였다. 그 결과 단양군 산림의 지상부바이오매스는 6,606,324 ton으로 추정되었고, 표본점 기반 통계에 의한 추정치와 유의적인 차이가 없는 것으로 나타났다. 임상도를 활용하는 본 기법은 손쉽게 대면적에 대한 바이오매스를 추정하는 장점이 있는 반면, 임상도의 주요 속성이 범주형이기 때문에 산림바이오매스 공간 변이의 세밀한 추정에는 한계가 있었다.

이웃정보시스템을 이용한 공간 소지역 추정량 비교 (Comparison of Spatial Small Area Estimators Based on Neighborhood Information Systems)

  • 김정숙;황희진;신기일
    • 응용통계연구
    • /
    • 제21권5호
    • /
    • pp.855-866
    • /
    • 2008
  • 최근 격자자료(lattice data) 분석 방법을 이용한 소지역 추정(small area estimation)이 연구되고 있으며 좋은 결과를 주고 있는 것으로 알려져 있다. 소지역 추정에 주로 사용되는 격자자료(lattice data) 분석의 경우 가장 자료를 잘 설명할 수 있는 이웃정보시스템을 사용하여야 분석의 효율을 향상시킨 수 있다. 최근 이강석과 신기일 (2008)은 지리정보시스템을 이용하여 만들어진 여러 이웃정보시스템을 비교, 분석하였다. 본 논문에서는 이강석과 신기일(2008)이 제안한 여러 이웃정보시스템이 소지역 추정에 얼마나 영향을 미치는지를 MSE, 커버리지, 캘리브레이션 그리고 회귀분석 방법 등을 이용하여 비교하였다. 2001년 경제활동인구조사의 실업자수 자료가 비교에 사용되었다.

Recent Decrease in Colorectal Cancer Mortality Rate is Affected by Birth Cohort in Korea

  • Jee, Yonho;Oh, Chang-Mo;Shin, Aesun
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제16권9호
    • /
    • pp.3951-3955
    • /
    • 2015
  • Background: Colorectal cancer mortality has started to decrease in several developed countries in Asia. The current study aimed to present the long-term trends in colorectal cancer mortality in Korea using joinpoint analysis and age-period-cohort modeling. Materials and Methods: The number of colorectal cancer deaths and the population for each 5-year age group were obtained from Statistics Korea for the period 1984-2013 for adults 30 years and older. Joinpoint regression analysis was conducted to determine changes in trends in age-standardized mortality rates, and age-period-cohort analysis was performed to describe trends in colorectal cancer mortality using the intrinsic estimator method. Results: In men, the age-standardized mortality rate for colorectal cancer increased from 1984 to 2003, and the mortality rates stabilized thereafter, whereas the mortality rate of colorectal cancer in women has decreased since 2004. The age-specific mortality rate of colorectal cancer increased in both men and women over time, whereas decreases in the age-specific mortality rate in younger cohorts were observed. In the age-period-cohort analysis, old age and recent period were associated with higher mortality for both men and women. The birth cohort born after 1919 showed reduced colorectal cancer mortality in both men and women. Conclusions: Our study showed a recent decreasing trend in colorectal cancer mortality in women and a stable trend in men after 2003-2004. These changes in colorectal cancer mortality may be attributed to birth cohort effects.

영화흥행 영향요인 선택에 관한 연구 (A Study for the Drivers of Movie Box-office Performance)

  • 김연형;홍정한
    • 응용통계연구
    • /
    • 제26권3호
    • /
    • pp.441-452
    • /
    • 2013
  • 국내 영화 산업은 투자 배급사 멀티플렉스로 수직 계열화된 대기업 중심으로 온라인 구전 마케팅이 활발히 진행되고 있다, 최근에는 대기업 계열의 멀티플렉스 영화관 중심으로 3D 4D 영화포맷 복합상영을 통해 up-selling을 통한 흥행성과 극대화를 도모하고 있다. 영화산업 기술진보와 흥행여건 변화에 따라, 기존 관객 수 대신 매출액을 흥행성과로 정의하고, 국내 개봉 상업영화를 대상으로 축소추정기법을 포함한 여러 회귀모형을 적용하였다. 특히 LASSO회귀의 경우, 교차타당성 방법을 이용한 예측오차가 가장 적고 흥행성과에 설명력이 높은 변수 순으로 의미 있는 독립변수들을 빠르고 효율적으로 선택할 수 있었다. 2013년도 1분기 개봉 영화를 대상으로 실증분석 결과, 개봉 후 온라인 평점과 빈도 모두 영향력이 높았으나, 개봉 전에는 온라인 평점만 효과적인 것으로 나타났다. 상영포맷 또한 흥행성과에 유의한 영향을 미치는 것으로 나타났다.

국내 지진재해도를 고려한 저층 필로티 건물의 붕괴 확률 (Collapse Probability of a Low-rise Piloti-type Building Considering Domestic Seismic Hazard)

  • 김대환;김태완;추유림
    • 한국지진공학회논문집
    • /
    • 제20권7_spc호
    • /
    • pp.485-494
    • /
    • 2016
  • The risk-based assessment, also called time-based assessment of structure is usually performed to provide seismic risk evaluation of a target structure for its entire life-cycle, e.g. 50 years. The prediction of collapse probability is the estimator in the risk-based assessment. While the risk-based assessment is the key in the performance-based earthquake engineering, its application is very limited because this evaluation method is very expensive in terms of simulation and computational efforts. So the evaluation database for many archetype structures usually serve as representative of the specific system. However, there is no such an assessment performed for building stocks in Korea. Consequently, the performance objective of current building code, KBC is not clear at least in a quantitative way. This shortcoming gives an unresolved issue to insurance industry, socio-economic impact, seismic safety policy in national and local governments. In this study, we evaluate the comprehensive seismic performance of an low-rise residential buildings with discontinuous structural walls, so called piloti-type structure which is commonly found in low-rise domestic building stocks. The collapse probability is obtained using the risk integral of a conditioned collapse capacity function and regression of current hazard curve. Based on this approach it is expected to provide a robust tool to seismic safety policy as well as seismic risk analysis such as Probable Maximum Loss (PML) commonly used in the insurance industry.

단일지표모형에서 계수 추정방법의 비교 (A comparison on coefficient estimation methods in single index models)

  • 최영웅;강기훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1171-1180
    • /
    • 2010
  • 회귀함수의 비모수적 적합에서 공변량의 차원이 증가함에 따라 추정량의 극한성질이 좋지 않음이 잘 알려져 있다. 이러한 문제점을 극복하기 위한 방법중의 하나는 단일지표모형의 추정을 이용하여 공변량의 차원을 1차원으로 줄이는 것이다. 단일지표모형에서 계수 추정 방법으로는 반복적으로 해를 계산하여 근사치를 구하는 방법인 준모수적 최소제곱법과 비반복적으로 계산하여 구하는 도함수 가중평균법이 있다. 두 추정 방법 모두 모수적인 방법과 같은 수렴비율로 정규근사한다고 알려져 있지만 실질적인 성능에 관한 비교는 이루어지지 않았다. 본 논문에서는 모의실험을 통해 두 방법에 의한 추정치의 분산을 비교하여 어떠한 방법이 좋은지를 파악하고자 한다.

주성분분석을 이용한 소프트웨어 개발노력 추정능력 향상 (Improving Estimation Ability of Software Development Effort Using Principle Component Analysis)

  • 이상운
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.75-80
    • /
    • 2002
  • Putnam은 소프트웨어 프로젝트에 참여하는 인력이 Rayleigh 분포를 따르는 SLIM 모델을 제시하였다. 이 모델에서 인력분포를 얻기 위해서는 총 개발노력과 개발 난이도를 추정해야 한다. 프로젝트 개발에 참여할 것인지 여부를 결정하기 위해서는 소프트웨어 생명주기의 초기단계에서 이 모수들을 보다 적확히 추정하는 것이 필요하다. Putnam은 시스템 속성들 중 강한 상관관계가 있는 변량을 제거하고 나머지 변량들만으로 총 개발노력과 개발 난이도를 추정하였다. 그러나 통계적 방법에 따라 변량들이 다르게 선택되며 모델의 성능에 차이가 발생한다. 본 논문은 Putnam 방법 대신 주성분분석을 이용하여 최적의 시스템 속성을 선택하였다. 모델의 성능분석 결과 주성분분석 방법이 Putnam의 방법보다 9.85% 성능향상을 보였다. 또한, 제안된 모델은 단순하고 쉽게 구현할 수 있다.