• 제목/요약/키워드: 다중회귀 분석

검색결과 3,805건 처리시간 0.033초

빅데이터 통합모형 비교분석 (Comparison analysis of big data integration models)

  • 정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권4호
    • /
    • pp.755-768
    • /
    • 2017
  • 빅데이터가 4차 산업혁명의 핵심으로 자리하면서 빅데이터 기반 처리 및 분석 능력이 기업의 미래 경쟁력을 좌우할 전망이다. 빅데이터 처리 및 분석을 위한 RHadoop과 RHIPE 모형은 R과 Hadoop의 통합모형으로 지금까지 각각의 모형에 대해서는 연구가 많이 진행되어 왔으나 두 모형간 비교 연구는 거의 이루어 지지 않았다. 본 논문에서는 대용량의 실제 데이터와 모의실험 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀 (logistic regression) 추정을 위한 머신러닝 (machine learning) 알고리즘을 MapReduce 프로그램 구현을 통해 RHadoop과 RHIPE 간의 비교 분석하고자 한다. 구축된 분산 클러스터 (distributed cluster) 하에서 두 모형간 성능 실험 결과, RHIPE은 RHadoop에 비해 대체로 빠른 처리속도를 보인 반면에 설치, 사용면에서 어려움을 보였다.

선형회귀분석과 머신러닝을 이용한 암석의 강도 및 암석학적 특징 기반 세르샤 마모지수 추정 (Estimation of Cerchar abrasivity index based on rock strength and petrological characteristics using linear regression and machine learning)

  • 홍주표;강윤성;고태영
    • 한국터널지하공간학회 논문집
    • /
    • 제26권1호
    • /
    • pp.39-58
    • /
    • 2024
  • TBM (Tunnel boring machine)은 터널 굴착 과정에서 여러 디스크 커터를 이용하여 암석을 절삭한다. 디스크 커터는 암석과의 지속적인 접촉과 마찰로 인해 마모된다. 디스크 커터의 표면이 마모되면 절삭 능력이 감소하고 굴착 효율이 떨어진다. 암석의 마모성은 디스크 커터 마모에 큰 영향을 미친다. 높은 마모도를 가진 암석은 커터에 더 큰 마모를 일으키며, 이는 디스크 커터의 수명을 단축시킨다. 세르샤 마모지수(Cerchar abrasivity index, CAI)는 암석의 마모성을 평가하는데 널리 사용되는 지표로 CAI는 암석의 마모특성을 나타내며, 디스크 커터의 수명과 성능 예측에 필수적인 요소로 인식되고 있다. 본 연구의 목적은 암석의 강도, 암석학적 특성과 선형회귀, 머신러닝 기법을 이용하여 CAI를 효과적으로 추정하는 새로운 방법을 개발하는 것이다. 문헌 조사를 통해 CAI, 일축압축강도, 압열인장강도, 등가석영함량이 포함된 데이터베이스를 구축하고 파생변수를 추가하였다. 통계적 유의성과 다중공선성을 고려하여 다중선형회귀분석을 위한 입력변수를 선정하였고, 머신러닝 모델의 입력변수는 변수중요도 분석을 통해 선정하였다. 머신러닝 예측모델 중 Gradient Boosting 모델의 예측 성능이 가장 높게 나타나 최적의 CAI 예측 모델로 선정되었다. 마지막으로 본 연구에서 도출한 다중선형회귀분석과 Gradient Boosting 모델의 예측 성능을 선행연구들의 CAI 예측모델과 비교하여 연구 결과의 타당성을 확인하였다.

항공 LiDAR 자료를 이용한 산림재적추정 모델 개발 - 봉화군 춘양면 애당리 혼효림을 대상으로 - (Development of Forest Volume Estimation Model Using Airborne LiDAR Data - A Case Study of Mixed Forest in Aedang-ri, Chunyang-myeon, Bonghwa-gun -)

  • 조승완;김용구;박주원
    • 한국지리정보학회지
    • /
    • 제20권3호
    • /
    • pp.181-194
    • /
    • 2017
  • 본 연구의 목적은 산림재적 현장자료와 항공 LiDAR 자료 기반의 산림재적 추정을 위한 회귀모델의 개발이다. 추정 모델은 경상북도 봉화군 지역에서 임의추출법에 의해 선정된 30개의 원형 표본지로부터 산출한 표본지별 산림재적을 반응변수로 하고, 항공 LiDAR 원자료로부터 개별 표본지의 고도분포 백분위수(Height Percentiles, HP) 및 층위 단위 점 개체수 백분율(Height Bin, HB)을 추출하여 예측변수로 사용하여 구성하였다. 단순선형회귀분석, 이차 다항회귀분석 및 단계적 회귀분석 방법을 이용한 다중회귀분석을 실시하여 적합모델들의 후보들을 도출하였으며, 검증을 위하여 각 모델별로 교차 타당성 검증을 실시하여 PRESS 통계치를 구하였다. 모델의 $R^2$ 및 PRESS을 비교하여 적합성을 검토한 결과, $HB_{5-10}$, $HB_{15-20}$, $HB_{20-25}$, $HBgt_{25}$의 다중회귀모델의 $R^2$이 0.509로 가장 높고, $HP_{25}$ 단순회귀모델의 PRESS 값이 122.352으로 가장 낮은 것으로 나타났다. 수직구조가 복잡한 우리나라 산림재적을 추정하는 모델로는 다양한 수직적 정보를 포함하고 있는 $HB_{5-10}$, $HB_{15-20}$, $HB_{20-25}$, $HBgt_{25}$이 상대적으로 보다 적합하다고 사료된다.

분위수 회귀분석을 이용한 ISO26000의 핵심요소가 카지노기업의 조직신뢰에 미치는 영향 (Impacts of Core Elements of ISO26000 using Quantile Regression Analysis on Organizational Trust of Casino Industry)

  • 이화용;김상혁
    • 경영과정보연구
    • /
    • 제32권1호
    • /
    • pp.173-194
    • /
    • 2013
  • 본 연구의 목적은 첫째, ISO26000의 핵심요소를 선행연구를 통하여 카지노 기업에 적합한 ISO26000의 핵심요인을 도출하고, 둘째, ISO26000의 핵심요소별 조직신뢰에 미치는 영향을 최소자승법을 이용한 다중회귀분석을 이용하여 측정하며, 마지막으로, ISO26000의 핵심요소가 조직신뢰의 정도에 따라 어떤 차이가 있는지를 분위수 회귀분석을 이용하여 분석하여, 그 결과를 바탕으로 카지노기업의 CSR 경영 정책 수립과 개발방향을 제시하고자 하는 것이다. 선행연구를 중심으로 ISO26000의 측정항목을 7개(환경, 인권, 지배구조개선, 공정운영관행, 노동관행, 공동체사회경제발전, 소비자이슈)를 도출하였고 설문조사를 통해 실증분석을 위한 자료를 수집하였다. 요인분석결과 ISO26000의 측정항목을 7개 중 지배구조개선과 공정운영관행은 하나의 요인(지배구조 및 공정운영)으로 단순화되어 6개의 요인을 실증분석에 사용하였다. 최소자승법을 이용한 다중회귀분석을 실시한 결과 인권을 제외한 나머지 5개의 변수가 유의한 영향을 미치는 것으로 나타났다. 또한, 분위수 회귀분석의 결과, ISO26000 핵심요소 중 인권과 공동체사회경제발전을 제외한 4가지 핵심요소는 종사원의 조직신뢰 수준에 따라 미치는 영향이 다른 것으로 나타났다. 본 연구의 결과를 바탕으로 향후 카지노기업이 지속경영을 위한 CSR경영활동의 활성화 방안을 수립하여 조직신뢰를 높이기 위해 종사원의 조직신뢰수준에 따라 CSR경영방안을 다르게 모색하고 그에 맞는 정책을 수립해야 할 것이다.

  • PDF

능형회귀분석을 활용한 부동산 헤도닉 가격모형의 정확성 및 해석력 향상에 관한 연구 - 서울시 구로구 아파트를 대상으로 - (Using Ridge Regression to Improve the Accuracy and Interpretation of the Hedonic Pricing Model : Focusing on apartments in Guro-gu, Seoul)

  • 구본상;신병진
    • 한국건설관리학회논문집
    • /
    • 제16권5호
    • /
    • pp.77-85
    • /
    • 2015
  • 헤도닉 가격 모형은 부동산 가격에 영향을 미치는 여러 요소를 모델링하는데 활용되는 대표적 방법이다. 부동산 가격은 전용면적, 방의 개수, 주차공간과 같은 내재적 속성 뿐 아니라 주변 선호/비선호시설의 존재여부에 따라 영향을 받는다. 주변 입지시설의 경우, 그 영향을 파악하기 위해서는 해당 부동산과의 인접거리를 설명변수로 사용하게 된다. 그러나 다수의 입지시설이 인접해 있는 경우에는 설명 변수 간 다중공선성이 발생하는 문제가 존재한다. 본 연구에서는 분산팽창지수 및 능형회귀분석을 이용해 다중공선성을 파악하고 유의한 설명변수를 선별하는데에 활용하였다. 이들 기법을 서울시 구로구 아파트들에 적용한 결과, 전철 차량 기지, 디지털 단지 및 위도에 해당하는 변수간의 다중공선성을 파악하였으며, 능형회귀분석을 통해 적합한 변수들을 체계적으로 선정할 수 있었다. 본 사례를 통해 상기 기법들이 더 정확하고 적정한 헤도닉 가격 모형을 구축하는데 중요한 보완적 기능을 해준다는 것을 알 수 있다.

대중교통 환승통행량 영향요인 분석: 대구시를 대상으로 (Analyzing Factors Affecting Public Transit Transfer Volume: Focused on Daegu City)

  • 황정훈
    • 대한교통학회지
    • /
    • 제32권3호
    • /
    • pp.179-186
    • /
    • 2014
  • 본 연구에서는 대구시의 지하철과 버스간의 환승통행을 대상으로 환승통행특성을 분석하고 또한 다중회귀분석을 통해 버스와 지하철간의 환승통행량에 영향을 미치는 요인을 분석하여 이를 통한 대중교통환승센터에서 보다 많은 환승통행량이 처리될 수 있는 방안에 대해 모색하였다. 그 결과 환승시간은 환승통행량과 반비례하는 반면, 연계버스 노선수, 지하철역의 공간적 위치, 버스노선의 연계지수는 비례관계가 있는 것으로 나타났다. 또한 표준화계수로부터 지하철역과 연계되는 버스노선의 특성을 반영한 버스노선의 연계지수가 가장 많은 영향을 미친다는 것을 알 수 있었다.

알레르기 질환이 있는 청소년의 삶의 만족도 영향요인의 융합연구 (A Convergence Study of Factors Affecting Life Satisfaction for Adolescents with Allergic Disease)

  • 이은지
    • 한국융합학회논문지
    • /
    • 제10권3호
    • /
    • pp.355-362
    • /
    • 2019
  • 본 연구는 천식이나 아토피 피부염이 있는 청소년의 삶의 만족도에 영향을 미치는 요인을 알아보기 위하여 실시하였다. 자료는 2016년 한국아동청소년패널조사(Korean Child and Youth Panel Survey; KCYPS) 자료를 이용하였고, 자료분석은 교차분석, t-test, 일원분산분석, 단계적 다중회귀분석을 실시하였다. 단계적 다중회귀분석결과 덜 우울할수록, 자아존중감과 자아탄력성이 높을수록, 연령이 적을수록, 부모의 양육태도가 애정적일수록 알레르기 질환이 있는 청소년의 삶의 만족도가 높아졌다. 지속적인 증상관리가 필요한 알레르기 질환이 있는 청소년의 삶의 만족도를 높이기 위해서는 부모가 애정적 양육태도를 취하고, 자녀에게 적절한 선택권을 부여하고, 긍정적이고 지지적인 관계를 유지하며, 우울감을 관리하기 위한 적절한 교육 프로그램을 제공하는 것이 필요하다.

교통문화지수 영향요인에 의한 유형화와 영향정도에 관한 연구 (A Study on Patterning and Grading by the Impact of Traffic Culture Index)

  • 정철우;정헌영;고상선
    • 한국항해항만학회지
    • /
    • 제30권1호
    • /
    • pp.35-43
    • /
    • 2006
  • 본 연구는 교통안전공단과 사단법인 녹색교통운동이 공동으로 개발한 교통문화지수와 관련한 2002년과 2003년의 전국 81개 도시 자료를 토대로 통계적 분석을 행하여 이들 대상도시들을 유형화하고, 집단별 영향요인에 근거하여 교통사고 예방대책들을 제시하고자 하였다. 먼저 교통문화지수와 영향요인들에 대한 주성분분석 결과로는 4개의 주성분으로 구분 지울 수 있었으며, 도시 특성별 최적 집단 수는 4개가 적합한 것으로 나타났다. 또한 이들 유형화된 집단별 교통문화지수에의 영향요인을 단계별 다중 회귀분석법을 이용하여 분석한 결과, 4개 집단 모두 높은 설명력을 갖는 회귀모형을 구축할 수 있었다. 이에 따라 각 집단별 교통사고 예방대책들을 구체적으로 제시할 수 있었으며, 아울러 투자된 시설이 얼마나 교통사고 예방에 효과적이었는가를 분석할 필요성이 있음을 향후의 연구 과제로 제시하였다.

글로벌 기후지수와의 원격상관을 이용한 경안천 유역의 월 강수량 예측 (Forecasting monthly precipitation of Gyeongan-cheon watershed using teleconnection with global climate indices)

  • 김철겸;이정우;이정은;김남원;김현준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.314-314
    • /
    • 2019
  • 가뭄대응 및 이수분야 활용을 위한 장기 기상예측정보 확보를 위해, 경안천 유역을 대상으로 전구기후지수의 원격상관 패턴을 이용하여 통계적 기반의 다중회귀모형을 구성하고 월 강수량의 예측가능성을 평가하였다. 예측인자로서 미국 NOAA에서 제공하는 기후지수 중 총 37개의 지수에 대해 1948~2018년의 월 자료를 이용하였으며, 예측대상인 경안천 월 강수량은 1966~2018년의 유역평균 강수량 자료를 활용하였다. 각 기후지수별 1~24개월 선행자료와 예측대상년도 월 강수량과의 상관분석을 통해 상관성이 높은 기후자료를 선별하여 다중회귀모형의 독립변수로 적용하였다. 예측대상년도를 기준으로 과거 40년의 자료(월 강수량 및 월 기후지수)를 보정자료와 검정자료로 구분(20년씩 무작위로 추출)하고, 보정기간에 대해 도출된 회귀모형 중 검정기간을 대상으로 예측성이 좋은 100개의 회귀모형을 선별하여 예측대상기간에 대한 예측모형으로 활용하였다. 2006~2018년에 대해 전망기간별(1개월, 3개월, 6개월, 12개월)로 각 월별 100개 회귀모형으로 부터의 예측값(예측치의 범위)이 실제 관측치를 포함하는 경우를 월별로 분석한 결과 10월이 가장 높고(83%), 11월(81%), 1월(79%), 8월(77%), 6월(75%), 12월(71%)의 순으로 높게 나타났으며, 상대적으로 7월(29%)과 3월(44%)의 예측성이 낮은 것으로 나타났다. 통계적 모형의 특성상 전망기간에 따른 예측의 정확도는 비례하지 않았다. 예측치의 편차는 크지 않지만 예측성이 낮게 나타나는 기간(3월, 2월)과 예측성은 높지만 예측범위가 크게 나타나는 기간(8월, 6월)에 대해서는 예측모형의 재검토 및 다양한 규모의 유역에 대한 적용을 통해 예측인자 추가 및 보완 등을 수행할 예정이다.

  • PDF

다중회귀분석을 이용한 단층물질의 무게비와 전단강도의 상관성 분석 (Correlation Analysis between Weight Ratio and Shear Strength of Fault Materials using Multiple Regression Analysis)

  • 문성우;윤현석;김우석;나종화;김창용;서용석
    • 지질공학
    • /
    • 제24권3호
    • /
    • pp.397-409
    • /
    • 2014
  • 터널 시공 중 나타나는 단층은 방향, 규모 및 강도를 예측하기 어려우면서 지반의 강도를 결정하는 중요한 요소이다. 그러나, 많은 시공 현장에서 단층대의 강도 및 암반분류를 경험적으로 적용하고 있는 실정이다. 본 논문에서는 전국 9개의 지역의 단층에서 총 109개의 시료를 획득하여 직접전단시험과 입도분석을 수행하였다. 또한 6개의 다중회귀모델을 설정하고 97개의 데이터를 이용하여 회귀분석을 실시한 후 전단강도와 단층물질의 무게비의 상관성을 분석하였다. 분석된 6개의 모델을 대상으로 분석에 사용되지 않은 12개의 시험데이터를 이용하여 검증을 실시한 결과 모든 모델에서 결정계수 $R^2{\geq}0.6$을 보이며, Model 5에 비하여 상대적으로 수직응력을 세분화 하여 고려할 수 있는 Model 1과 3이 $R^2{\geq}0.69$으로 높게 나타났다. 향후 단층 물질의 전단강도 산정에 대한 유용한 정보를 제공할 수 있을 것으로 판단된다.