• Title/Summary/Keyword: 로지스틱 회귀모형

Search Result 432, Processing Time 0.035 seconds

Estimation of Occurrence Probability of Socioeconomic Damage Caused by Meteorological Drought Using Categorical Data Analysis (범주형 자료 분석을 활용한 사회경제적 가뭄 피해 발생확률 산정 : 충청북도의 적용사례를 중심으로)

  • Yu, Ji Soo;Yoo, Jiyoung;Kim, Min-ji;Kim, Tae-Woong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.348-348
    • /
    • 2021
  • 가뭄 연구의 궁극적 목표는 가뭄 발생의 메커니즘에 대한 이해를 높이고, 예측기술을 향상시켜 선제적 대응이 가능하도록 하는 것이다. 일반적으로 가뭄분석에 활용되는 가뭄지표는 연속형 변수로 간주하여 확률모형을 구축하지만, 가뭄상태와 가뭄피해 자료는 순서형 및 이산형 변수이므로 범주형 자료 분석 기법을 적용하는 것이 더 적절하다. 따라서 본 연구에서는 기상학적 가뭄과 피해발생 사이의 관계를 규명하기 위해 범주형 자료 분석 방법 중 로그선형(log-linear) 모형과 로지스틱(logistic) 회귀모형을 활용하였다. 가뭄피해 예측을 위한 가뭄 피해 정보를 수집하는 것은 매우 어려운 일이다. 가뭄의 영향으로 인해 발생할 수 있는 피해의 종류가 다양하며, 여러 분야의 이해관계자가 받아들이는 가뭄의 피해 양상이 다르기 때문이다. 본 연구에서는 국가가뭄정보포털(drought.go.kr)에서 충청북도의 가뭄피해현황 자료를 수집하였다. 30년(1991~2020년)동안 238개 읍면동 중 34개 행정구역에서 총 272건의 가뭄피해가 발생한 것으로 확인되었다. 표준강수지수(SPI)를 이용하여 분석된 지역별 연평균 가뭄발생횟수는 약 8.44회이며, 가뭄이 가장 많이 발생한 해는 2001년(평균 가뭄발생 18.7회)이었다. 강수의 부족으로 인해 발생하는 기상학적 가뭄이 사회경제적 피해를 야기하는 수문학적 가뭄으로 전이되기까지 몇 주에서 몇 달까지 시간이 소요된다. 이러한 관계를 파악하기 위해 가뭄피해 발생 여부를 예측변수, 가뭄피해 발생 이전의 가뭄상태를 설명변수로 설정하여 기상학적 가뭄 발생에 따른 가뭄피해 발생 확률을 산정하였다. 그 결과 가뭄피해 발생 당시의 가뭄상태보다 그 이전에 연속된 가뭄상태가 있을 경우 가뭄피해 발생 확률이 약 2.5배 상승하는 것으로 나타났다.

  • PDF

Predicting Forest Fires Using Machine Learning Considering Human Factors (인적요인을 고려한 머신러닝 활용 산림화재 예측)

  • Jin-Myeong Jang;Joo-Chan Kim;Hwa-Joong Kim;Kwang-Tae Kim
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.5
    • /
    • pp.109-126
    • /
    • 2023
  • Early detection of forest fires is essential in preventing large-scale forest fires. Predicting forest fires serves as a vital early detection method, leading to various related studies. However, many previous studies focused solely on climate and geographic factors, overlooking human factors, which significantly contribute to forest fires. This study aims to develop forest fire prediction models that take into account human, weather and geographical factors. This study conducted a comparative analysis of four machine learning models alongside the logistic regression model, using forest fire data from Gangwon-do spanning 2003 to 2020. The results indicate that XG Boost models performed the best (AUC=0.925), closely followed by Random Forest (AUC=0.920), both of which are machine learning techniques. Lastly, the study analyzed the relative importance of various factors through permutation feature importance analysis to derive operational insights. While meteorological factors showed a greater impact compared to human factors, various human factors were also found to be significant.

유전자 알고리즘을 활용한 인공지능 예측모형간 결합 기법: 주식시장에의 응용

  • Ahn, Hyeon-Cheol;Lee, Hyeong-Yong
    • 한국경영정보학회:학술대회논문집
    • /
    • 2008.06a
    • /
    • pp.141-148
    • /
    • 2008
  • 각종 인공지능 기법들을 활용하여, 주식시장의 흐름을 예측하려는 연구가 지금까지 많은 인공지능 및 금융공학의 연구자들에 의해 시도되어 왔으며, 그 결과 다양한 인공지능 기법들이 예측 방법론으로 제시되어 왔다. 이런 가운데 서로 다른 예측모형들이 산출하는 예측결과를 종합 - 보완하는 결합기법에 관련된 연구가 90년대 후반부터 오늘날까지 꾸준하게 발표되고 있다. 본 연구 역시 유전자 알고리즘 기반의 새로 인공지능 예측모형간 결합기법을 제시하고 있다. 다만, 기존의 연구모형들이 각 개별모형 결과의 상대적 가중치에 초점을 맞추고 있었다면, 본 연구의 제안모형은 등락을 판단하는데 활용되는 임계치까지 유전자 알고리즘을 이용해 동시에 최적화하도록 설계되어 있다는 점에서 차별화된다. 제안모형의 유용성을 검증하기 위해, 본 연구에서는 지난 1998년부터 2007년까지의 KOSPI 지수 등락 예측을 위해 구축된 로지스틱 회귀모형, 인공신경망, SVM모형의 결과들을 제안모형을 이용해 결합하였다. 그 결과, 예측력 향상에 본 연구의 제안모형이 기여 할 수 있음을 확인 할 수 있었다.

  • PDF

Various Graphical Methods for Assessing a Logistic Regression Model (로지스틱회귀모형의 평가를 위한 그래픽적 방법)

  • Kim, Kyung Jin;Kahng, Myung Wook
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.6
    • /
    • pp.1191-1208
    • /
    • 2015
  • Most statistical methods are dependent on the summary statistic. However, with graphical approaches, it is easier to identify the characteristics of the data and detect information that cannot be obtained by the summary statistic. We present various graphical methods to assess the adequacy of models in logistic regression that include checking log-density ratio, structural dimension, marginal model plot, chi-residual plot, and CERES plot. Through simulation data, we investigate and compare the results of graphical approaches under diverse conditions.

Multivariate Analysis for Clinicians (임상의를 위한 다변량 분석의 실제)

  • Oh, Joo Han;Chung, Seok Won
    • Clinics in Shoulder and Elbow
    • /
    • v.16 no.1
    • /
    • pp.63-72
    • /
    • 2013
  • In medical research, multivariate analysis, especially multiple regression analysis, is used to analyze the influence of multiple variables on the result. Multiple regression analysis should include variables in the model and the problem of multi-collinearity as there are many variables as well as the basic assumption of regression analysis. The multiple regression model is expressed as the coefficient of determination, $R^2$ and the influence of independent variables on result as a regression coefficient, ${\beta}$. Multiple regression analysis can be divided into multiple linear regression analysis, multiple logistic regression analysis, and Cox regression analysis according to the type of dependent variables (continuous variable, categorical variable (binary logit), and state variable, respectively), and the influence of variables on the result is evaluated by regression coefficient${\beta}$, odds ratio, and hazard ratio, respectively. The knowledge of multivariate analysis enables clinicians to analyze the result accurately and to design the further research efficiently.

Developing the predictive model for stomach cancer using data mining (데이터마이닝을 이용한 위암 예측모형 개발과 활용)

  • Park, Il-Su;Han, Jun-Tae;Kang, Suk-Bok;Ji, Jae-Hoon
    • Journal of the Korean Data and Information Science Society
    • /
    • v.21 no.6
    • /
    • pp.1253-1261
    • /
    • 2010
  • We develope the predictive model for the incidence of the stomach cancer by utilizing the health screening data of the National Health Insurance in Korea. We also explore the characteristics for the stomach cancer. We perform the logistic regression analysis using the data mining methodology and use SAS Enterprise Miner 4.1. This study shows that there exists a higher rate of the stomach cancer for males than females. Our study confirms that the major influencing factors for the incidence of the stomach cancer are age, drinking and a family history of cancer, lack of exercise. For man, the age is the most important determinant of the stomach cancer incidence, whereas the drinking is the most important determinant of the stomach cancer incidence for women.

Wild Boar (Sus scrofa corranus Heude ) Habitat Modeling Using GIS and Logistic Regression (GIS와 로지스틱 회귀분석을 이용한 멧돼지 서식지 모형 개발)

  • 서창완;박종화
    • Spatial Information Research
    • /
    • v.8 no.1
    • /
    • pp.85-99
    • /
    • 2000
  • Accurate information on habitat distribution of protected fauna is essential for the habitat management of Korea, a country with very high development pressure. The objectives of this study were to develop a habitat suitability model of wild boar based on GIS and logistic regression, and to create habitat distribution map, and to prepare the basis for habitat management of our country s endangered and protected species. The modeling process of this restudyarch had following three steps. First, GIS database of environmental factors related to use and availability of wild boar habitat were built. Wild boar locations were collected by Radio-Telemetry and GPS. Second, environmental factors affecting the habitat use and availability of wild boars were identified through chi-square test. Third, habitat suitability model based on logistic regression were developed, and the validity of the model was tested. Finally , habitat assessment map was created by utilizing a rule-based approach. The results of the study were as folos. First , distinct difference in wild boar habitat use by season and habitat types were found, however, no difference in wild boar habiat use by season and habitat types were found , however, ho difference by sex and activity types were found. Second, it was found, through habitat availability analysis, that elevation , aspect , forest type, and forest age were significant natural environmental factors affecting wild boar hatibate selection, but the effects of slope, ridge/valley, water, and solar radiation could not be identified, Finally, the habitat at cutoff value of 0.5. The model validation showed that inside validation site had the classification accuracy of 73.07% for total habitat and 80.00% for cover habitat , and outside validation site had the classification accuracy of 75.00% for total habitat.

  • PDF

Development of a Logistic Regression Model for Probabilistic Prediction of Debris Flow (토석류 산사태 예측을 위한 로지스틱 회귀모형 개발)

  • 채병곤;김원영;조용찬;김경수;이춘오;최영섭
    • The Journal of Engineering Geology
    • /
    • v.14 no.2
    • /
    • pp.211-222
    • /
    • 2004
  • In this study, a probabilistic prediction model for debris flow occurrence was developed using a logistic regression analysis. The model can be applicable to metamorphic rocks and granite area. order to develop the prediction model, detailed field survey and laboratory soil tests were conducted both in the northern and the southern Gyeonggi province and in Sangju, Gyeongbuk province, Korea. The seven landslide triggering factors were selected by a logistic regression analysis as well as several basic statistical analyses. The seven factors consist of two topographic factors and five geological and geotechnical factors. The model assigns a weight value to each selected factor. The verification results reveal that the model has 90.74% of prediction accuracy. Therefore, it is possible to predict landslide occurrence in a probabilistic and quantitative manner.

생활시간소비형태에 따른 피로도에 대한 연관성 분석

  • Choe, Jong-Hu;Lee, Dong-Hui;So, Seon-Ha
    • Proceedings of the Korean Association for Survey Research Conference
    • /
    • 2006.12a
    • /
    • pp.41-47
    • /
    • 2006
  • 통계청은 1999과 2004년 두 차례에 걸쳐 '생활시간조사(Time Use Survey)'를 실시한 바 있다. 이 조사는 우리나라 국민이 하루 24시간을 어떠한 이용 행태로 시간 사용을 하고 있는 지를 조사함으로써 오늘의 국민들의 평균적인 생활방식과 삶의 질을 파악하고, 시간자원의 효율적 활용에 필요한 기초자료를 제공하는데 그 의의를 두고 있다. 특히 생활시간조사는 각 개인의 시간별 활동내용 뿐 아니라 개인의 여러 가지 인구통계학적 특성들을 함께 조사함으로써 이와 관련된 실증적 연구를 가능하게 한다. 본 연구에서 관심을 가지고 살펴보고자 하는 것은 개인의 생활시간소비 행태는 성별 및 사회적 역할과 연관되어 있다고 생각되기 때문이다. 특히 개인의 피로도의 정도와 생활시간 소비 형태와의 관련성에 초점을 두고 로지스틱 회귀, 대응분석을 통하여 살펴보고자 한다.

  • PDF

한국 제조기업의 혁신성과에 영향을 미치는 장애요인에 관한 연구

  • Kim, Jae-Yeong;Hwang, Jeong-Jae;Park, Jae-Min
    • Proceedings of the Korea Technology Innovation Society Conference
    • /
    • 2017.11a
    • /
    • pp.483-497
    • /
    • 2017
  • a본 논문에서는 과학기술정책연구원에서 조사한 2016년 한국기술혁신조사(KIS 2016) 데이터를 이용하여 한국 제조기업의 혁신성과에 영향을 미치는 혁신저해요인에 관한 분석을 진행하였다. KIS 2016 데이터의 제조업 기업 수는 4000개였는데 이 중 혁신 설문에서 제시한 혁신 저해요인 중 아무것도 겪지 않았다고 답한 기업과 응답이 누락된 기업을 제외한 3159개 기업의 데이터를 활용하여 분석을 진행하였으며, 분석 방법으로는 로지스틱 회귀모형을 사용하였다. 자료를 바탕으로 요인분석을 실시하였으며, 그에 따라 혁신 저해요인으로 자금 문제, 기업 역량 요인, 필요 요인 총 세 가지 요인이 추출되었다. 이를 바탕으로 로지스틱 회귀분석 결과 자금 문제와 기업 역량 요인의 경우 혁신 제품의 시장 출시에 정(+)의 영향을 미치는 것으로 나타났으며 필요 요인의 경우 음(-)의 영향을 미치는 것으로 나타나 기업의 혁신 성공에 있어서는 기술혁신의 필요성에 대한 인식 제고가 시급한 것으로 분석되었다.

  • PDF