• 제목/요약/키워드: Stepwise variable selection

검색결과 53건 처리시간 0.026초

코호트 기반 조사 공변수 자료의 신뢰도 평가 연구: 원전주변지역주민 역학조사연구 (Reliability of Covariates in Baseline Survey of a Cohort Study: Epidemiological Investigation on Cancer Risk Among Residents Who Reside Near the Nuclear Power Plants in Korea)

  • 배상혁;박보영;이충민;안윤옥
    • Journal of Preventive Medicine and Public Health
    • /
    • 제43권2호
    • /
    • pp.159-165
    • /
    • 2010
  • Objectives: We evaluated the reliability of the possible covariates of the baseline survey data collected for the Epidemiological Investigation on Cancer Risk Among Residents Who Reside Near the Nuclear Power Plants in Korea. Methods: Follow-up surveys were conducted for 477 participants of the cohort at less than 1 year after the initial survey. The mean interval between the initial and follow-up surveys was 282.5 days. Possible covariates were identified by analyzing the correlations with the exposure variable and associations with the outcome variables for all the variables. Logistic regression analysis with stepwise selection was further conducted among the possible covariates to select variables that have covariance with other variables. We considered that these variables can be representing other variables. Seven variables for the males and 3 variables for the females, which had covariance with other possible covariates, were selected as representative variables. The Kappa index of each variable was calculated. Results: For the males, the Kappa indexes were as follow; family history of cancer was 0.64, family history of liver diseases in parents and siblings was 0.56, family history of hypertension in parents and siblings was 0.51, family history of liver diseases was 0.50, family history of hypertension was 0.44, a history of chronic liver diseases was 0.53 and history of pulmonary tuberculosis was 0.36. For females, the Kappa indexes were as follow; family history of cancer was 0.58, family history of hypertension in parents and siblings was 0.56 and family history of hypertension was 0.47. Conclusions: Most of the possible covariates showed good to moderate agreement.

한우 수소 고기 관능평가 데이터에 대한 범주형 자료 분석 (Categorical data analysis of sensory evaluation data with Hanwoo bull beef)

  • 이혜정;조수현;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권5호
    • /
    • pp.819-827
    • /
    • 2009
  • 국립축산과학원에서 수집한 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 연구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시하였다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 관련성을 파악한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었다. 영남에서 맛을 비교적 높게 평가하는 경향이 있으며 수입이 많고 연령이 높을수록 맛을 까다롭게 평가하는 경향을 보인다. 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 중 맛에 대한 차이가 크다고 볼 수 있다.

  • PDF

소비자 사이의 중고 태블릿PC 거래 가격의 통계적 예측 (Statistical Prediction of Used Tablet PC Transaction Price among Consumers)

  • 고영희;김소형;정유진
    • 산업융합연구
    • /
    • 제20권12호
    • /
    • pp.179-186
    • /
    • 2022
  • 본 연구에서는 태블릿PC 중고제품의 거래 시, 판매자와 구매자 모두에게 판매가격을 제시할 수 있는 예측모형을 개발하는 것을 목표로 한다. 모형 개발을 위하여 실제 태블릿PC 중고거래 데이터와 제품에 대한 상세 정보를 추가 수집한 데이터를 사용하였다. 데이터 분석을 통하여 여러 가지 예측모형을 개발하였으며, 이 중 태블릿PC 중고가격 예측 성능이 가장 뛰어난 모형을 최종 예측모형으로 선택하였다. 구체적으로 중고 태블릿의 판매가격을 종속변수로 하고, 통합된 데이터에서 판매가격과 연관성이 있는 변수들을 독립변수로 한 다중선형회귀모형, 교호작용을 포함한 다중선형회귀모형, 그리고 각 모형에서 단계적 변수 선택법을 통해 얻은 모형들을 고려하였다. 이들 모형 중 교차타당성을 통해 최종적으로 예측 성능이 가장 뛰어난 모형을 태블릿PC 중고가격을 예측하는 모형으로 선택하였다. 본 연구를 통하여 중고제품 판매가격을 예측하고 판매자와 구매자에게 적절한 중고 거래 가격을 제시해 볼 수 있을 것이다.

임목(林木)((해송(海松)) 적지선정(適地選定)에 관한 연구(硏究) (The Selection of the Suitable Site for Forest Tree(Pinus thunbergii))

  • 정영관;박남창;손영모
    • 한국산림과학회지
    • /
    • 제82권4호
    • /
    • pp.420-430
    • /
    • 1993
  • 우리나라 남부지방의 주요 수종(樹種)인 해송임분(海松林分)의 지위지수(地位指數)에 영향하리라 예상되는 토양(土壤)의 이화학적(理化學的) 성질(性質)과 환경인자(環境因子)중 18개 인자(因子)를 218개 표준지(標準地)에서 측정(測定)하여 설명변수로 하고, 해송(海松)의 수고생장량(樹高生長量), 즉 임분(林分)의 지위지수(地位指數)를 반응변수로 하여 상관분석, 편상관분석, 회귀분석 및 요인분석을 실시하여 해송(海松)의 적지선정(適地選定), 생장량(生長量) 추정 및 비배관리 등에 대한 기초적 지침을 제시하고자 이 연구(硏究)를 실시하였으며, 그 결과를 요약하면 다음과 같다. 1. 해송임분(海松林分)의 지위지수(地位指數)와 토양(土壤) 및 환경인자(環境因子)간의 상관에 있어서, 지위지수(地位指數)와 유효토심간의 상관계수 r=0.6498로 약간 높게 나타났고(p<0.01), 다음으로 경사도, 유기물함량, 전질소함량 순으로 상관이 나타났다. 2. 각종 인자간의 내부상관을 배제한 해송임분(海松林分)의 지위지수(地位指數)와 영향인자간의 편상관에 있어서는 유효토심(r=0.6270), 경사도(r=-0.5423), 염기포화도(r=0.3278) 순으로 해송임분(海松林分)의 지위지수(地位指數)에 영향을 미치고 있었다. 3. 단계적회귀분석 결과, 해송임분(海松林分)의 지위지수(地位指數)에 영향을 미치는 인자군(因子群)은 유효토심, 경사도, 유기물함량, 염기포화도, 토양산도, 미사함량 및 치환성 $Ca^{{+}{+}}$ 군(群)으로 나타났다. 4. 토양(土壤) 및 환경인자(環境因子)에 의한 해송임분(海松林分)의 지위지수(地位指數) 추정식은 $Y=13.2691+0.0242\;X_2-1.2244\;X_4+0.6142\;X_5-0.3472\;X_{11}+0.0355\;X_{13}+0.1552\;X_{15}-0.1002\;X_{17}$으로 도출되었고, 추정식에 대한 적합도는 77%로 나타났다. 5. 해송임분(海松林分)의 지위지수(地位指數)에 영향하는 인자들을 요인분석한 결과, eigenvalue 1.0 이상의 주성분은 6개였으며, 이들의 누적기여율(累積奇與率)은 71.1%였다. 6. 요인분석(要因分析)에 의하여 산출된 6개의 요인점수(要因點數)와 해송임분(海松林分)의 지위지수(地位指數)와의 관계를 단계적회귀분석한 결과, 5개의 요인점수(要因點數)를 갖는 추정모델이 도출되었다. 이 해송임분(海松林分)의 지위지수(地位指數) 추정모델에 대한 $R^2=0.8481$로 높은 설명력을 가지며, 회귀계수에 대한 유의성을 검정한 결과 1% 수준에서 유의성이 인정되었다. 따라서 해송(海松)의 수고생장(樹高生長)에 관여하는 인자(因子)를 선정하는 방법은 요인분석(要因分析)에 의한 회귀분석(回歸分析)이 가장 유리한 것으로 나타났다. 그리고 해송임분(海松林分)의 경영은 이상과 같은 방법에 의하여 선정된 임목생장(林木生長)에 관여하는 인자(因子)를 고려하여 실행되어야 할 것으로 사료된다.

  • PDF

한국에서 동아시아 난대 목본식물의 잠재분포 가능성 평가 (Assessment of Potential Distribution Possibility of the Warm-Temperate Woody Plants of East Asia in Korea)

  • 이철호;김휘래;조강현;최병기;이보라
    • Ecology and Resilient Infrastructure
    • /
    • 제9권4호
    • /
    • pp.269-281
    • /
    • 2022
  • 기후변화에 따라서 식생과 식물종의 분포 변화를 예측하는 것이 생태계 관리에서 중요하다. 본 연구에서는 동아시아의 난대 목본식물종의 한반도 분포 가능성을 체계적으로 평가할 수 있는 방안을 개발하고자 하였다. 먼저 중국과 일본에서는 분포하지만 한국에는 분포하지 않은 난대 목본식물종의 목록을 수집하고 그들의 전지구적 분포와 생물기후 자료를 수집하였다. 또한 한국의 난대식생대를 한랭지수를 이용하여 구분하고 이 지역의 기후 정보를 수집하였다. 기후 변수들 사이의 상관분석으로 다중공선성을 배제하고 분포에 영향을 미치는 기후변수로서 최한사분기 평균기온, 평균온도일교차 및 연강수량이 선택되었다. 동아시아 난대 목본식물종의 분포지와 한국 난대식생대의 3가지 기후 변수 사이의 유사도를 산출하기 위하여 다변량 환경 유사도 표면 (MESS) 분석을 실시하였다. 최종적으로 단계적 변수선택 회귀로 MESS 유사도 지수에 영향을 미치는 주요 기후변수로서 최한사분기 평균기온과 연강수량을 선별하였다. 선택된 2 변수로 구성된 다변량 일차회귀에서 최한사분기 평균기온이 전체 변이의 88%를 차지하였다. 총 319 동아시아 난대 목본식물종에 대하여 MESS 유사도 지수를 산출하는 구축된 다변량 회귀식을 적용하여 이들이 한국에 잠재분포 할 가능성을 평가할 수 있었다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

산모의 분만기관 선택관련 요인 (Factors Affecting Selection of Delivery Facilities Pregnant Women)

  • 이충완;유승흠;오희철
    • Journal of Preventive Medicine and Public Health
    • /
    • 제23권4호
    • /
    • pp.436-450
    • /
    • 1990
  • This study was designed to investigate the mar factors affecting selection of delivery facilities by pregnant women. Five hundred women hospitalized at 23 Seoul-area delivery facilities, such as university hospitals, general hospitals, hospitals, and clinics were selected and given questionnaires from April 24 to May 7, 1990. A total of 350 questionnaires were collected and analysed for the study. The results are as follows ; 1. In general, variables which significantly affected the choice of delivery facilities included the age of women, their educational level, the educational level of their husbands, monthly average incomes and residential areas. 2. In analyzing the obstetrical characteristics of the women, those variables significantly affecting the choice of delivery facilities were the gestational period, the facilities for prenatal care, the frequency of prenatal care, the type of delivery, the frequency of miscarriage, previous delivery experiences and the awareness on prenatal care. 3. In comparing the motivation factors for selecting the delivery facilities, all the factors except convenience and need for hospitalization differed significantly among delivery facilities. 4. The factor analysis was assessed for twenty possible factors motivating the choice of delivery facilities. Six factors including personal service, scale of the facility, reputation, urgency, convenience, and experience were noted explaining by 57.7%. 5. In the discriminant analysis used to clarify the major factors affecting the selection of delivery facilities, the 16 significant variables were regarded as independent variables, and the type of delivery facilities was considered a dependent variable. The stepwise method was applied to the analysis. Detected discriminant variables were the facilities for prenatal care, scale factor, personal service factor, urgency factor, convenience factor, reputation factor, experience factor, gestational period, types of delivery, frequency of miscarriage, age and income. These 12 discriminant variables were tested, with reference to discriminant prediction, on their importance in the choice of the delivery facility, by the discriminant functional formula. The test showed a hit-rate of 67.7%. The results suggest that general characteristics, obstetrical characteristics, and motivations for selecting the delivery facilities differ significantly according to the types of the delivery facilities. This study implies that all types of delivery facilities should attempt to acommodate characteristics and motivations of pregnant women. The facilities should be prepared to increase their patients satisfaction with required medical conditions by improving service and responding to the pregnant women's preferences.

  • PDF

데이터마이닝 기법을 이용한 PCB 제조라인의 불량 혐의 공정 및 설비 분석 (Fault-Causing Process and Equipment Analysis of PCB Manufacturing Lines Using Data Mining Techniques)

  • 심현식;김창욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권2호
    • /
    • pp.65-70
    • /
    • 2015
  • PCB(Printed Circuit Board) 제조공정에서의 수율은 제품의 원가와 품질을 결정하는 중요한 관리 요인이다. PCB 제조공정은 일반적으로 많은 단계의 미세공정을 거쳐서 제품인 칩(Chip)이 생산되기 때문에 높은 수율을 보장하기가 현실적으로 어렵다. 제품의 수율을 향상시키기 위해서는 저수율의 원인이 되는 불량요인을 분석하고, 불량요인에 영향을 미치는 중요공정 및 설비를 찾아서 관리해야 한다. 본 연구는 로지스틱 회귀분석 및 변수선택법을 이용하여 혐의공정 및 설비를 찾는 방법을 제안하였다. 데이터는 실제 현장의 로트 데이터를 사용하였고, 각 로트는 진행한 설비 및 불량유형별 불량수를 갖고 있다. 또한 분석 결과는 실제 현장 확인을 통하여 수율에 미치는 영향을 확인하였다.

고등학교 수리영역 시험의 난이도 예측 요인 분석 (Factors of Predicting Difficulty of Mathematics Test Items in College Scholastic Ability Test)

  • 고호경;이현숙
    • 한국학교수학회논문집
    • /
    • 제10권1호
    • /
    • pp.113-127
    • /
    • 2007
  • 본 고는 5년 간의 고등학교 연합학력평가자료 분석을 통하여 수리영역의 난이도 예측요인을 분석하였다. 난이도 예측을 위한 통계적 모형을 산출하기 위하여 먼저 문항분석을 통해 수리영역의 난이도 예측에 영향을 미칠 것으로 판단되는 주요 변인들을 '내용영역', '행동영역', '문항의 형식' 등의 범주에 따라 추출하였다. 추출된 독립 변인들에 대하여 단계선택방법을 사용한 다중회귀분석을 실시함으로써 정답률 예측에 유의미한 변수들을 선택하였으며, 교차 타당도를 통하여 최종적으로 선택된 예측 모형이 독립적으로 수집된 자료에 대하여 어느 정도의 설명력을 보이는지 검증하였다. 본 연구는 대학수능시험 출제나 현장에서 수리영역의 평가문항을 개발하는데 있어서 사전 정답률을 예측하는데 있어 고려해야 할 요인을 제시함으로써 보다 정확한 정답률 예측에 필요한 기초정보를 제공하는데 그 의의를 두고 있다.

  • PDF

방화 발생에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Affecting the Arson)

  • 김영철;박우성;이수경
    • 한국화재소방학회논문지
    • /
    • 제28권2호
    • /
    • pp.69-75
    • /
    • 2014
  • 본 연구에서는 방화발생에 영향을 미치는 요인을 도출하기 위하여 발생건수를 종속변수로 하고 경제 인구 사회적 요인을 독립변수로 하는 다중회귀분석을 실시하였다. 다중회귀분석은 선형함수, 준로그함수, 역준로그함수, 이중로그함수 4가지 함수형태에 대해 적용하였으며, 각 단계별로 변수의 선택과 제외를 고려하는 단계적선택 방식을 적용하였다. 다중공선성 문제와 자기상관 문제를 해결하기 위하여 분산확대지수(VIF)와 Durbin-Watson 계수 이용하였으며, 4가지 함수모형에 대하여 수정된 R 제곱(설명력) 값이 0.935 (93.5%)로 가장 값이 높고 통계적으로 유의한 선형함수모형을 최적의 모형으로 결정하고 모형에 대한 해석을 진행하였다. 선형함수모형 결과 방화발생에 영향을 미치는 요인은 범죄발생건수(0.829), 일반이혼율(0.151), 재정자주도(0.149), 소비자물가상승률(0.099) 순으로 도출되었다.