• 제목/요약/키워드: 로지스틱 회귀 모델

검색결과 187건 처리시간 0.039초

가중치 세분화 기반의 로지스틱 회귀분석 모델 (Fine-Grain Weighted Logistic Regression Model)

  • 이창환
    • 전자공학회논문지
    • /
    • 제53권9호
    • /
    • pp.77-81
    • /
    • 2016
  • 로지스틱 회귀분석은 오랫동안 다양한 분야에서 예측을 위한 기술 혹은 변수 간의 관계를 설명하기 위하여 사용되어 왔다. 로지스틱 회귀분석에서 각 속성은 목적 값에 대한 중요도를 가지는데 본 연구에서는 이를 세분화하여 각 속성의 값에 따라서 중요도를 부여하는 새로운 방법을 제시한다. 점진적 하강법을 이용하여 알고리즘의 성능을 최대화하는 각 속성값 가중치의 값을 계산하였다. 제안된 방법은 다양한 데이터를 이용하여 실험하였고 본 연구의 속성값 기반 로지스틱 회귀분석 방법은 기존의 로지스틱 회귀분석보다 우수한 학습 능력을 보임을 알 수 있었다.

속성값 기반의 정규화된 로지스틱 회귀분석 모델 (Value Weighted Regularized Logistic Regression Model)

  • 이창환;정미나
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1270-1274
    • /
    • 2016
  • 로지스틱 회귀분석은 통계학 등의 분야에서 예측을 위한 기술 혹은 변수 간의 상관관계를 설명하기 위하여 오랫동안 사용되어 왔다. 이러한 로지스틱 회귀분석 방법에서 현재 각 속성들은 목적 값에 대하여 동일한 중요도를 가지고 있다. 본 연구에서는 이러한 가중치 계산을 좀더 세분화하여 각 속성의 값이 서로 다른 중요도를 가지는 새로운 학습 방법을 제시한다. 알고리즘의 성능을 최대화하는 각 속성값 가중치의 값을 계산하기 위하여 점진적 하강법을 이용하여 개발하였다. 본 연구에서 제안된 방법은 다양한 데이터를 이용하여 실험하였고 속성값 기반 로지스틱 회귀분석 방법은 기존의 로지스틱 회귀분석보다 우수한 학습 능력을 보임을 알 수 있었다.

로지스틱 회귀모형을 이용한 유족연금 수급 분석 (Analysis on the Survivor's Pension Payment with Logistic Regression Model)

  • 김미정;김진형
    • 응용통계연구
    • /
    • 제21권2호
    • /
    • pp.183-200
    • /
    • 2008
  • 국민연금의 효율적인 운영을 위하여 고령화, 저출산과 같은 사회현상에 대비한 연금 관리를 위한 연구가 요구되고 있다. 본 연구는 유족연금의 발생을 예측하고 유족연금의 발생가능성 정도에 따라 대상자들을 분류하기 위한 통계적 모델을 제안하기 위하여 두 단계의 로지스틱 분석을 실시하였다. 첫 단계의 분석으로부터, 전체 대상자에 대하여 유족연금의 발생에 영향을 주는 주요인의 특성과 국민연금의 종류를 파악하고 이를 대상으로 유족연금의 발생에 대한 로지스틱 회귀모형을 적용하되 대상자를 합리적으로 등급화하기 위한 모델을 제안하고 이를 일반적인 로지스틱모델과 비교하였다. 정확도, 민감도, 특이도와 사후 확률의 분포를 비교하고 K-S통계량을 통하여 등급의 타당성 평가와 리프트 그래프를 통한 모델의 예측력평가를 함으로써 합리적 등급분류를 통한 대상자관리가 가능한 통계적 모델임을 보였다. 예측된 통계적 모델을 적용하여 유족연금 수급유무와 등급별 분류, 등급에 따른 유족연금액 예측을 통하여 효율적인 연금관리 방안을 제안할 수 있다.

KoBERT, 나이브 베이즈, 로지스틱 회귀의 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Automatic Score Range Prediction of Korean Essays Using KoBERT, Naive Bayes & Logistic Regression)

  • 조희련;임현열;차준우;이유미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.501-504
    • /
    • 2021
  • 한국어 심층학습 언어모델인 KoBERT와, 확률적 기계학습 분류기인 나이브 베이즈와 로지스틱 회귀를 이용하여 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 실험을 진행하였다. 네가지 주제('직업', '행복', '경제', '성공')를 다룬 답안지와 점수 레이블(A, B, C, D)로 쌍을 이룬 학습데이터 총 304건으로 다양한 자동분류 모델을 구축하여 7-겹 교차검증을 시행한 결과 KoBERT가 나이브 베이즈나 로지스틱 회귀보다 약간 우세한 성능을 보였다.

데이터마이닝과 텍스트마이닝을 활용한 영화 흥행 예측 (Box Office Hit Prediction Using Data mining and Text mining)

  • 조효정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.316-318
    • /
    • 2021
  • 영화 수익에 있어 영화의 흥행 여부는 중요한 영향을 끼친다. 영화 흥행 요인은 영화 산업의 규모가 커지면서 많은 제작사들 및 투자자들이 고려해야 하는 사항이 되었다. 따라서 영화의 흥행을 예측하기 위한 많은 모델이 연구되었다. 본 연구의 목적은 선행연구에서 흥행에 유의미한 영향을 끼친다고 밝혀진 스크린 수, 감독명, 제작사명 등의 내재적인 속성과 더불어 온라인 구전 변수를 사용하여 영화 흥행 예측 모델을 만드는 것이다. 이때 기사 수, 블로그 수와 같이 온라인 구전의 크기를 나타내는 변수들을 사용하는 대신 개봉 후 첫 주간의 관람객 리뷰를 텍스트마이닝을 이용하여 전체 리뷰 중 긍정 리뷰의 비율에 따라 점수를 매긴 후 독립변수로 사용한다. 그 후, 데이터 마이닝 기법을 활용하여 만든 모델에 앞서 언급한 독립변수를 입력 값으로 사용하여 영화의 흥행을 예측한다. 최종적으로 의사결정트리와 로지스틱회귀를 수행한 결과 영화 흥행에 영향을 주는 독립변수를 찾고 모델의 성능을 평가하였다. 로지스틱회귀의 결과 관객 수, 평점이 영화의 흥행에 특히 유의한 영향을 끼치는 변수로 선정되었고 리뷰 역시 유의한 변수로 선정되었다. 이때 만들어진 모델은 약 90%의 높은 수준의 정확도를 보여주었다. 의사결정트리의 결과 관객 수가 가장 중요한 변수로 선정되었다.

토석류 산사태 예측을 위한 로지스틱 회귀모형 개발 (Development of a Logistic Regression Model for Probabilistic Prediction of Debris Flow)

  • 채병곤;김원영;조용찬;김경수;이춘오;최영섭
    • 지질공학
    • /
    • 제14권2호
    • /
    • pp.211-222
    • /
    • 2004
  • 이 연구는 자연사면에서 발생하는 토석류(debris flow)산사태의 확률론적 예측을 위해 로지스틱 회귀분석(logistic regression analysis)을 이용하여 변성 암 및 화강암 분포지에 적용할 수 있는 예측모델을 개발한 것이다. 산사태 예측모델을 개발하기 위해 경기 남ㆍ북부지역과 경북 상주지역에서 발생한 산사태 자료를 현장조사와 실내토질시험을 통해 직접 획득ㆍ분석하였다. 산사태 발생에 영향을 미치는 인자는 기초 통계분석은 물론 로지스틱 회귀분석을 실시하여 최종적으로 7개 영향인자를 선정하였다. 이들 7개 인자는 지형요소 2개와 지질 및 토질특성 요소 5개로 구성되어 있고, 각 인자별 가중치를 부여한 점이 큰 특징이다. 개발된 모델은 신뢰성 검증을 수행한 결과 90.74%의 예측율을 확보한 것으로 나타났다. 이 모델을 이용하여 산사태 발생가능성을 확률적ㆍ정량적으로 예측할 수 있게 되었다.

롤 모델의 창업자 특성차이에 대한 영향에 관한 연구 (A Study on the Effects of Role Models on Differences in Entrepreneurs' Characteristics)

  • 이주헌
    • 벤처창업연구
    • /
    • 제18권2호
    • /
    • pp.53-66
    • /
    • 2023
  • 롤 모델은 개인의 직업 혹은 경력선택에 영향을 주기도 한다고 알려져 있다. 창업을 선택함에 있어서 롤 모델의 긍정적 영향은 많은 연구를 통해 이미 밝혀진 바가 있다. 롤 모델로는 혈연으로 연결된 가족 구성원인 부모형제 및 친척뿐만 아니라 사회적 관계로 만난 지인을 롤 모델로 선정한다고 한다. 본 연구에서는 자기이외에 롤 모델이 없는 창업자들과 롤 모델이 있는 창업자들로 구분하였다. 그리고 롤 모델이 있는 창업자들과 롤 모델이 없는 창업자들 간에 개인속성, 기업가정신 요인들, 학습지향성의 차이를 검증하고자 하였다. 또, 부모형제 및 친척 롤 모델을 강한 유대의 롤 모델로 지인 롤 모델을 약한 유대의 롤 모델로 구분하였다. 강한 유대 롤 모델을 가진 창업자들과 약한 유대 롤 모델을 가진 창업자들 간에 개인속성, 혁신성, 진취성, 위험감수성, 학습지향성의 차이를 검증하고자 하였다. 이를 위해 요인분석, t-검증 및 로지스틱 회귀분석을 실시하였다. 본 연구를 통해 밝혀진 실증분석 결과는 다음과 같다. 첫째, 롤 모델이 없는 창업자들 중 여성의 비율이 높은 것으로 나타났다. 둘째, 약한 유대의 롤 모델을 가진 창업자들이 강한 유대의 롤 모델을 가진 창업자들에 비해 큰 규모의 창업기업을 운영한다는 것이 밝혀졌다. 셋째, 약한 유대의 롤 모델을 가진 창업자들이 강한 유대의 롤 모델을 가진 창업자들에 비해 학습지향성이 더 높은 것으로 나타났다. 넷째, 로지스틱 회귀분석을 통해 살펴본 결과 롤 모델의 유무에 대한 영향은 성별, 학습지향성, 위험감수성, 창업규모 순인 것으로 나타났다. 다섯째, 로지스틱 회귀분석 결과에서 롤 모델의 유형에 대한 영향은 학습지향성, 창업규모의 순인 것으로 나타났다.

  • PDF

로지스틱 회귀분석을 활용한 한강권역 홍수위험 예보기법 개발 (Flood Risk Forecasting using Logistic Regression for the Han River Basin)

  • 이선미;최영제;이재응
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.354-354
    • /
    • 2021
  • 2020년은 장마기간이 49일간 지속됨에 따라 침수, 산사태 등 많은 홍수피해가 발생하였다. 특히 서울에서는 한강 본류의 수위가 급격하게 증가함에 따라 둔치 및 도로 침수 피해가 발생하였다. 이처럼 하천의 수위증가로 인한 홍수피해에 대응하기 위해 홍수통제소 및 기초지자체에서는 홍수특보를 발령한다. 이 홍수특보는 수위관측소 지점별 계획홍수량의 50 %, 70 % 이상의 홍수량이 발생할 경우 홍수주의보와 홍수경보가 발령되며, 이 기준은 각 권역별로 동일하다. 하지만 2017년 의정부시에서는 중랑천 수위증가로 인해 주변 지역에 침수피해가 발생하였지만, 이때 홍수량은 계획홍수량 대비 약 30 %에 불과하였다. 이처럼 한강권역 내 하천수위 증가로 인한 홍수피해는 계획홍수량의 50 % 이내에서 발생하기도 한다. 이에 본 연구에서는 한강권역을 대상으로 현재 2단계로 발령되는 홍수특보를 3단계로 세분화하고자 하였다. 단계별 홍수량 위험기준을 산정하기 위해 과거 홍수피해 발생 이력이 있는 한강권역 내 43개의 수위관측소 지점을 선정하였으며, 지점별 홍수기 동안의 홍수량 및 피해액 자료를 수집하였다. 각 단계별 홍수량 기준을 산정하기 위해서는 로지스틱 회귀분석 방법을 활용하여 피해발생 확률을 산정하였다. 1단계 기준은 계획홍수량 대비 홍수량 비율과 홍수피해 발생여부를 고려한 이항 로지스틱 회귀분석 모델을 구축한 후 3계 도함수에 적용하여 홍수피해 발생확률이 급격하게 증가하는 특이점을 산정하였다. 2단계와 3단계 기준은 다항 로지스틱 회귀분석 중 계층형 로지스틱 회귀분석을 활용하여 지점별 피해액 비율이 60 ~ 80 %, 80 ~ 100 % 구간에 속할 확률을 산정하고, 1단계와 동일한 방법으로 특이점을 산정하였다. 그 결과 지점별로 기존 제공되고 있는 홍수특보 기준을 과거 발생한 홍수피해를 고려하여 세분화할 수 있었으며, 이 결과는 지역별 홍수피해 저감대책에 활용될 수 있을 것으로 판단된다.

  • PDF

학생 중도탈락 예측 모델에 관한 연구 (A Study on the Prediction Model for Student Dropout)

  • 이종혁;김대학;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.37-40
    • /
    • 2018
  • 빅데이터 산업 부상과 함께 교육 데이터 분석 분야가 새롭게 주목받고 있다. 교육 현장에서 학습 데이터의 양과 종류는 꾸준히 증가하고 있고 이를 분석하기 위한 정보기술도 계속 발전하고 있다. 한편, 학교 교육은 사회적 성취와 밀접한 관련이 있어 사회이동의 중요한 수단이 되는 만큼 학교 교육으로부터 이탈할 위험이 있는 학생들을 조기에 발견하여 이탈을 방지하는 것은 매우 중요하다. 본 논문은 대학생의 중도탈락을 예방하기 위해 로지스틱 회귀분석과 다층 퍼셉트론 기법을 이용해 학습 데이터를 분석하여 예측 모델을 생성하고 해당 모델을 평가한다. 평가 결과, 다층 퍼셉트론 모델이 로지스틱 회귀분석 모델에 비해 정확도와 재현율은 우수하였지만 정밀도는 약간 저조하였다.

로지스틱 회귀분석 기법을 이용한 강원도 산사태 취약성 평가 및 분석 (Evaluation and Analysis of Gwangwon-do Landslide Susceptibility Using Logistic Regression)

  • 연영광
    • 한국지리정보학회지
    • /
    • 제14권4호
    • /
    • pp.116-127
    • /
    • 2011
  • 본 논문에서는 로지스틱 회귀분석 기법을 이용하여 산사태 취약성 분석을 수행하였다. 예측모델의 성능은 모델의 적합도 검증을 통해 사용된 데이터가 모델에 얼마나 잘 반영되어 구축되었는지에 대한 적합도 평가뿐만 아니라 예측성능에 대한 평가가 필요하다. 따라서 이 논문에서는 모델에 대한 객관적인 결과를 얻기 위해 이와 같은 두 가지 측면에 대하여 예측성능 평가를 적용하였다. 연구지역은 2006년도 집중 호우로 많은 산사태가 발생한 강원도 인제 일대를 대상으로 하였다. 산사태 관련인자들은 지형도, 토양도, 임상도로부터 추출하였다. 예측모델에 대한 평가는 누적이득차트 곡선의 하부영역을 계산하였다. 예측모델의 적합도 평가에서는 87.9% 교차검증을 통한 예측정확도 평가 결과 84.8%로 두 평가 결과간의 큰 차이를 보이지 않으며 좋은 성능의 결과를 산출하였다. 이는 산사태와 관련성이 높은 유발인자와 예측모델 성능에서 기인된 결과로 해석 될 수 있다.