• 제목/요약/키워드: 로지스틱 모델

검색결과 239건 처리시간 0.025초

로지스틱 회귀분석 기법을 이용한 강원도 산사태 취약성 평가 및 분석 (Evaluation and Analysis of Gwangwon-do Landslide Susceptibility Using Logistic Regression)

  • 연영광
    • 한국지리정보학회지
    • /
    • 제14권4호
    • /
    • pp.116-127
    • /
    • 2011
  • 본 논문에서는 로지스틱 회귀분석 기법을 이용하여 산사태 취약성 분석을 수행하였다. 예측모델의 성능은 모델의 적합도 검증을 통해 사용된 데이터가 모델에 얼마나 잘 반영되어 구축되었는지에 대한 적합도 평가뿐만 아니라 예측성능에 대한 평가가 필요하다. 따라서 이 논문에서는 모델에 대한 객관적인 결과를 얻기 위해 이와 같은 두 가지 측면에 대하여 예측성능 평가를 적용하였다. 연구지역은 2006년도 집중 호우로 많은 산사태가 발생한 강원도 인제 일대를 대상으로 하였다. 산사태 관련인자들은 지형도, 토양도, 임상도로부터 추출하였다. 예측모델에 대한 평가는 누적이득차트 곡선의 하부영역을 계산하였다. 예측모델의 적합도 평가에서는 87.9% 교차검증을 통한 예측정확도 평가 결과 84.8%로 두 평가 결과간의 큰 차이를 보이지 않으며 좋은 성능의 결과를 산출하였다. 이는 산사태와 관련성이 높은 유발인자와 예측모델 성능에서 기인된 결과로 해석 될 수 있다.

속성값 기반의 정규화된 로지스틱 회귀분석 모델 (Value Weighted Regularized Logistic Regression Model)

  • 이창환;정미나
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1270-1274
    • /
    • 2016
  • 로지스틱 회귀분석은 통계학 등의 분야에서 예측을 위한 기술 혹은 변수 간의 상관관계를 설명하기 위하여 오랫동안 사용되어 왔다. 이러한 로지스틱 회귀분석 방법에서 현재 각 속성들은 목적 값에 대하여 동일한 중요도를 가지고 있다. 본 연구에서는 이러한 가중치 계산을 좀더 세분화하여 각 속성의 값이 서로 다른 중요도를 가지는 새로운 학습 방법을 제시한다. 알고리즘의 성능을 최대화하는 각 속성값 가중치의 값을 계산하기 위하여 점진적 하강법을 이용하여 개발하였다. 본 연구에서 제안된 방법은 다양한 데이터를 이용하여 실험하였고 속성값 기반 로지스틱 회귀분석 방법은 기존의 로지스틱 회귀분석보다 우수한 학습 능력을 보임을 알 수 있었다.

Gompertz 성장곡선 기반 소프트웨어 신뢰성 성장 모델 (A Software Reliability Growth Model Based on Gompertz Growth Curve)

  • 박석규;이상운
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1451-1458
    • /
    • 2004
  • Gompertz 성장곡선에 기반한 기존의 소프트웨어 신뢰성 성장모델들은 모두 대수형이다. 대수형 Gompertz 성장 곡선에 기반한 소프트웨어 신뢰성 성장 모델들은 모수 추정에 어려움을 갖고 있다. 그러므로 본 논문은 로지스틱형 Gompertz 성장곡선에 기반한 신뢰성 성장 모델을 제안한다. 13개의 다른 소프트웨어 프로젝트로부터 얻은 고장 데이터를 분석하여 그 유용성을 검토하였다. 모델의 모수들은 변수변환을 통한 선형희귀분석과 Virence의 방법으로 추정되었다. 제안된 모델은 평균 상대 예측 오차에 기반하여 성능을 비교하였다. 실험 결과 제안된 모델은 대수형 Gompertz 성장 곡선에 기반한 모델보다 좋은 성능을 보였다.

건강행위정보기반 고혈압 위험인자 및 예측을 위한 통계분석 (Statistical Analysis for Risk Factors and Prediction of Hypertension based on Health Behavior Information)

  • 허병문;김상엽;류근호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2018
  • 본 연구는 통계분석을 이용한 중년 성인의 고혈압 예측모델 개발이 목적이다. 국민건강영양조사자료(2013년-2016년)를 사용하여 통계분석과 예측모델을 개발하였다. 이진 로지스틱 회귀분석으로 통계적 유의한 고혈압 위험인자를 제시하였으며, Wrapper 변수선택기법을 적용한 로지스틱회귀와 나이브베이즈 알고리즘을 이용하여 예측모델을 개발하였다. 통계분석에서 고혈압에 가장 높은 연관성을 갖는 인자는 남성에서 WHtR (p<0.0001, OR = 2.0242), 여성에서 AGE(p<0.0001, OR = 3.9185)로 나타났다. 예측모델의 성능평가에서, 로지스틱 회귀 모델이 남성(AUC = 0.782)과 여성(AUC = 0.858)에서 가장 좋은 예측력을 보였다. 우리의 연구 결과는 고혈압에 대한 대규모 스크리링 도구를 개발하는데 중요한 정보를 제공하며, 고혈압 연구에 대한 기반정보로 활용할 수 있다.

딥러닝과 머신러닝을 활용한 독자 반응 기반 웹툰 데뷔작 성공 예측 모델 (A Success Prediction Model for Debut Webtoon Based on Reader reaction Using Deep Learning and Machine Learning)

  • 허은영;김승화;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.770-773
    • /
    • 2019
  • 본 논문에서는 매년 성장하는 웹툰 시장 속에서 신인 작가들이 성공할 수 있는 성공 요인을 밝히고자 하였다. 국내 1위 웹툰 플랫폼인 네이버 웹툰 중 데뷔작을 기준으로 완결 웹툰 212개, 연재 중인 웹툰 112개, 총 324개의 웹툰을 수집하여 연구를 진행하였다. 기존 선행연구와의 차별화를 두기 위해 독자의 직접적인 반응 중 하나인 댓글을 성공 요인에 포함하였다. 댓글에 담긴 긍정, 부정을 나타내는 주관을 탐지하기 위해 딥러닝을 이용하여 감성 분석을 실시하였다. 각 웹툰에 대한 댓글 반응을 포함하여 평균, '좋아요' 수, 장르 그리고 첫 화 댓글 수와 5화까지 평균 댓글 수를 흥행에 영향을 미치는 독립변수로 사용했다. 댓글 반응이 중요 요인인지를 확인하기 위해 각 모델 생성 시 댓글 반응을 포함한 모델과 포함하지 않은 모델을 생성하여 성능 평가를 실시하였다. 로지스틱 회귀분석, 아다 부스트, 그리고 서포트 벡터 머신 모델을 정확도와 ROC 그래프를 이용해 효율성을 비교하고, 이를 통해 댓글 반응을 활용한 로지스틱 회귀 모델이 가장 적합하다고 판단하였다. 모델 생성 결과 '좋아요' 수, 1화 댓글 수, 댓글 반응 순으로 성공 요인에 많은 영향을 미치는 것을 알 수 있었다.

결합 리스펀스 모델링을 이용한 고객리스트 세분화 (Customer List Segmentation Using the Combined Response Modeling)

  • 서의호;노갑철;이응범
    • Asia Marketing Journal
    • /
    • 제1권2호
    • /
    • pp.19-35
    • /
    • 1999
  • 데이터베이스 마케팅 전략을 수립하고 집행함에 있어서 고객에게 접근하기 위한 촉진 매체로써 직접우편(Direct Mail)과 텔레 마케팅 등의 직접반응매체를 주요 수단으로 하는 경우 이를 다이렉트 마케팅이라고 한다. 다른 마케팅 전략들과 마찬가지로 다이렉트 마케팅에서도 마케팅 자원이 효과적으로 사용될 수 있도록 고객 데이터베이스를 세분화하는 작업을 수행한다. 리스펀스 모델링(Response Modeling)은 다이렉트 마케팅분야에서 고객리스트를 세분화하고 각 세그멘트별로 고객의 반응(구매행위)을 예측하는 기법을 말하며 RFM(Recency, Frequency, Monetary), 로지스틱, 신경망은 리스펀스 모델링을 위해서 가장 널리 사용되고 있는 기법이다. 과거에 이들 방법은 고객 데이터베이스 전체에 단독 모델로 적용되어 왔으나 이러한 단독 모델을 고객 데이터베이스에 적용하는 것이 정당화 되려면 고객들이 동일한 방식으로 반응한다는 전제가 필요하다. 그러나 일반적으로 고객의 반응방식에는 상당한 이질성이 존재한다. 예컨대 직업, 나이, 소득, 성별 등이 같다고 해서 같은 구매패턴을 보이지는 않는다는 것이다. 즉 고객A의 구매행위는 회귀선에 의해서 잘 설명되는 반면에 고객B는 신경망이나 RFM으로 잘 설명될 수 있는 경우가 존재하는 것이다. 이러한 구매행위의 이질성을 반영하기 위해서 최근에는 두개 이상의 방법을 결합하여 사용하는 결합 리스펀스 모델링 방법도 시도 되어 왔다. 그러나 결합 리스펀스 모델링에 관한 기존 연구들은 상관관계가 낮은 모델들을 결합함으로써 세분화의 효과를 단독 모델을 사용할 때 보다 개선할 수 있다고는 하였으나 구체적으로 어떤 모델들이 서로 낮은 상관관계를 갖는지는 보여주지 못하였다. 본 논문에서는 RFM 방법을 모델 내에서 사용하는 변수와 이를 이용한 모델링 방법상의 차이로 인하여 다른 두 방법(로지스틱, 신경망)과 매우 낮은 상관관계를 갖는 방법으로 제시하고 RFM과 다른 두 방법간의 낮은 상관관계를 이용하여 결합하는 경우 모델의 예측효과를 상당히 개선할 수 있음을 사례분석을 통해서 보이고자 한다.

  • PDF

산재보험 부정수급 식별모형에 관한 연구 (A Study on the Fraud Detection of Industrial Accident Compensation Insurance)

  • 함승오;홍정식
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2008년도 추계학술대회 및 정기총회
    • /
    • pp.342-345
    • /
    • 2008
  • 산재 발생 시 산재근로자는 근로복지공단을 통해서 각종 급여를 받게 된다. 본 논문은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000년$\sim$2007년)의 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 하였고, 종속변수에 영향을 미치는 8개의 독립변수를 선택해서 사용한다. 데이터 마이닝을 적용함에 있어서 가장 효율적인 허위 부정 탐지 모델을 만들기 위해 의사결정나무분석(Decision Tree)과 로지스틱 회귀분석(Logistic Regresion)등의 다양한 기법을 적용하여 결과를 비교분석 하고, 오분류 비용을 적용하여, 최적의 분류결정 값을 가지는 모델을 도출한다. 분석결과, 로지스틱 회귀분석이 산재보험 부정수급 유형 발견에 보다 효과적인 모델로 판명되었다. 또한 판별점(Cut-Off) 0.01로 했을 때 4개변수(요양기간, 업종형태, 의료기관, 재해발생형태)가 부정수급에 탐지하는데 영향력이 큰 변수로 선정되었다.

  • PDF

차등서비스를 위한 혼잡요금부과의 타당성 검토와 로지스틱 회귀모형을 이용한 인터넷 접속 확률 예측 (An Idea, Strategy of Congestion Pricing for Differentiated Services and Forecasting Probability of Access using Logistic Regression Model)

  • 지선수
    • 한국산업정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.9-15
    • /
    • 2005
  • 관련 기업 및 ISP 업체에게는 투자의 매력을 부여하며 인터넷의 사용시간대 및 사용량에 따라 빈약한 사용자, 건강한 사용자, 과다한 사용자 등으로 구분하여 차등요금을 부여하는 합리적인 전략이 필요하다. 이 논문에서 차등요금부과의 타당성을 검토한다. 그리고 로지스틱 회귀모형을 이용하여 혼잡에 따른 차등요금, 지연시간, 접속만족도 등에 따라 실제적으로 인터넷 사용자들이 인터넷 접속을 얼마나 유지하는 지를 측정할 수 있는 관련 예측모델을 제시한다. 이러한 예측모델을 이용하여 인터넷 접속 또는 비접속 확률을 예측하는 분석률은 $69.5\%$이었음을 확인하였다.

  • PDF

제3기 퇴적암 및 화산암 분포지의 산사태 예측모델 (A Prediction Model of Landslides in the Tertiary Sedimentary Rocks and Volcanic Rocks Area)

  • 채병곤;김원영;나종화;조용찬;김경수;이춘오
    • 지질공학
    • /
    • 제14권4호
    • /
    • pp.443-450
    • /
    • 2004
  • 이 연구는 제3기 퇴적암과 화산암이 분포하는 지역의 자연사면에서 발생하는 토석류 산사태를 예측하고자 로지스틱 회귀분석(logistic regression analysis)을 이용하여 예측모델을 개발한 것이다. 통계적 방법을 이용한 산사태 예측모델 개발을 위해 산사태 자료는 경북 포항지역에서 1998년 발생한 산사태를 대상으로 수집하였다. 로지스틱 회귀분석의 기본 특성을 고려하여 현장조사 및 실내토질시험은 산사태 발생지점 전체와 임의로 선택한 미발생 지점을 대상으로 실시하였다. 산사태 발생에 영향을 미치는 인자는 로지스틱 회귀분석을 실시하여 최종적으로 6개 영향인자를 선정하였다. 이들 6개 인자는 지형요소 2개와 지질요소 4개로 구성되어 있다. 개발된 모델은 신뢰성 검증을 수행한 결과 $90\%$ 이상의 예측률을 확보한 것으로 나타났다. 이 모델을 바탕으로 기존에 제시된 변성암 및 화강암 분포지에서의 산사태 예측모델과 함께 지질특성을 고려한 산사태 발생의 가능성을 확률적${\cdot}$정량적으로 예측할 수 있게 되었다.