• 제목/요약/키워드: Lasso 회귀분석

검색결과 41건 처리시간 0.021초

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.

내재된 인자회귀모형의 베이지안 분석법 (Bayesian analysis of latent factor regression model)

  • 경민정
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2020
  • 선형모형에서 두개 이상의 설명변수들 사이에 존재하는 다중공선성 문제를 변수들 간에 내재되어 있는 공통의 구조인 인자를 구성하고, 인자들을 회귀변수로 사용하여 해결하는 인자회귀모형에 대하여 논의한다. 무한개로 가정 가능한 내재된 인자 중 유의미한 인자적재행렬을 구성하기 위하여 벌점모수의 값이 큰 LASSO 사전분포를 적용하는 베이지안 추정법을 사용한다. 결정된 인자적재행렬과 다른 모수들의 추정값을 각 설명변수의 선형모수로 역변환 하여, 새로운 관측값에 대한 예측 모형으로도 사용한다. 제안한 방법을 제품 서비스 관리 자료에 적용하여 정해진 인자의 개수에 대한 인자가 일반적인 공통인자회귀모형과 동일한 결과를 나타냄을 확인하였고, 일반적인 공통인자회귀모형과 비교를 위해 계산한 평균 제곱 오차값이 더 작다는 것을 알 수 있었다.

Adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대한 연구 (Discrimination between trend and difference stationary processes based on adaptive lasso)

  • 나옥경
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.723-738
    • /
    • 2020
  • 본 논문에서는 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대해 연구한다. 두 시계열 모형은 시계열적 특징, 충격의 지속성 여부, 시계열을 정상화시키는 방법 등이 모두 다르므로, 어떤 모형을 선택하냐에 따라 분석 방법이나 해석에 차이가 발생한다. 따라서 시계열 자료를 분석할 때 추세-정상성과 차분-정상성을 판별하는 것은 매우 중요한 일이다. 두 시계열을 구분하는 중요한 기준은 단위근의 존재 여부이므로, 단위근 검정 결과를 활용할 수 있다. 최근 연구 결과들을 살펴보면, 다양한 시계열 모형을 적합시킬 때 뿐만 아니라 비정상 자기회귀모형의 차분 차수를 결정할 때도 adaptive lasso와 같은 벌점화 추정방법을 도입, 사용하고 있다. 본 논문에서도 adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법을 제안, 연구를 진행하였다. 단위근 검정을 이용한 분류 방법과 adaptive lasso 추정량을 기초로 한 분류 방법에 대한 비교 모의실험을 수행하였고, 그 결과 추세-정상시계열이 참인 경우는 adaptive lasso 방법의 분류 정확도가 단위근 검정방법보다 좀 더 우세하며, 차분-정상시계열의 경우에는 반대로 정확도가 떨어지는 것을 확인할 수 있었다.

SNS 기반 여론 감성 분석 (Sentiment Analysis for Public Opinion in the Social Network Service)

  • 하상현;노태협
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.111-120
    • /
    • 2020
  • 본 연구는 소셜네트워크서비스(SNS)상의 빅데이터를 이용한 텍스트 분석기법의 응용으로서 설문 조사 기반의 여론 조사 방법론과 달리 비정형적 언어 기반의 감성 여론 조사 방법론을 제안한다. 기존의 설문 기반 여론 분석모형에 대한 대안적 방법으로 주관성에 기초한 감성 분류 모형을 이용하였다. 이를 위하여, 제20대 국회의원 선거운동 기간 중 선거 관련 실시간 트위터 자료를 수집하여 속성 기반 감성 분석을 이용한 여론의 극성과 강도에 대한 실증 분석을 수행하였다. 개별 SNS에서 사용된 단어의 극성을 분류하기 위해 Lasso 및 Ridge 회귀 모형을 이용하여 극성에 영향력이 큰 변수를 추출하였다. 추출된 변수가 극성에 미치는 긍정 및 부정에 대한 영향을 구분하고, 영향력의 강도를 분석하였다. 대중들이 소셜네트워크상에서 표현한 내용을 바탕으로 한 여론에 대한 긍정 및 부정의 감성 분석을 통해 여론의 향방을 예측하고 극성분석 모형의 정확도를 측정하여, 여론 조사 분야에서 감성 분석 방법론의 적용가능성을 확인하였다.

분류 앙상블 모형에서 Lasso-bagging과 WAVE-bagging 가지치기 방법의 성능비교 (Comparison of ensemble pruning methods using Lasso-bagging and WAVE-bagging)

  • 곽승우;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1371-1383
    • /
    • 2014
  • 분류 앙상블 모형이란 여러 분류기들의 예측 결과를 통합하여 더욱 정교한 예측성능을 가진 분류기를 만들기 위한 융합방법론이라 할 수 있다. 분류 앙상블을 구성하는 분류기들이 높은 예측 정확도를 가지고 있으면서 서로 상이한 모형으로 이루어져 있을 때 분류 앙상블 모형의 정확도가 높다고 알려져 있다. 하지만, 실제 분류 앙상블 모형에는 예측 정확도가 그다지 높지 않으며 서로 유사한 분류기도 포함되어 있기 마련이다. 따라서 분류 앙상블 모형을 구성하고 있는 여러 분류기들 중에서 서로 상이하면서도 정확도가 높은 것만을 선택하여 앙상블 모형을 구성해 보는 가지치기 방법을 생각할 수 있다. 본 연구에서는 Lasso 회귀분석 방법을 이용하여 분류기 중에 일부를 선택하여 모형을 만드는 방법과 가중 투표 앙상블 방법론의 하나인 WAVE-bagging을 이용하여 분류기 중 일부를 선택하는 앙상블 가지치기 방법을 비교하였다. 26개 자료에 대해 실험을 한 결과 WAVE-bagging 방법을 이용한 분류 앙상블 가지치기 방법이 Lasso-bagging을 이용한 방법보다 더 우수함을 보였다.

frailtyHL 통계패키지를 이용한 프레일티 모형의 변수선택: 유방암 생존자료 (Variable Selection in Frailty Models using FrailtyHL R Package: Breast Cancer Survival Data)

  • 김보현;하일도;노맹석;나명환;송호천;김자혜
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.965-976
    • /
    • 2015
  • 통계적 모형에서 적절한 변수를 선택하는 것은 회귀분석에서 매우 중요하다. 최근 벌점 함수(예: LASSO 및 SCAD)와 함께 벌점화 가능도를 사용하는 변수 선택 방법들이 선형모형 및 일반화 선형모형과 같은 단순한 통계 모형에서 널리 연구되고 있다. 이러한 방법들의 주요 장점은 중요한 변수를 선택하고 동시에 회귀계수를 추정하는 것이다. 그러므로 이 방법들은 0으로 회귀계수를 추정함으로써 중요하지 않은 변수를 삭제한다. 이 논문에서는 콕스 비례 위험 모형의 한 확장인 준 모수적 프레일티 모형에서 벌점화된 다단계 가능도(h-likelihood; HL)를 기반으로 적절한 변수를 선택하는 방법을 연구한다. 이를 위해 세 가지 벌점 함수 LASSO, SCAD 및 HL을 사용한다. 본 논문에서는 변수선택을 효율적으로 하기 위해 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 새로운 함수를 개발하였다. 개발된 방법의 예증을 위해 전남대 의과대학 병원에서 수집된 유방암 생존자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 이 변수선택방법들의 상대적 장 단점에 대해 토론한다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

다수준 프레일티모형 변수선택법을 이용한 다기관 방광암 생존자료분석 (Analysis of multi-center bladder cancer survival data using variable-selection method of multi-level frailty models)

  • 김보현;하일도;이동환
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.499-510
    • /
    • 2016
  • 생존분석 회귀모형에서 적절한 변수를 선택하는 것은 매우 중요하다. 본 논문에서는 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 다수준 프레일티 모형 (multi-level frailty models)에서 벌점화 변수선택 방법 (penalized variable-selection method)의 절차를 소개한다. 여기서 모형 추정은 벌점화 다단계 가능도에 기초하며, 세 가지 벌점 함수 (LASSO, SCAD 및 HL)가 고려된다. 개발된 방법의 예증을 위해 벨기에 EORTC (European Organization for Research and Treatment of Cancer; 유럽 암 치료기구)에서 수행된 다국가/다기관 임상시험 자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 그 결과들의 상대적 장 단점에 대해 토론한다. 특히, 자료 분석 결과에 의하면 SCAD와 HL방법이 LASSO보다 중요한 변수를 잘 선택하는 것으로 나타났다.

머신러닝 회귀분석 유형에 따른 총 공사기간 예측 모델에 관한 연구 (A Study on the Prediction Model of Total Construction Period according to the Type of Machine Learning Regression )

  • 강윤호;윤석헌
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2023년도 봄 학술논문 발표대회
    • /
    • pp.361-362
    • /
    • 2023
  • In construction work, there is often a difference between the estimated construction period and the actual construction period. Accordingly, the project may be delayed from the scheduled date, leading to huge losses due to problems such as increased costs during construction. In this way, it is important to calculate the appropriate construction period at the project planning stage in construction work. To solve this problem, we would like to study a model that will increase the accuracy of the scheduled construction period at the project planning stage. This study compared and analyzed linear regression, Lasso regression, Ridge regression among the types of regression analysis to select an appropriate construction period prediction model to secure an appropriate construction period at the project planning stage to reduce problems during construction.

  • PDF

국내 예능 시청률과 회차 예측 및 영향요인 분석 (A study on entertainment TV show ratings and the number of episodes prediction)

  • 김미림;임소연;장초희;송종우
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.809-825
    • /
    • 2017
  • 오디션, 육아, 버라이어티 등 다양한 예능 프로그램들의 수가 점점 증가하고 있다. 특히 종합편성채널이 개국한 이후에 예능 시장 경쟁이 심화되고 있다. 그에 따라 시청률과 회차에 대한 연구의 필요성이 대두되고 있다. 본 연구의 목적은 예능 프로그램 시청률과 회차의 예측모형을 제시하고 주요요인을 살펴보는 데 있다. 모형 적합 시 선형회귀모형, 로지스틱 회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 머신 등과 같은 다양한 분석 방법을 고려하였다. 예능 시청률 예측 모형에서는 첫 회가 방영되기 전과 방영된 후 두 가지 모형을 적합하였고, 회차 예측 모형에서는 예능 시청률 예측 모형의 예측치를 추가 변수로 생성하여 모형을 적합하였다. 그 결과 첫 회 방영 전 예능 시청률 예측에서는 방송사, 이전 시즌 시청률, 시작 연도, 기사 수가 큰 영향을 주는 것으로 나타났다. 첫 회 방영 후 예능 시청률 예측에서는 첫 회 시청률, 방송사, 예능 유형이 중요한 변수로 나타났으며, 두 모형 모두 랜덤 포레스트 모형에서 가장 좋은 결과를 보였다. 예능 회차 예측에서는 평균 시청률 예측치, 시작 연도, 예능유형, 방송국 등이 중요한 변수로 나타났다.