• 제목/요약/키워드: Linear predictive model

검색결과 288건 처리시간 0.027초

딥러닝과 머신러닝을 이용한 아파트 실거래가 예측 (Apartment Price Prediction Using Deep Learning and Machine Learning)

  • 김학현;유환규;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.59-76
    • /
    • 2023
  • 코로나 시대 이후 아파트 가격 상승은 비상식적이었다. 이러한 불확실한 부동산 시장에서 가격 예측 연구는 매우 중요하다. 본 논문에서는 다양한 부동산 사이트에서 자료 수집 및 크롤링을 통해 2015년부터 2020년까지 87만개의 방대한 데이터셋을 구축하고 다양한 아파트 정보와 경제지표 등 가능한 많은 변수를 모은 뒤 미래 아파트 매매실거래가격을 예측하는 모델을 만든다. 해당 연구는 먼저 다중 공선성 문제를 변수 제거 및 결합으로 해결하였다. 이후 의미있는 독립변수들을 뽑아내는 전진선택법(Forward Selection), 후진소거법(Backward Elimination), 단계적선택법(Stepwise Selection), L1 Regularization, 주성분분석(PCA) 총 5개의 변수 선택 알고리즘을 사용했다. 또한 심층신경망(DNN), XGBoost, CatBoost, Linear Regression 총 4개의 머신러닝 및 딥러닝 알고리즘을 이용해 하이퍼파라미터 최적화 후 모델을 학습시키고 모형간 예측력을 비교하였다. 추가 실험에서는 DNN의 node와 layer 수를 바꿔가면서 실험을 진행하여 가장 적절한 node와 layer 수를 찾고자 하였다. 결론적으로 가장 성능이 우수한 모델로 2021년의 아파트 매매실거래가격을 예측한 후 실제 2021년 데이터와 비교한 결과 훌륭한 성과를 보였다. 이를 통해 머신러닝과 딥러닝은 다양한 경제 상황 속에서 투자자들이 주택을 구매할 때 올바른 판단을 할 수 있도록 도움을 줄 수 있을 것이라 확신한다.

한국 NPL시장 수익률 예측에 관한 연구 (A study on the prediction of korean NPL market return)

  • 이현수;정승환;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.123-139
    • /
    • 2019
  • 국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.

회귀분석을 통한 토양 내 Pyr 농도로부터 BaP와 총 PAH의 예측기법 (Prediction of BaP and Total PAH in Soil from Pyr Concentration using Regression Analysis)

  • 이우범;김종오
    • 대한환경공학회지
    • /
    • 제39권3호
    • /
    • pp.118-123
    • /
    • 2017
  • 본 연구에서는 기존에 발표된 PAH 데이터 세트를 이용하여 BaP와 총 PAH의 예측을 위하여 통계적 분석을 시행하였다. 선형회귀 및 다중회귀 분석 결과, Pyr과 BaP ($R^2=0.94$), Pyr과 ${\Sigma}PAH$ ($R^2=0.99$) 사이에 매우 높은 상관성을 보여주었다. 개발된 회귀식을 이용하여 다른 PAH 측정값과 비교하기 위하여 검증과 적용 연구를 시도한 경우, 예측한 PAH 농도는 서로 유사하였다. 통계적 분석을 통해서 Pyr과 BaP가 서로 상관성이 높은 것으로 조사되어 이들 화합물 모두 연소기원 형태로 분류 할 수 있을 것으로 여겨진다. 비록 BaP나 ${\Sigma}PAH$ 예측에 어느 정도가 한계가 있을 수 있으나 개발된 회귀식을 이용할 경우 추가적인 측정 없이 PAH를 빠르게 대략적인 값을 계산 할 수 있는 장점이 있다.

논토양의 이화학적 특성 및 침출성 중금속 함량을 이용한 비소의 전함량 예측 (Model Development for Estimating Total Arsenic Contents with Chemical Properties and Extractable Heavy Metal Contents in Paddy Soils)

  • 이정미;고우리;;류지혁;김지영;김두호;김원일
    • 한국토양비료학회지
    • /
    • 제45권6호
    • /
    • pp.920-924
    • /
    • 2012
  • This study was performed to estimate total contents of arsenic (As) by stepwise multiple-regression analysis using chemical properties and extractable contents of metal in paddy soil adjacent to abandoned mines. The soil was collected from paddies near abandoned mines. Soil pH, electrical conductively (EC), organic mater (OM), available phosphorus ($P_2O_5$), and exchangeable cations (Ca, K, Mg, Na) were measured. Total contents of As and extractable contents of metals were analyzed by ICP-OES. From stepwise analysis, it was showed that the contents of extractable As, available phosphorus, extractable Cu, exchangeable K, exchangeable Na, and organic mater significantly influenced the total contents of As in soil (p<0.001). The multiple linear regression models have been established as Log (Total-As) = 0.741 + 0.716 Log (extractable-As) - 0.734 Log (avail-$P_2O_5$) + 0.334 Log (extractable-Cu) + 0.186 Log (exchangeable-K) - 0.593 Log (exchangeable-Na) + 0.558 Log (OM). The estimated value in total contents of As was significantly correlated with the measured value in soil ($R^2$=0.84196, p<0.0001). This predictive model for estimating total As contents in paddy soil will be properly applied to the numerous datasets which were surveyed with extractable heavy metal contents based on Soil Environmental Conservation Act before 2010.

캐스케이드-상관 학습 알고리즘의 패밀리 (Family of Cascade-correlation Learning Algorithm)

  • 최명복;이상운
    • 한국지능시스템학회논문지
    • /
    • 제15권1호
    • /
    • pp.87-91
    • /
    • 2005
  • Fahlman과 Lebiere의 캐스케이드-상관 (CC) 학습 알고리즘은 신경망의 구성 알고리즘에서 가장 널리 사용되는 것 중의 하나이며, 망에서 은닉 뉴런을 캐스케이드 형태로 취함으로서 매우 강력한 비선형을 표현할 수 있다. 비록 이 멱승이 유용할지 몰라도 대체로 문제를 푸는데는 강력한 비선형성이 요구되지 않으며 단점이 될 수도 있다. CC 알고리즘의 캐스케이드 구조 및 출력 뉴런의 가중치 훈련에 대한 변형된 형태인 3개 모델이 제안되고 경험적으로 비교되었다. 실험결과 다음과 같은 결론을 얻었다: (1) 패턴분류에 있어서, 새로 추가되는 은닉 뉴런과 출력층간 연결강도만 훈련시키는 모델이 가장 좋은 예측력을 나타내었다; (2) 함수근사 문제에 있어서는 입력-출력 연결강도를 제거하고 시그모이드-선형 작동함수를 사용하는 모델이 CasCor 알고리즘보다 좋은 결과를 나타내었다.

음성 인식 신경망을 위한 음성 파라키터들의 성능 비교 (A Comparative Study of Speech Parameters for Speech Recognition Neural Network)

  • 김기석;임은진;황희융
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.61-66
    • /
    • 1992
  • 음성 인식에 신경망 모델을 적용하는 많은 연구들이 있었지만, 주된 관심은 음성인식에 적합한 구조와 학습 방법이었다. 그러나 음성인식에 신경망 모델을 적용한 시스템의 효율 향상은 모델 자체의 구조뿐 아니라, 신경망 모델의 입력으로 어떤 음성 파라미터를 사용하는가에 따라서도 큰 영향을 받는다. 본 논문은 기존 음성인식에 신경망 모델을 적용한 많은 연구들에서 사용한 음성 파라미터를 살펴보고, 대표적인 음성 파라미터 6개를 선정하여, 같은 데이타와 같은 신경망 모델 하에서 어떻게 성능이 달라지는지를 분석한다. 인식 실험에 있어서는 한국어 파열음 9개에 대한 8개 데이터 집합과 모음 8개에 대한 18개 데이터 집합을 음성 파라미터로 하고 신경망 모델은 순환 신경망 모델을 사용하여 노드의 수를 일정하게 한뒤 다양한 입력 파라미터의 성능을 비교하였다. 그 결과 선형 예측 계수로부터 얻어진 delta cepstrum의 음성 파라미터가 가장 좋은 성능을 보였으며 이때 인식률은 같은 학습 데이터에 대해 파열음 100.0%, 모음 95.1%이었다.

  • PDF

토양 재활용을 위한 통계적 분석의 PAHs 농도 예측 (Prediction of PAHs Concentration using Statistical Analysis for Soil Recycling)

  • 김종오;이만승
    • 자원리싸이클링
    • /
    • 제26권4호
    • /
    • pp.56-61
    • /
    • 2017
  • 본 연구에서는 토양내 BaA 농도로부터 BaP, DahA와 ${\Sigma}PAH$의 농도 예측식 개발과 토양 재활용을 위하여 통계적 접근을 시도하였다. 회귀분석 결과 높은 상관성($R^2$ > 0.90)과 BaA와 BaP(또는 DahA) 농도 사이에 밀접한 연관성을 보였다. 또한 개발된 회귀식을 다른 검증 연구에 적용한 결과 유사한 예측값을 얻었다. 통계적 분석에서 BaA가 BaP 예측에 높은 상관성을 보였으며 PAHs 예측에 중요한 인자로 여겨진다. 이들 예측식을 적용 할 경우 BaA 농도만을 이용하여 평균적인 BaP, DahA나 ${\Sigma}PAH$ 농도를 빨리 계산 할 수 있다.

Autoencoder 기법을 활용한 부동산 가격 이상치 분석 (Analsis Of Outliers In Real Estate Prices Using Autoencoder)

  • 김윤서;박종찬;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1739-1748
    • /
    • 2021
  • 부동산 가격은 국가, 기업, 가계에 영향을 미치며 최근 급등하는 부동산 가격에 부동산 버블에 관한 연구가 많이 시행되고 있다. 하지만 부동산 버블 예측에서 단순히 부동산 가격만을 비교하거나, 부동산 매매에서 핵심적인 심리적 변수를 반영하지 못한다면 버블 예측 모형의 정확성이 떨어진다 판단할 수 있다. 본 연구는 오토인코더 기법을 사용하여 지역별 부동산 버블 상황을 설명할 수 있는 예측 모형을 설계하는 것이 목적이다. 기존의 부동산 버블 분석 연구들이 가격에 영향을 미치는 다양한 종류의 변수를 설정하지 못하였고 주로 선형 모형을 기반으로 연구를 진행했다는 부분에서, 본 연구는 기존 부동산 버블 연구에 사용되지 않았던 기법과 변수들의 도입 가능성을 시사한다.

양식장 어류 생육 데이터 분석 및 마이닝 (Data Analysis and Mining for Fish Growth Data in Fish-Farms)

  • 예성빈;박정선;한순희;정희택
    • 한국전자통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.127-142
    • /
    • 2023
  • 양식장에서 양식어의 생육 정보인 크기 및 무게의 관리는 가장 기본적인 목표이다. 본 연구에서는 육상 양식장에서 입식 또는 분조 시점부터 출하 시점까지를 epoch로 정의하고, 총 3 epoch에 대하여 생육데이터를 시계열 관점에서 분석하고자 한다. 양식장에서 시간 흐름에 따라 발생하는 양식어의 크기 및 무게 등의 생육 정보를 수질 환경 정보, 급이 정보와 비교 분석하고, 분석 결과를 이용하여 모델을 제시한다. 본 연구에서는 현장에서 획득된 데이터를 이용하여 크기 및 무게에 대하여 Box-Jenkins 방법을 이용하여 선형, 지수, 로그 회귀분석 모델을 제시한다.

Formulations of Job Strain and Psychological Distress: A Four-year Longitudinal Study in Japan

  • Mayumi Saiki;Timothy A. Matthews;Norito Kawakami;Wendie Robbins;Jian Li
    • Safety and Health at Work
    • /
    • 제15권1호
    • /
    • pp.59-65
    • /
    • 2024
  • Background: Different job strain formulations based on the Job Demand-Control model have been developed. This study evaluated longitudinal associations between job strain and psychological distress and whether associations were influenced by six formulations of job strain, including quadrant (original and simplified), subtraction, quotient, logarithm quotient, and quartile based on quotient, in randomly selected Japanese workers. Methods: Data were from waves I and II of the Survey of Midlife in Japan (MIDJA), with a 4-year followup period. The study sample consisted of 412 participants working at baseline and had complete data on variables of interest. Associations between job strain at baseline and psychological distress at follow-up were assessed via multivariable linear regression, and results were expressed as β coefficients and 95% confidence intervals including R2 and Akaike information criterion (AIC) evaluation. Results: Crude models revealed that job strain formulations explained 6.93-10.30% of variance. The AIC ranged from 1475.87 to 1489.12. After accounting for sociodemographic and behavioral factors and psychological distress at baseline, fully-adjusted models indicated significant associations between all job strain formulations at baseline and psychological distress at follow-up: original quadrant (β: 1.16, 95% CI: 0.12, 2.21), simplified quadrant (β: 1.01, 95% CI: 0.18, 1.85), subtraction (β: 0.39, 95% CI: 0.09, 0.70), quotient (β: 0.37, 95% CI: 0.08, 0.67), logarithm quotient (β: 0.42, 95% CI: 0.12, 0.72), and quartile based on quotient (β: 1.22, 95% CI: 0.36, 2.08). Conclusion: Six job strain formulations showed robust predictive power regarding psychological distress over 4 years among Japanese workers.