• 제목/요약/키워드: Statistical predictions

검색결과 213건 처리시간 0.024초

K-평균 군집화 데이터 증강을 통한 주가 심층 예측 (Deep Prediction of Stock Prices with K-Means Clustered Data Augmentation)

  • 한경훈;양희규;추현승
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.67-74
    • /
    • 2023
  • 금융 분야에서 주가예측연구는 거래 안정성 및 이익 실현 등을 목적으로 한다. 기존의 통계적 예측기법은 무작위로 예측한 결과와 정확도 측면에서 비슷하거나 낮은 예측 신뢰도 때문에 실제 거래 결정에 참고 되기 어렵다. 인공지능 모델은 데이터특성과 변동패턴을 학습해 예측하기 때문에 향상된 정확도를 달성한다. 그러나 장기간의 시계열 데이터를 사용해 주가를 예측하는 것은 여전히 어려운 문제이다. 본 논문에서는 K-means 클러스터링 기반의 데이터 증강 및 입력 시퀀스의 Window-size 별 정규화 기법과 시계열 학습에 특화된 LSTM 모델을 활용하여 안정적이고 신뢰성 있는 주가예측 방법을 제안한다. 이를 통해 더욱 정확하고 신뢰성 있는 예측 결과를 얻고, 나아가 시장 안정성에 기여할 뿐 아니라 높은 수익도 추구할 수 있다.

Artificial neural network model for predicting sex using dental and orthodontic measurements

  • Sandra Anic-Milosevic;Natasa Medancic;Martina Calusic-Sarac;Jelena Dumancic;Hrvoje Brkic
    • 대한치과교정학회지
    • /
    • 제53권3호
    • /
    • pp.194-204
    • /
    • 2023
  • Objective: To investigate sex-specific correlations between the dimensions of permanent canines and the anterior Bolton ratio and to construct a statistical model capable of identifying the sex of an unknown subject. Methods: Odontometric data were collected from 121 plaster study models derived from Caucasian orthodontic patients aged 12-17 years at the pretreatment stage by measuring the dimensions of the permanent canines and Bolton's anterior ratio. Sixteen variables were collected for each subject: 12 dimensions of the permanent canines, sex, age, anterior Bolton ratio, and Angle's classification. Data were analyzed using inferential statistics, principal component analysis, and artificial neural network modeling. Results: Sex-specific differences were identified in all odontometric variables, and an artificial neural network model was prepared that used odontometric variables for predicting the sex of the participants with an accuracy of > 80%. This model can be applied for forensic purposes, and its accuracy can be further improved by adding data collected from new subjects or adding new variables for existing subjects. The improvement in the accuracy of the model was demonstrated by an increase in the percentage of accurate predictions from 72.0-78.1% to 77.8-85.7% after the anterior Bolton ratio and age were added. Conclusions: The described artificial neural network model combines forensic dentistry and orthodontics to improve subject recognition by expanding the initial space of odontometric variables and adding orthodontic parameters.

Predictive model for the shear strength of concrete beams reinforced with longitudinal FRP bars

  • Alzabeebee, Saif;Dhahir, Moahmmed K.;Keawsawasvong, Suraparb
    • Structural Engineering and Mechanics
    • /
    • 제84권2호
    • /
    • pp.143-154
    • /
    • 2022
  • Corrosion of steel reinforcement is considered as the main cause of concrete structures deterioration, especially those under humid environmental conditions. Hence, fiber reinforced polymer (FRP) bars are being increasingly used as a replacement for conventional steel owing to their non-corrodible characteristics. However, predicting the shear strength of beams reinforced with FRP bars still challenging due to the lack of robust shear theory. Thus, this paper aims to develop an explicit data driven based model to predict the shear strength of FRP reinforced beams using multi-objective evolutionary polynomial regression analysis (MOGA-EPR) as data driven models learn the behavior from the input data without the need to employee a theory that aid the derivation, and thus they have an enhanced accuracy. This study also evaluates the accuracy of predictive models of shear strength of FRP reinforced concrete beams employed by different design codes by calculating and comparing the values of the mean absolute error (MAE), root mean square error (RMSE), mean (𝜇), standard deviation of the mean (𝜎), coefficient of determination (R2), and percentage of prediction within error range of ±20% (a20-index). Experimental database has been developed and employed in the model learning, validation, and accuracy examination. The statistical analysis illustrated the robustness of the developed model with MAE, RMSE, 𝜇, 𝜎, R2, and a20-index of 14.6, 20.8, 1.05, 0.27, 0.85, and 0.61, respectively for training data and 10.4, 14.1, 0.98, 0.25, 0.94, and 0.60, respectively for validation data. Furthermore, the developed model achieved much better predictions than the standard predictive models as it scored lower MAE, RMSE, and 𝜎, and higher R2 and a20-index. The new model can be used in future with confidence in optimized designs as its accuracy is higher than standard predictive models.

Win-Loss Prediction Using AOS Game User Data

  • Ye-Ji Kim;Jung-Hye Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.23-32
    • /
    • 2023
  • 현대 사회의 새로운 스포츠로 정의되는 e-스포츠는 세계적으로 많은 사랑을 받는 스포츠로 자리매김했다. 그 중, E-sports를 대표하는 AOS(Aeon of Strife) 장르의 게임은 플레이어 개개인과 팀의 운영이 승패를 좌우하는 요소가 된다는 특징을 가진다. 본 논문은 실제 유저들의 게임 데이터를 수집하고 데이터를 통계적 기법으로 분석하여 정보를 제공한다. 또한, 수집한 데이터를 활용해 머신러닝 기법을 이용하여 승패 예측 모형을 설계하고 실험한다. 5개의 머신러닝 알고리즘이 사용되었고, 평균적으로 개인 데이터 모형에서는 Accuracy 80%, 팀 데이터 모형에서는 Accuracy 95%의 성능을 보인다. 본 연구에서 모형 설계 시 사용된 데이터는 개인 데이터 1,149,950건, 팀 데이터 230,234건으로 규모가 크고 일반 유저들의 플레이 성격을 잘 반영하고 있기 때문에 개발사의 게임 운영이나 일반 유저의 전략 수립 등에 도움이 될 것으로 기대한다. 실험 결과, 개인 데이터 모형과 팀 데이터 모형을 비교하였을 때, 팀 단위 모형의 성능이 상대적으로 매우 좋게 나타났다.

Learning-to-rank 기법을 활용한 서울 경마경기 순위 예측 (Horse race rank prediction using learning-to-rank approaches)

  • 정준형;신동욱;황세용;박건웅
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.239-253
    • /
    • 2024
  • 본 연구는 learning-to-rank (LTR) 기법 중 point-wise와 pair-wise learning을 적용하여 서울 경마경기 순위 예측을 수행하였다. Point-wise learning으로는 선형 회귀와 랜덤 포레스트를 pair-wise learning으로는 RankNet, LambdaMART (XGBoost Ranker, LightGBM Ranker, CatBoost Ranker)을 활용하였다. 또한 데이터 불균형 문제를 해결하기 위해 전처리 과정에서 경주기록을 경주거리에 따라 표준화하는 방식을 채택하였으며, 모형의 예측 능력 향상을 위해 경기 정보, 기수 정보, 마필 정보, 조교사 정보 등의 다양한 데이터를 사용하였다. 그 결과 아이템 간의 순위관계를 학습할 수 있는 pair-wise learning이 point-wise learning보다 전반적으로 더 뛰어난 예측력을 보이는 것을 확인하였다. 특히 CatBoost Ranker는 제시된 모형들 중 가장 뛰어난 예측 성능을 보였다. 마지막으로 섀플리 값을 통해 CatBoost Ranker에서 경주마의 성적, 직전 경주기록, 경주마의 출발훈련 횟수, 누적 출발훈련 횟수, 질병 진단횟수 등이 상위 10개 중요 변수에 포함된 것을 확인하였다.

고등학교 수학에서 딥러닝 예측을 이용한 통계교육 프로그램 연구 (Research on a statistics education program utilizing deep learning predictions in high school mathematics)

  • 진혜성;서보억
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제63권2호
    • /
    • pp.209-231
    • /
    • 2024
  • 4차 산업혁명과 인공지능의 발전으로 교육 분야에서 많은 변화가 일어나고 있다. 특히, 인공지능을 기반으로 하는 교육의 중요성이 강조되고 있다. 이러한 흐름에 따라 본 연구에서는 고등학교 수학에서 딥러닝 예측을 이용한 통계교육 프로그램을 개발하고 이러한 통계적 문제해결 과정 중심의 통계교육 프로그램이 고등학생들의 통계적 소양 및 컴퓨팅 사고력에 미치는 영향을 고찰하고자 한다. 먼저, 본 연구에서는 고등학교 수학에 적용할 수 있는 딥러닝 예측을 이용한 통계교육 프로그램을 개발하였고, 이를 실제 수업상황에 적용하여 분석하였다. 분석 결과, 학생들은 자료가 어떤 맥락에서 생성되고 수집되었는지 경험함으로써 맥락에 대한 이해도가 향상되었으며, 다양한 데이터셋을 탐색하고 분석하는 과정에서 자료의 변이성에 대한 이해도가 높아졌고, 자료의 신뢰성을 검증하는 과정에서 자료를 비판적으로 분석하는 능력을 보였다. 통계교육 프로그램이 고등학생들의 컴퓨팅 사고력에 미치는 영향을 분석하고자 대응 표본 t-검정 시행하였고, 수업 전과 후의 컴퓨팅 사고력 (t=-11.657, p<0.001)은 통계적으로 유의한 차이가 있음을 확인하였다.

Artificial Neural Network-based Prediction Model to Minimize Dust Emission in the Machining Process

  • Hilal Singer;Abdullah C. Ilce;Yunus E. Senel;Erol Burdurlu
    • Safety and Health at Work
    • /
    • 제15권3호
    • /
    • pp.317-326
    • /
    • 2024
  • Background: Dust generated during various wood-related activities, such as cutting, sanding, or processing wood materials, can pose significant health and environmental risks due to its potential to cause respiratory problems and contribute to air pollution. Understanding the factors influencing dust emission is important for devising effective mitigation strategies, ensuring a safer working environment, and minimizing environmental impact. This study focuses on developing an artificial neural network (ANN) model to predict dust emission values in the machining of black poplar (Populus nigra L.), oriental beech (Fagus orientalis L.), and medium-density fiberboards. Methods: The multilayer feed-forward ANN model is developed using a customized application built with MATLAB code. The inputs to the ANN model include material type, cutting width, number of blades, and cutting depth, whereas the output is the dust emission. Model performance is assessed through graphical and statistical comparisons. Results: The results reveal that the developed ANN model can provide adequate predictions for dust emission with an acceptable level of accuracy. Through the implementation of the ANN model, the study predicts intermediate dust emission values for different cutting widths and cutting depths, which are not considered in the experimental work. It is observed that dust emission tends to decrease with reductions in cutting width and cutting depth. Conclusion: This study introduces an alternative approach to optimize machining-process conditions for minimizing dust emissions. The findings of this research will assist industries in obtaining dust emission values without the need for additional experimental activities, thereby reducing experimental time and costs.

통계분석 및 전산모사 기법을 이용한 적응광학 시스템 성능 예측 (Performance Prediction for an Adaptive Optics System Using Two Analysis Methods: Statistical Analysis and Computational Simulation)

  • 한석기;주지용;이준호;박상영;김영수;정용석;정도환;허준;이기훈
    • 한국광학회지
    • /
    • 제33권4호
    • /
    • pp.167-176
    • /
    • 2022
  • 적응 광학(adaptive optics, AO)은 대기 외란을 실시간으로 보정하는 기술을 말하고, 이러한 적응광학의 효율적 개발을 위하여, 다양한 성능 예측 기법을 도입하여 적응광학이 적용된 시스템 성능 예측을 실시한다. 적응광학의 성능 예측 기법으로 자주 사용되는 기법으로는 통계분석, 전산모사 및 광학 벤치 테스트가 있다. 통계분석에서는 적응광학 시스템을 통계 분석 모델로 가정하여 오차값(분산)의 제곱을 전부 합쳐 스트렐비를 간단하게 추정한다. 다만, 하위 변수 간의 상관 관계는 무시되어 이에 따른 추정의 오류는 존재한다. 다음으로, 전산모사는 대기 난류, 파면센서, 변형거울, 폐쇄 루프 등 모든 구성요소를 가능한 한 실제와 가깝게 모델링하고, 시간 흐름에 따른 적응광학 시스템의 변화를 모두 구현하여 성능 예측을 수행한다. 다만, 전산모사 모델과 현실 사이에는 여전히 일부 차이가 있어, 광학 벤치 테스트를 통하여 시스템 성능을 확인한다. 최근 국내에서 개발된 변형 거울을 적용한 1.6 m 지상 망원경용 적응광학 시스템을 개발 중에 있어, 이에 적용 가능한 적응광학 시스템을 통하여 성능 예측 기법이 요구되며 동시에 성능 예측 기법의 비교를 진행하고자 한다. 앞서 언급된 통계분석 및 전산모사를 이용하여 시스템 성능 예측을 수행하였으며, 성능 예측의 분석을 위해 각각의 성능 예측 기법의 망원경 및 적응광학 시스템 모델링 과정 및 결과를 제시하였다. 이때 성능 예측을 위한 대기 조건으로는 보현산 관측 중앙값(median)을 적용하였다. 그 결과 통계 분석 방법의 경우 평균 스트렐 비가 0.31이 도출됨을 확인하였고, 전산모사 방법의 경우 평균 스트렐 비가 0.32를 가짐을 확인함으로써 두 방법에 의한 예측이 거의 유사함을 확인할 수 있었다. 추가적으로, 전산모사의 경우 해석 결과의 신뢰성을 확보하기 위하여, 모사 시간이 대기 임계 시간 상수의 약 240배인 0.9초 이상 수행되어야 함을 알 수 있었다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

가상코호트와 실제코호트 사망력 비교 (A comparison between the real and synthetic cohort of mortality for Korea)

  • 오진호
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.427-446
    • /
    • 2018
  • UN의 고령화사회(ageing society) 정의와 통계청의 장래인구추계 (2016)에 따르면 우리나라는 만 30여년 만에 초고령사회(super-aged society)를 맞이하게 되며, 세계 어느 나라와도 비교할 수 없는 빠른 고령화 속도를 보인다. 이러한 유례없는 고령화 속도에 비해서 장기 시계열의 사망관련 데이터 확보와 연금과 복지정책을 고민하는 인식은 뒤처져 있다. 본 연구는 과거 및 미래 예측을 통해 우리나라 1955-2200년까지 245여 연간의 사망률 자료를 추정 예측하여 가상코호트와 실제코호트의 기대수명을 비교함으로써 그 차이가 어느 정도인지를 가늠해 보았다. 더불어 우리나라 고령화수준을 파악하기 위해 국제비교도 하였다. 역 추계(back-projection) 기간의 추정치는 선행연구와 Lee-Carte (LC) 모형으로 비교 분석해 정확성과 객관성을 높였으며, 2016년 이후의 예측치는 LC method extended with rotation (LC-ER) 모형을 활용해 우리나라의 사망률 개선의 교대현상을 반영하였다. 분석결과 60년 동안(1955-2015년) 약 30년에 가까운 기대수명의 증가가 이루어졌고, 2세기(1955-2155)동안 실제코호트의 기대수명이 가상코호트보다 높게 도출되었다. 실제코호트의 기대수명 비교우위는 비교 국가들 모두 공통적인 경향임을 확인하였다. 그리고 일본과 우리나라가 기대수명의 상위를 점하고 있고, 모든 국가들이 85-90세를 기점으로 가상과 실제코호트의 기대수명에 대한 증가속도가 이전보다 높지 않음을 보였다.