• Title/Summary/Keyword: 자동회귀모델

Search Result 55, Processing Time 0.025 seconds

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.11
    • /
    • pp.41-49
    • /
    • 2019
  • We are to build an unsupervised machine learning-based language model which can estimate the amount of information that are in need to process words consisting of subword-level morphemes and syllables. We are then to investigate whether the reading times of words reflecting their morphemic and syllabic structures are predicted by an information-theoretic measure such as surprisal. Specifically, the proposed Morfessor-based unsupervised machine learning model is first to be trained on the large dataset of sentences on Sejong Corpus and is then to be applied to estimate the information-theoretic measure on each word in the test data of Korean words. The reading times of the words in the test data are to be recruited from Korean Lexicon Project (KLP) Database. A comparison between the information-theoretic measures of the words in point and the corresponding reading times by using a linear mixed effect model reveals a reliable correlation between surprisal and reading time. We conclude that surprisal is positively related to the processing effort (i.e. reading time), confirming the surprisal hypothesis.

기술현황분석 - 지능제조설비를 위한 열변형 보상장치 및 실시간 CNC보정 기술 개발사례

  • Kim, Dong-Hun;Song, Jun-Yeop;Cha, Seok-Geun
    • 기계와재료
    • /
    • v.22 no.1
    • /
    • pp.46-53
    • /
    • 2010
  • 공작기계에서 가공정밀도를 저하시키는 가장 큰 요인은 열변형 및 채터진동이다. 본 고에서는 이 중 장시간 가공중 기계의 열변형에 따른 문제점을 자동으로 공작기계 CNC(Computerized Numerical Controller) 제어기상에서 실시간으로 보상하여 주는 장치 및 기술개발 사례에 대한 내용을 언급하고자 한다. 기계가공에서 온도신호의 실시간 데이터 취득 및 열변형에 따른 공작기계 원점(Work Offset)의 자율보정이 가공정밀도 향상 및 가동률 향상에 많은 영향을 끼친다 이에 따라 본 고에서는 온도 데이터의 취득부와 보상을 위한 보정값 추출을 위한 선형회귀법 및 신경회로망의 보정모델을 임베디드화한 디바이스와 CNC상에서 가공중 공작기계 원점 자동보정을 하는 시스템을 개발하였기에 관련내용을 소개하고자 한다.

  • PDF

Determining Input Values for Dragging Anchor Assessments Using Regression Analysis (회귀분석을 이용한 주묘 위험성 평가 입력요소 결정에 관한 연구)

  • Kang, Byung-Sun;Jung, Chang-Hyun
    • Journal of the Korean Society of Marine Environment & Safety
    • /
    • v.27 no.6
    • /
    • pp.822-831
    • /
    • 2021
  • Although programs have been developed to evaluate the risk of dragging anchors, it is practically difficult for VTS(vessel traffic service) operators to calculate and evaluate these risks by obtaining input factors from anchored ships. Therefore, in this study, the gross tonnage (GT) that could be easily obtained from the ship by the VTS operators was set as an independent variable, and linear and nonlinear regression analyses were performed using the input factors as the dependent variables. From comparing the fit of the polynomial model (linear) and power series model (nonlinear), the power series model was evaluated to be more suitable for all input factors in the case of container ships and bulk carriers. However, in the case of tanker ships, the power supply model was suitable for the LBP(length between perpendiculars), width, and draft, and the polynomial model was evaluated to be more suitable for the front wind pressure area, weight of the anchor, equipment number, and height of the hawse pipe from the bottom of the ship. In addition, all other dependent variables, except for the front wind pressure area factor of the tanker ship, showed high degrees of fit with a coefficient of determination (R-squared value) of 0.7 or more. Therefore, among the input factors of the dragging anchor risk assessment program, all factors except the external force, seabed quality, water depth, and amount of anchor chain let out are automatically applied by the regression analysis model formula when only the GT of the ship is provided.

Study on the Prediction of short-term Algal Bloom in Juksan weir Using the Model Tree (모델트리를 활용한 죽산보 단기조류예측에 관한 연구)

  • Lee, Bo-Mi;Yi, Hye-Suk;Chong, Sun-A;Joo, Yong-Eun;Kim, Ho-Joon;Choi, Kwang-Soon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.450-450
    • /
    • 2018
  • 최근 기후변화와 수온상승으로 인한 녹조발생이 빈번하게 나타나며, 녹조발생에 관한 관심은 꾸준히 증가하고 있는 추세이다. 본 연구는 효율적인 녹조관리를 위하여 모델트리를 활용하여 클로로필-a 단기조류예측 기법을 개발하였다. 대상지역으로 영산강수계의 죽산보를 선정하였으며, 2013년 1월부터 2016년 12월까지 나주 수질자동측정망의 일 단위자료와 동일기간 광주 기상청의 일별 기상자료를 이용하였다. 상관 분석을 통해 T-N, T-P, N/Pratio와 클로로필-a, 수온, 일사량, 강수량을 독립변수로, 단기(t+1일, t+3일, t+5일, t+7일) 클로로필-a를 종속변수로 선정하여 단기조류예측기법을 개발하였다. 수집한 자료의 데이터세트는 격일 간격으로 Training, Testing 기간으로 구분하여 적용한 결과, 상관계수는 1일 예측 시, Training 기간에 0.89, Testing 기간에 0.91, 3일 예측 시, Training 기간에 0.74, Testing 기간에 0.68, 5일 예측 시, Training 기간에 0.70, Testing 기간에 0.66, 7일 예측 시, Training 기간에 0.63, Testing 기간에 0.62로 나타났다. RMSE(Root Mean Square Error)는 1일 예측 시, Training 기간에 13.96, Testing 기간에 12.22, 3일 예측 시, Training 기간에 20.03, Testing 기간에 22.14, 5일 예측 시, Training 기간에 21.32, Testing 기간에 22.57, 7일 예측 시, Training 기간에 23.52, Testing 기간에 23.45로 나타났다. 예측주기에 따라 모델트리와 회귀식에서 활용한 독립변수는 1일 예측 시, 모델트리는 N/Pratio, 클로로필-a, 회귀식은 클로로필-a로 다르게 나타났다. 반면, 3일, 5일, 7일 예측 시, 모델트리와 회귀식에 활용된 변수는 같게 나타났다. 클로로필-a, 수온, 일사량은 5일 예측 시 활용된 변수로, 3일 예측 시에는 기상항목인 강수량이, 7일 예측 시에는 수질항목인 T-N, N/Pratio가 추가되었다. 특히 1일 예측 시 일 때, 높은 예측정도와 활용된 변수의 수가 적게 나타나는 것을 확인하였으며, 예측기간이 길어질수록 예측의 정확성이 낮아지고, 활용된 변수의 수가 많아지는 것을 확인하였다. 향후 적정한 예측기간을 판단하고 예측가능성을 높이기 위해서는 지속적인 자료취득 및 개선이 필요하며, 이를 바탕으로 적절한 단기조류예측이 가능할 것으로 판단된다.

  • PDF

Spatial Hedonic Modeling using Geographically Weighted LASSO Model (GWL을 적용한 공간 헤도닉 모델링)

  • Jin, Chanwoo;Lee, Gunhak
    • Journal of the Korean Geographical Society
    • /
    • v.49 no.6
    • /
    • pp.917-934
    • /
    • 2014
  • Geographically weighted regression(GWR) model has been widely used to estimate spatially heterogeneous real estate prices. The GWR model, however, has some limitations of the selection of different price determinants over space and the restricted number of observations for local estimation. Alternatively, the geographically weighted LASSO(GWL) model has been recently introduced and received a growing interest. In this paper, we attempt to explore various local price determinants for the real estate by utilizing the GWL and its applicability to forecasting the real estate price. To do this, we developed the three hedonic models of OLS, GWR, and GWL focusing on the sales price of apartments in Seoul and compared those models in terms of model fit, prediction, and multicollinearity. As a result, local models appeared to be better than the global OLS on the whole, and in particular, the GWL appeared to be more explanatory and predictable than other models. Moreover, the GWL enabled to provide spatially different sets of price determinants which no multicollinearity exists. The GWL helps select the significant sets of independent variables from a high dimensional dataset, and hence will be a useful technique for large and complex spatial big data.

  • PDF

Development of fecal coliform prediction model using random forest method (랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발)

  • Seo, Il Won;Choi, Soo Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

A Multivariate Analysis of Korean Professional Players Salary (한국 프로스포츠 선수들의 연봉에 대한 다변량적 분석)

  • Song, Jong-Woo
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.3
    • /
    • pp.441-453
    • /
    • 2008
  • We analyzed Korean professional basketball and baseball players salary under the assumption that it depends on the personal records and contribution to the team in the previous year. We extensively used data visualization tools to check the relationship among the variables, to find outliers and to do model diagnostics. We used multiple linear regression and regression tree to fit the model and used cross-validation to find an optimal model. We check the relationship between variables carefully and chose a set of variables for the stepwise regression instead of using all variables. We found that points per game, number of assists, number of free throw successes, career are important variables for the basketball players. For the baseball pitchers, career, number of strike-outs per 9 innings, ERA, number of homeruns are important variables. For the baseball hitters, career, number of hits, FA are important variables.

Simulation-Based Material Property Analysis of 3D Woven Materials Using Artificial Neural Network (시뮬레이션 기반 3차원 엮임 재료의 물성치 분석 및 인공 신경망 해석)

  • Byungmo Kim;Seung-Hyun Ha
    • Journal of the Computational Structural Engineering Institute of Korea
    • /
    • v.36 no.4
    • /
    • pp.259-264
    • /
    • 2023
  • In this study, we devised a parametric analysis workflow for efficiently analyzing the material properties of 3D woven materials. The parametric model uses wire spacing in the woven materials as a design parameter; we generated 2,500 numerical models with various combinations of these design parameters. Using MATLAB and ANSYS software, we obtained various material properties, such as bulk modulus, thermal conductivity, and fluid permeability of the woven materials, through a parametric batch analysis. We then used this large dataset of material properties to perform a regression analysis to validate the relationship between design variables and material properties, as well as the accuracy of numerical analysis. Furthermore, we constructed an artificial neural network capable of predicting the material properties of 3D woven materials on the basis of the obtained material database. The trained network can accurately estimate the material properties of the woven materials with arbitrary design parameters, without the need for numerical analyses.

Research on optimal safety ship-route based on artificial intelligence analysis using marine environment prediction (해양환경 예측정보를 활용한 인공지능 분석 기반의 최적 안전항로 연구)

  • Dae-yaoung Eeom;Bang-hee Lee
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2023.05a
    • /
    • pp.100-103
    • /
    • 2023
  • Recently, development of maritime autonomoust surface ships and eco-friendly ships, production and evaluation research considering various marine environments is needed in the field of optimal routes as the demand for accurate and detailed real-time marine environment prediction information expands. An algorithm that can calculate the optimal route while reducing the risk of the marine environment and uncertainty in energy consumption in smart ships was developed in 2 stages. In the first stage, a profile was created by combining marine environmental information with ship location and status information within the Automatic Ship Identification System(AIS). In the second stage, a model was developed that could define the marine environment energy map using the configured profile results, A regression equation was generated by applying Random Forest among machine learning techniques to reflect about 600,000 data. The Random Forest coefficient of determination (R2) was 0.89, showing very high reliability. The Dijikstra shortest path algorithm was applied to the marine environment prediction at June 1 to 3, 2021, and to calculate the optimal safety route and express it on the map. The route calculated by the random forest regression model was streamlined, and the route was derived considering the state of the marine environment prediction information. The concept of route calculation based on real-time marine environment prediction information in this study is expected to be able to calculate a realistic and safe route that reflects the movement tendency of ships, and to be expanded to a range of economic, safety, and eco-friendliness evaluation models in the future.

  • PDF

A Comparative Study on Game-Score Prediction Models Using Compuational Thinking Education Game Data (컴퓨팅 사고 교육 게임 데이터를 사용한 게임 점수 예측 모델 성능 비교 연구)

  • Yang, Yeongwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.529-534
    • /
    • 2021
  • Computing thinking is regarded as one of the important skills required in the 21st century, and many countries have introduced and implemented computing thinking training courses. Among computational thinking education methods, educational game-based methods increase student participation and motivation, and increase access to computational thinking. Autothinking is an educational game developed for the purpose of providing computational thinking education to learners. It is an adaptive system that dynamically provides feedback to learners and automatically adjusts the difficulty according to the learner's computational thinking ability. However, because the game was designed based on rules, it cannot intelligently consider the computational thinking of learners or give feedback. In this study, game data collected through Autothikning is introduced, and game score prediction that reflects computational thinking is performed in order to increase the adaptability of the game by using it. To solve this problem, a comparative study was conducted on linear regression, decision tree, random forest, and support vector machine algorithms, which are most commonly used in regression problems. As a result of the study, the linear regression method showed the best performance in predicting game scores.