• Title/Summary/Keyword: 통계적 학습 모형

Search Result 78, Processing Time 0.039 seconds

Urban flood prediction through the linkage between the statistical characteristics of rainfall and the AI model (강우의 통계적 특성과 AI 모형의 연계를 통한 도시침수예측)

  • Lee, Yeonsu;Yoo, Jaehwan;Kim, Hyun-il;Kim, Byunghyun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.97-97
    • /
    • 2022
  • AI 모형을 적용한 도시지역 침수예측에 대한 연구는 꾸준히 수행되어 왔다. AI 모형을 이용해 도시침수예측을 하기 위해서는 모형에 강우자료를 학습시키게 되는데, 시계열 강우분포 자료를AI 모형의 학습자료로 사용하기에 자료의 양이 너무 많기 때문에 총 강우량만을 이용하여 도시침수예측을 수행한 바 있다(Kim et al., 2021). 하지만 총 강우량만을 AI 모형에 학습시킬 경우, 지속기간 동안 강우가 고르게 분포하는지 불규칙적으로 분포하는지에 대한 정보가 포함되지 않았기 때문에 침수예측력이 떨어질 수 있다. 따라서 본 연구에서는 시계열 강우자료의 통계치를 산정하여 AI 모형에 학습시킴으로써 강우분포특성을 고려한 침수예측을 통해 예측력을 높이고자 한다. 총 강우량만을 학습시킬 경우, 같은 지속시간에 같은 양의 강우가 내리더라도 고른 분포를 가진 강우에 의해서는 실제 침수는 작게 일어나므로 과대예측을, 전체 지속시간 중 특정 시간대에 편향된 분포를 가진 강우에 의해서는 실제 침수가 크게 일어나므로 과소예측을 하는 문제가 발생할 수 있다. 따라서 표준편차를 평균 강우량으로 나눈 값인 변동계수, 강우분포의 뾰족한 정도를 나타내는 첨도, 평균값에 대해 어느 방향으로 비대칭인지를 나타내는 왜도 값을 추가로 학습시킴으로써 시계열 강우자료 전체를 학습시키지 않고도 강우분포를 학습시키지 않았을 때 발생하는 과소·과대예측 문제를 해결할 수 있다. 또한 변동계수 대신 표준편차를 학습시키는 모형, 변동계수와 표준편차를 모두 학습시키지 않는 모형, 변동계수와 표준편차를 모두 학습시키는 모형과의 침수예측 결과 비교를 통해 표준편차와 변동계수 중 어떤 통계치를 학습시키는 것이 적합한지와 비슷한 통계치 자료를 모두 학습시켰을 때의 과적합 문제 등에 대한 결론를 얻을 수 있다.

  • PDF

A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms (기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.2
    • /
    • pp.171-177
    • /
    • 2011
  • Accuracy and computing time are considerable issues in machine learning. In general, the computing time for data analysis is increased in proportion to the size of given data. So, we need a sampling approach to reduce the size of training data. But, the accuracy of constructed model is decreased by going down the data size simultaneously. To solve this problem, we propose a new statistical sampling method having similar performance to the total data. We suggest a rule to select optimal sampling techniques according to given data structure. This paper shows a sampling method for reducing computing time with keeping the most of accuracy using cluster sampling, stratified sampling, and systematic sampling. We verify improved performance of proposed method by accuracy and computing time between sample data and total data using objective machine learning data sets.

Hybrid Statistical Learning Model for Intrusion Detection of Networks (네트워크 침입 탐지를 위한 변형된 통계적 학습 모형)

  • Jun, Sung-Hae
    • The KIPS Transactions:PartC
    • /
    • v.10C no.6
    • /
    • pp.705-710
    • /
    • 2003
  • Recently, most interchanges of information have been performed in the internet environments. So, the technuque, which is used as intrusion deleting tool for system protecting against attack, is very important. But, the skills of intrusion detection are newer and more delicate, we need preparations for defending from these attacks. Currently, lots of intrusion detection systemsmake the midel of intrusion detection rule using experienced data, based on this model they have the strategy of defence against attacks. This is not efficient for defense from new attack. In this paper, a new model of intrusion detection is proposed. This is hybrid statistical learning model using likelihood ratio test and statistical learning theory, then this model can detect a new attack as well as experienced attacks. This strategy performs intrusion detection according to make a model by finding abnomal attacks. Using KDD Cup-99 task data, we can know that the proposed model has a good result of intrusion detection.

Distributed Representation of Words with Semantic Hierarchical Information (의미적 계층정보를 반영한 단어의 분산 표현)

  • Kim, Minho;Choi, Sungki;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.941-944
    • /
    • 2017
  • 심층 학습에 기반을 둔 통계적 언어모형에서 가장 중요한 작업은 단어의 분산 표현(Distributed Representation)이다. 단어의 분산 표현은 단어 자체가 가지는 의미를 다차원 공간에서 벡터로 표현하는 것으로서, 워드 임베딩(word embedding)이라고도 한다. 워드 임베딩을 이용한 심층 학습 기반 통계적 언어모형은 전통적인 통계적 언어모형과 비교하여 성능이 우수한 것으로 알려져 있다. 그러나 워드 임베딩 역시 자료 부족분제에서 벗어날 수 없다. 특히 학습데이터에 나타나지 않은 단어(unknown word)를 처리하는 것이 중요하다. 본 논문에서는 고품질 한국어 워드 임베딩을 위하여 단어의 의미적 계층정보를 이용한 워드 임베딩 방법을 제안한다. 기존연구에서 제안한 워드 임베딩 방법을 그대로 활용하되, 학습 단계에서 목적함수가 입력 단어의 하위어, 동의어를 반영하여 계산될 수 있도록 수정함으로써 단어의 의미적 계층청보를 반영할 수 있다. 본 논문에서 제안한 워드 임베딩 방법을 통해 생성된 단어 벡터의 유추검사(analog reasoning) 결과, 기존 방법보다 5%가 증가한 47.90%를 달성할 수 있었다.

A Study on Construction of Back-propagation Architecture for ARMA data (ARMA 데이터에 대한 Back-propagation 신경망의 구조)

  • 김나영;김희영
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2000.11a
    • /
    • pp.17-22
    • /
    • 2000
  • 시계열 자료를 분석할 때 쉽게 접근하는 통계적 방법은 ARMA 모형이며 신경망 학습 방법 중에서는 다층 퍼셉트론에서의 Back-propagation 알고리즘이 일반적이다. Back-propagation을 비롯한 신경망 학습의 구조는 자료의 특성에 따라 경험적으로 결정하는 것으로 알려져 있다. 그러나 바로 이 점이 신경망 학습방법의 이용을 어렵게 하는 요인이기도 하다. 본 연구는 ARMA 모형 중 몇 개 유형의 자료에 대하여 Back-propagation 알고리즘을 적용함에 있어 어떠한 구조로 학습하는 것이 효율적인가를 입력층과 은닉층의 크기, 활성화 함수를 중심으로 검토하였다.

  • PDF

Design and implementation of Web Course_ware based on Simulation for statistical Inference Study (통계적 추론 학습을 위한 시뮬레이션 중심 웹 코스웨어의 설계와 구현)

  • Choi, Eun-Seon;Choi, Jin-Seek
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.113-118
    • /
    • 2006
  • 고등학교 수학과 교육과정에서의 ‘확률과 통계'단원은 실제로 자료의 수집과 요약을 통하여 자료 분석방법을 배우고 사회와 자연현상을 인식하고 추론하는 능력을 기르는데 목표를 두고 있다. 추상적인 수학내용을 직접 시도하거나 학생들이 실제적인 자료를 수집하고 직접 자료를 해석하고 추론해 보는 경험과정은 수학실험과 시뮬레이션이라는 컴퓨터 학습을 통해 가능하고 개념학습의 전 단계에서 보다 구성적이고 탐구적인 활동을 강화할 수 있다. 본 논문에서는 ‘확률과 통계'의 교수-학습과정에서 수학적 시뮬레이션을 활용한 웹 기반 학습모형을 제시하여 학습자들에게 수학적 내용과 관련된 구체적 매체를 조작하는 컴퓨터 실험 활동을 통하여 수학에서의 원리발견과 통계적 추론을 경험하고 유도할 수 있는 탐구적 학습 환경을 조성해 보고자 한다.

  • PDF

Vacant Technology Forecasting using Ensemble Model (앙상블모형을 이용한 공백기술예측)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.3
    • /
    • pp.341-346
    • /
    • 2011
  • A vacant technology forecasting is an important issue in management of technology. The forecast of vacant technology leads to the growth of nation and company. So, we need the results of technology developments until now to predict the vacant technology. Patent is an objective thing of the results in research and development of technology. We study a predictive method for forecasting the vacant technology quantitatively using patent data in this paper. We propose an ensemble model that is to vote some clustering criteria because we can't guarantee a model is optimal. Therefore, an objective and accurate forecasting model of vacant technology is researched in our paper. This model combines statistical analysis methods with machine learning algorithms. To verify our performance evaluation objectively, we make experiments using patent documents of diverse technology fields.

전통방식의 강좌와 가상강좌의 학습성취 비교에 관한 연구

  • 이석용;서창갑;김유일
    • Proceedings of the Korea Association of Information Systems Conference
    • /
    • 2000.11a
    • /
    • pp.22-28
    • /
    • 2000
  • 본 연구는 전통적인 방식의 강좌와 웹을 기반으로 하는 가상강좌를 수강하는 학습자 학습성취에 차이점이 있는지를 실증적인 비교를 통하여 확인하고자 한다. 동일한 과목을 전통방식의 강좌와 가상강좌 두 가지로 개설하고, 이를 수강하는 학습자 집단 각각의 학습성취 척도인 시험성적을 집계한 후, 두 집단간 차이점이 통계적인 유의성을 가지는가를 보고자 한다. 본 연구를 통하여 전통방식의 강좌와 가상강좌간의 학습성취를 비교하기 위한 효과적인 연구모형 설계에 도움이 될 것으로 본다.

  • PDF

Development of a Blended Learning Model using Differentiated Learning Pattern (수준별 학습 패턴을 적용한 블랜디드 러닝 모형의 개발)

  • Kim, Yong-Beom
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.3
    • /
    • pp.463-471
    • /
    • 2010
  • The purpose of this study is to articulate learning model based on achievement level in blended learning environment. In order to investigate the variables and mechanisms in the blended learning environment, we started by attempt to develop two questionnaires using the components of web-based instruction and self-regulated learning. And its results were implemented to represent the topology and directed merging path within components. 154 students at a high school were required to take each web course respectively for two weeks. And questionnaires data, achievement levels data were collected and analyzed. Various statistical analysis methods such as correlation analysis, classical multidimensional scaling, multiple regression analysis, were applied to the data. As an result, the topology and directed path within factors of blended learning process were derived and revised as a final model.

Development of a model to predict Operating Speed (주행속도 예측을 위한 모형 개발 (2차로 지방부 도로 중심으로))

  • 이종필;김성호
    • Journal of Korean Society of Transportation
    • /
    • v.20 no.1
    • /
    • pp.131-139
    • /
    • 2002
  • This study introduces a developed artificial neural networks(ANN) model as a more efficient and reliable prediction model in operating speed Prediction with the 85th percentile horizontal curve of two-way rural highway in the aspect of evaluating highway design consistency. On the assumption that the speed is decided by highway geometry features, total 30 survey sites were selected. Data include currie radius, curve length, intersection angle, sight distance, lane width, and lane of those sites and were used as input layer data of the ANN. The optimized model structure was drawn by number of unit of hidden layer, learning coefficient, momentum coefficient, and change in learning frequency in multi-layer a ANN model. To verify learning Performance of ANN, 30 survey sites were selected while data in obtained from the 20 cites were used as learning data and those from the remaining 10 sites were used as predictive data. As a result of statistical verification, the model D of 4 types of ANN was evaluated as the most similar model to the actual operating speed value: R2 was 85% and %RMSE was 0.0204.