• 제목/요약/키워드: Learning Analytics

검색결과 168건 처리시간 0.021초

분산 딥러닝 모델 개발을 위한 고수준 분석 플랫폼 (High-level Analytics Platform for Development of Distributed Deep Learning Model)

  • 박경석;유찬희;;엄정호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.804-806
    • /
    • 2020
  • 딥러닝(deep learning)은 기계학습 알고리즘 중 가장 널리 활용되고 있는 알고리즘이다. 딥러닝 기술은 산업, 과학, 국방 및 공공 부문을 비롯하여 거의 모든 분야에서 폭넓게 확산되고 있다. 그러나 기계학습 기술에 대한 이해와 프로그래밍 지식이 부족할 경우 자유롭게 활용하는 데는 제약이 따르고 있으며 빅데이터를 활용하여 일반 이용자들이 직접 분산 학습 모형을 개발하고 배포하는 데 어려움이 발생하고 있다. 이러한 요구를 충족시키기 위해 딥러닝 프레임워크의 저수준 API를 추상화하여 고수준 분석과 분산 딥러닝을 지원하고 일반 이용자들이 실무적으로 복잡한 딥러닝 기술을 활용할 수 있는 기술을 개발하였다. 플랫폼 개발과 함께 중요하게 고려해야 하는 요소 중 하나로 플랫폼의 배포와 확장성 역시 고려되어야 한다. 본 플랫폼은 조직 내 계산 자원을 이용하여 플랫폼을 배포할 수 있으며 상용 클라우드 서비스와 연동하여 배포할 수 있도록 설계됨에 따라 환경의 제약 없이 유연한 서비스 제공이 가능하다.

A Computational Intelligence Based Online Data Imputation Method: An Application For Banking

  • Nishanth, Kancherla Jonah;Ravi, Vadlamani
    • Journal of Information Processing Systems
    • /
    • 제9권4호
    • /
    • pp.633-650
    • /
    • 2013
  • All the imputation techniques proposed so far in literature for data imputation are offline techniques as they require a number of iterations to learn the characteristics of data during training and they also consume a lot of computational time. Hence, these techniques are not suitable for applications that require the imputation to be performed on demand and near real-time. The paper proposes a computational intelligence based architecture for online data imputation and extended versions of an existing offline data imputation method as well. The proposed online imputation technique has 2 stages. In stage 1, Evolving Clustering Method (ECM) is used to replace the missing values with cluster centers, as part of the local learning strategy. Stage 2 refines the resultant approximate values using a General Regression Neural Network (GRNN) as part of the global approximation strategy. We also propose extended versions of an existing offline imputation technique. The offline imputation techniques employ K-Means or K-Medoids and Multi Layer Perceptron (MLP)or GRNN in Stage-1and Stage-2respectively. Several experiments were conducted on 8benchmark datasets and 4 bank related datasets to assess the effectiveness of the proposed online and offline imputation techniques. In terms of Mean Absolute Percentage Error (MAPE), the results indicate that the difference between the proposed best offline imputation method viz., K-Medoids+GRNN and the proposed online imputation method viz., ECM+GRNN is statistically insignificant at a 1% level of significance. Consequently, the proposed online technique, being less expensive and faster, can be employed for imputation instead of the existing and proposed offline imputation techniques. This is the significant outcome of the study. Furthermore, GRNN in stage-2 uniformly reduced MAPE values in both offline and online imputation methods on all datasets.

Building Energy Time Series Data Mining for Behavior Analytics and Forecasting Energy consumption

  • Balachander, K;Paulraj, D
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.1957-1980
    • /
    • 2021
  • The significant aim of this research has always been to evaluate the mechanism for efficient and inherently aware usage of vitality in-home devices, thus improving the information of smart metering systems with regard to the usage of selected homes and the time of use. Advances in information processing are commonly used to quantify gigantic building activity data steps to boost the activity efficiency of the building energy systems. Here, some smart data mining models are offered to measure, and predict the time series for energy in order to expose different ephemeral principles for using energy. Such considerations illustrate the use of machines in relation to time, such as day hour, time of day, week, month and year relationships within a family unit, which are key components in gathering and separating the effect of consumers behaviors in the use of energy and their pattern of energy prediction. It is necessary to determine the multiple relations through the usage of different appliances from simultaneous information flows. In comparison, specific relations among interval-based instances where multiple appliances use continue for certain duration are difficult to determine. In order to resolve these difficulties, an unsupervised energy time-series data clustering and a frequent pattern mining study as well as a deep learning technique for estimating energy use were presented. A broad test using true data sets that are rich in smart meter data were conducted. The exact results of the appliance designs that were recognized by the proposed model were filled out by Deep Convolutional Neural Networks (CNN) and Recurrent Neural Networks (LSTM and GRU) at each stage, with consolidated accuracy of 94.79%, 97.99%, 99.61%, for 25%, 50%, and 75%, respectively.

영화 관객 수 예측을 위한 기계학습 기법의 성능 평가 연구 (A Study on the Performance Evaluation of Machine Learning for Predicting the Number of Movie Audiences)

  • 정찬미;민대기
    • 한국전자거래학회지
    • /
    • 제25권2호
    • /
    • pp.49-63
    • /
    • 2020
  • 영화 제작에 막대한 비용이 투입되지만 관객수요는 매우 불확실하기 때문에 개선된 수요예측은 수익 개선을 위한 의사결정의 중요 수단으로 활용될 수 있다. 본 연구에서는 영화의 개봉 후 수요를 예측함에 있어 기계학습 기법의 적용 타당성을 예측 성능의 관점에서 검증하였다. 분석결과를 종합하면 다음과 같다. 첫째, 대안변수에 대한 통계적 검증 결과 기본 영화 특성(감독, 배우)과 함께 개봉 후 2주차까지의 스크린수, 상영횟수, 관객수, 주요 배우에 대한 관심도 등 시계열 자료가 수요예측에 유의미한 것을 확인하였다. 둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.

시설물의 유지관리를 위한 기계학습 기반 콘크리트 균열 감지 프레임워크 (Machine Learning-based Concrete Crack Detection Framework for Facility Maintenance)

  • 지봉준
    • 한국지반환경공학회 논문집
    • /
    • 제22권10호
    • /
    • pp.5-12
    • /
    • 2021
  • 시설물의 노후화는 피할 수 없는 현상이다. 노후화된 시설물의 관리를 위해 균열을 감지하고 이를 추적하면서 시설물의 상태를 간접적으로 추론할 수 있다. 따라서 균열 감지는 노후화된 시설물의 관리를 위해 필수적 역할을 하며 감지 결과를 바탕으로 더 이상의 노후화를 막기 위한 활동을 할 수 있다. 하지만, 현재 대부분의 균열 감지는 전문가의 판단에만 의존하기에 시설물의 면적이 큰 경우 비용과 시간이 과도하게 사용되고, 전문가의 역량에 따라 다른 판단 결과가 발생할 수 있어 신뢰성에 문제가 있었다. 본 논문에서는 이러한 한계를 극복하기 위해 기계학습 기반의 콘크리트 균열 감지 프레임워크를 제안한다. 제안된 프레임워크는 데이터 분류, 기계학습 모델 학습, 학습된 모델의 검증과 테스트를 포함하는 프레임워크로 완전 자동화된 콘크리트 균열 감지가 가능하다. 제안된 프레임워크를 통해 학습된 기계학습 모델은 콘크리트 균열 이미지와 정상 이미지를 96%의 높은 정확도로 분류할 수 있었다. 본 논문에서 제안된 프레임워크를 적용하여 기존의 전문가 중심의 시설물 유지관리보다 더욱 효과적이고 효율적인 시설물의 유지관리가 가능할 것으로 기대된다.

인적요인을 고려한 머신러닝 활용 산림화재 예측 (Predicting Forest Fires Using Machine Learning Considering Human Factors)

  • 장진명;김주찬;김화중;김광태
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.109-126
    • /
    • 2023
  • 대형 산림화재를 예방하기 위해 산림화재의 조기발견은 매우 중요하다. 조기발견을 위한 하나의 방안으로 산림화재 발생 예측이 고려되고 있으며 다양한 관련 연구가 진행되었다. 그러나 대다수의 선행연구가 산림화재의 주요 발화 원인 중의 하나인 인적요인을 고려하지 않고 기상요인과 지리적 요인만을 주로 다루고 있다. 따라서 본 연구는 기상 및 지리적 요인뿐만 아니라 인적요인을 고려한 산림화재 예측모형을 개발하기 위해 2003년부터 2020년까지의 강원도 산림화재 데이터를 활용하여 로지스틱 회귀모형과 다양한 머신러닝 기법 기반의 예측모형을 개발하고 성능을 비교분석하였다. 성능분석 결과, 머신러닝 기법인 랜덤 포레스트(AUC=0.920)와 XG Boost 모형(AUC=0.925)이 가장 우수한 성능을 나타냈다. 운영시사점을 도출하기 위해 순열특성중요도 분석을 활용하여 요인들의 상대적 중요도를 분석하였으며, 기상요인이 인적요인보다 높은 영향도를 나타냈지만 다양한 인적요인도 유효한 것으로 확인되었다.

프로세스 마이닝과 딥러닝을 활용한 구매 프로세스의 적기 입고 예측에 관한 연구 (Exploring the Prediction of Timely Stocking in Purchasing Process Using Process Mining and Deep Learning)

  • 강영식;이현우;김병수
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.25-41
    • /
    • 2018
  • 예측 분석을 전사 프로세스에 적용하는 것은 운영비용을 절감하고 생산성을 증대시킬 수 있는 효과적 방법이다. 이에 따라 비즈니스 프로세스의 행동과 성과지표를 예측하는 능력이 기업의 핵심역량으로 간주되고 있다. 최근에 순환신경망 형태의 딥러닝을 이용한 프로세스 예측 연구가 큰 관심을 받고 있다. 특히, 순환신경망을 이용하여 다음 단계의 액티비티를 예측하는 접근법이 우수한 결과를 내고 있다. 그러나 동적 순환신경망 형태의 딥러닝을 프로세스 성과지표의 예측에 적용한 연구는 부재한 상황이다. 이러한 지식의 공백을 메우기 위해 본 연구는 프로세스 마이닝과 동적 순환신경망 형태의 딥러닝을 이용하는 접근법을 개발했다. 국내 대기업의 실제 데이터를 활용하여 구매 프로세스의 중요한 성과지표인 적기 입고 예측에 개발된 접근법을 적용했다. 본 연구의 실험 방법과 결과, 연구의 시사점과 한계점이 제시되었다.

Supramax Bulk Carrier Market Forecasting with Technical Indicators and Neural Networks

  • Lim, Sang-Seop;Yun, Hee-Sung
    • 한국항해항만학회지
    • /
    • 제42권5호
    • /
    • pp.341-346
    • /
    • 2018
  • Supramax bulk carriers cover a wide range of ocean transportation requirements, from major to minor bulk cargoes. Market forecasting for this segment has posed a challenge to researchers, due to complexity involved, on the demand side of the forecasting model. This paper addresses this issue by using technical indicators as input features, instead of complicated supply-demand variables. Artificial neural networks (ANN), one of the most popular machine-learning tools, were used to replace classical time-series models. Results revealed that ANN outperformed the benchmark binomial logistic regression model, and predicted direction of the spot market with more than 70% accuracy. Results obtained in this paper, can enable chartering desks to make better short-term chartering decisions.

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

Crime hotspot prediction based on dynamic spatial analysis

  • Hajela, Gaurav;Chawla, Meenu;Rasool, Akhtar
    • ETRI Journal
    • /
    • 제43권6호
    • /
    • pp.1058-1080
    • /
    • 2021
  • Crime is not a completely random event but rather shows a pattern in space and time. Capturing the dynamic nature of crime patterns is a challenging task. Crime prediction models that rely only on neighborhood influence and demographic features might not be able to capture the dynamics of crime patterns, as demographic data collection does not occur frequently and is static. This work proposes a novel approach for crime count and hotspot prediction to capture the dynamic nature of crime patterns using taxi data along with historical crime and demographic data. The proposed approach predicts crime events in spatial units and classifies each of them into a hotspot category based on the number of crime events. Four models are proposed, which consider different covariates to select a set of independent variables. The experimental results show that the proposed combined subset model (CSM), in which static and dynamic aspects of crime are combined by employing the taxi dataset, is more accurate than the other models presented in this study.