• 제목/요약/키워드: Business Performance Prediction

검색결과 262건 처리시간 0.025초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

다중모델을 이용한 자동차 보험 고객의 이탈예측 (Customer Churn Prediction of Automobile Insurance by Multiple Models)

  • 이재식;이진천
    • 지능정보연구
    • /
    • 제12권2호
    • /
    • pp.167-183
    • /
    • 2006
  • 데이터마이닝은 우리가 완벽하게 알고 있지 못하는 데이터 집합으로부터 알려지지 않은 사실이나 규칙을 찾아내는 작업이기 때문에 항상 높은 오류율의 위험에 처해 있다. 다중모델은 하나의 문제에 다수의 모델을 사용함으로써 오류율을 줄이고자 하는 접근 방법이다. 본 연구에서는 데이터마이닝의 예측 성능을 개선시킬 수 있는 새로운 방식의 다중모델을 제시한다. 이 다중모델은 입력사례의 특성에 따라 그에 적합하게 개발된 모델이 선정되어 적용되는 특징을 가지고 있다. 제시된 다중모델의 현실적인 성능 검증을 위해 국내 자동차 보험 가입 고객의 이탈 예측 문제에 적용하여, 그 결과를 단일모델의 결과와 비교 평가하였다. 비교 대상 단일모델로는, 사례기반추론, 인공신경망, 의사결정나무 등이 사용되었는데, 다중모델의 예측 성능이 어떤 단일모델의 예측 성능보다 우수한 것으로 나타났다.

  • PDF

머신러닝 기반의 기업가치 예측 모형: 온라인 기업리뷰를 활용하여 (Machine Learning based Firm Value Prediction Model: using Online Firm Reviews)

  • 이한준;신동원;김희은
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.79-86
    • /
    • 2021
  • 빅데이터 분석의 유용성이 주목을 받으면서 경영학 분야에서도 이를 활용하여 기업의 성과를 예측하고자 하는 다양한 연구들이 진행되고 있다. 이러한 선행연구들은 주로 뉴스 기사나 SNS 등 기업 외부의 자료에 의존하고 있다. 직원의 만족도나 기업에 대한 직원의 인식, 장단점 평가와 같은 기업 내부의 목소리는 기업가치에 대한 잠재적인 영향력에도 불구하고 상대적으로 확보가 어려워 관련 연구가 아직 충분치 못하다. 이에 본 연구에서는 국내 유가증권시장 상장 기업을 대상으로 임직원의 기업리뷰가 기업가치에 미치는 영향을 살펴보고, 이를 기반으로 기업가치를 예측하는 모형을 구축하고자 한다. 이를 위해 온라인 기업리뷰 사이트인 잡플래닛(Jobplanet)에 2014년부터 2019년까지 전·현직원이 남긴 97,216건의 기업리뷰를 수집하고 동 데이터에 근거하여 머신러닝 기반의 예측 모형을 제안하였다. 제안한 모형 중 LSTM 기반 모형의 정확도가 73.2%로 가장 높았고 MAE 또한 0.359로 가장 낮은 오차를 보였다. 본 연구는 국내에서 머신러닝을 활용한 기업가치 연구 분야에 유용한 사례가 될 것으로 기대한다.

Deep Learning-based Pes Planus Classification Model Using Transfer Learning

  • Kim, Yeonho;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.21-28
    • /
    • 2021
  • 본 연구는 기존 편평발 측정을 위해 사용되던 다양한 방법의 한계를 보완할 수 있는 새로운 측정 방법으로 전이학습을 적용한 딥러닝 기반 편평발 분류 방법론을 제안한다. 편평발 88장, 정상발 88장으로 이루어진 총 176장의 이미지 데이터를 활용하여, 적은 데이터로도 우수한 예측 모델을 생성할 수 있는 데이터 증폭 기술과 사전학습 모델인 VGG16 구조를 활용하는 전이학습 기술을 적용하여 제안 모델의 학습을 진행하였다. 제안 모델의 우수성을 확인하기 위하여 기본 CNN 기반 모델과 제안 방법론의 예측 정확도를 비교하는 실험을 수행하였다. 기본 CNN 모델의 경우 훈련 정확도는 77.27%, 검증 정확도는 61.36%, 그리고 시험 정확도는 59.09%로 나타났으며, 제안 모델의 경우 훈련 정확도는 94.32%, 검증 정확도는 86.36%, 그리고 시험 정확도는 84.09%로 나타나 기본 CNN 모델에 비해 제안 모델의 정확도가 큰 폭으로 향상된 것을 확인하였다.

보다 정확한 동적 상황인식 추천을 위해 정확 및 오류 패턴을 활용하여 순차적 매칭 성능이 개선된 상황 예측 방법 (Context Prediction Using Right and Wrong Patterns to Improve Sequential Matching Performance for More Accurate Dynamic Context-Aware Recommendation)

  • 권오병
    • Asia pacific journal of information systems
    • /
    • 제19권3호
    • /
    • pp.51-67
    • /
    • 2009
  • Developing an agile recommender system for nomadic users has been regarded as a promising application in mobile and ubiquitous settings. To increase the quality of personalized recommendation in terms of accuracy and elapsed time, estimating future context of the user in a correct way is highly crucial. Traditionally, time series analysis and Makovian process have been adopted for such forecasting. However, these methods are not adequate in predicting context data, only because most of context data are represented as nominal scale. To resolve these limitations, the alignment-prediction algorithm has been suggested for context prediction, especially for future context from the low-level context. Recently, an ontological approach has been proposed for guided context prediction without context history. However, due to variety of context information, acquiring sufficient context prediction knowledge a priori is not easy in most of service domains. Hence, the purpose of this paper is to propose a novel context prediction methodology, which does not require a priori knowledge, and to increase accuracy and decrease elapsed time for service response. To do so, we have newly developed pattern-based context prediction approach. First of ail, a set of individual rules is derived from each context attribute using context history. Then a pattern consisted of results from reasoning individual rules, is developed for pattern learning. If at least one context property matches, say R, then regard the pattern as right. If the pattern is new, add right pattern, set the value of mismatched properties = 0, freq = 1 and w(R, 1). Otherwise, increase the frequency of the matched right pattern by 1 and then set w(R,freq). After finishing training, if the frequency is greater than a threshold value, then save the right pattern in knowledge base. On the other hand, if at least one context property matches, say W, then regard the pattern as wrong. If the pattern is new, modify the result into wrong answer, add right pattern, and set frequency to 1 and w(W, 1). Or, increase the matched wrong pattern's frequency by 1 and then set w(W, freq). After finishing training, if the frequency value is greater than a threshold level, then save the wrong pattern on the knowledge basis. Then, context prediction is performed with combinatorial rules as follows: first, identify current context. Second, find matched patterns from right patterns. If there is no pattern matched, then find a matching pattern from wrong patterns. If a matching pattern is not found, then choose one context property whose predictability is higher than that of any other properties. To show the feasibility of the methodology proposed in this paper, we collected actual context history from the travelers who had visited the largest amusement park in Korea. As a result, 400 context records were collected in 2009. Then we randomly selected 70% of the records as training data. The rest were selected as testing data. To examine the performance of the methodology, prediction accuracy and elapsed time were chosen as measures. We compared the performance with case-based reasoning and voting methods. Through a simulation test, we conclude that our methodology is clearly better than CBR and voting methods in terms of accuracy and elapsed time. This shows that the methodology is relatively valid and scalable. As a second round of the experiment, we compared a full model to a partial model. A full model indicates that right and wrong patterns are used for reasoning the future context. On the other hand, a partial model means that the reasoning is performed only with right patterns, which is generally adopted in the legacy alignment-prediction method. It turned out that a full model is better than a partial model in terms of the accuracy while partial model is better when considering elapsed time. As a last experiment, we took into our consideration potential privacy problems that might arise among the users. To mediate such concern, we excluded such context properties as date of tour and user profiles such as gender and age. The outcome shows that preserving privacy is endurable. Contributions of this paper are as follows: First, academically, we have improved sequential matching methods to predict accuracy and service time by considering individual rules of each context property and learning from wrong patterns. Second, the proposed method is found to be quite effective for privacy preserving applications, which are frequently required by B2C context-aware services; the privacy preserving system applying the proposed method successfully can also decrease elapsed time. Hence, the method is very practical in establishing privacy preserving context-aware services. Our future research issues taking into account some limitations in this paper can be summarized as follows. First, user acceptance or usability will be tested with actual users in order to prove the value of the prototype system. Second, we will apply the proposed method to more general application domains as this paper focused on tourism in amusement park.

스펙트럼 분석과 계절성 선형 모델을 이용한 Intra-Day 콜센터 통화량예측 (Spectral Analysis Accompanied with Seasonal Linear Model as Applied to Intra-Day Call Prediction)

  • 신택수;김명석
    • 응용통계연구
    • /
    • 제24권2호
    • /
    • pp.217-225
    • /
    • 2011
  • 본 논문에서는 스펙트럼 분석과 계절성 선형 모델을 이용하여 intra,-day 콜센터 통화량 예측에 필요한 계절성 변수를 찾아내는 방법을 제시한다. 제시한 방법을 북미 지역의 어느 은행의 5분 단위 콜센터 통화량에 실증 적용하여 기존의 통계적 방법으로는 입증할 수 없었던 월 단위 계절성 변수가 유의함을 보인다. 새로이 찾아진 연수가 intra-day 콜센터 통화량 예측능력을 향상시키는지 확인하기 위해서 새로운 변수를 포함하는 계절성 선형 모델과 이 변수를 포함하지 않은 계절성 선형 모델의 익일 통화량 예측능력을 비교 평가한다. 평가결과 새로운 변수를 포함한 모델이 우수하다는 결과를 얻었다.

Biological Feature Selection and Disease Gene Identification using New Stepwise Random Forests

  • Hwang, Wook-Yeon
    • Industrial Engineering and Management Systems
    • /
    • 제16권1호
    • /
    • pp.64-79
    • /
    • 2017
  • Identifying disease genes from human genome is a critical task in biomedical research. Important biological features to distinguish the disease genes from the non-disease genes have been mainly selected based on traditional feature selection approaches. However, the traditional feature selection approaches unnecessarily consider many unimportant biological features. As a result, although some of the existing classification techniques have been applied to disease gene identification, the prediction performance was not satisfactory. A small set of the most important biological features can enhance the accuracy of disease gene identification, as well as provide potentially useful knowledge for biologists or clinicians, who can further investigate the selected biological features as well as the potential disease genes. In this paper, we propose a new stepwise random forests (SRF) approach for biological feature selection and disease gene identification. The SRF approach consists of two stages. In the first stage, only important biological features are iteratively selected in a forward selection manner based on one-dimensional random forest regression, where the updated residual vector is considered as the current response vector. We can then determine a small set of important biological features. In the second stage, random forests classification with regard to the selected biological features is applied to identify disease genes. Our extensive experiments show that the proposed SRF approach outperforms the existing feature selection and classification techniques in terms of biological feature selection and disease gene identification.

마찰 에너지 해석을 통한 러버 트랙(Rubber Track)의 마모율 예측 (Prediction of Wear Rate for Rubber Track by Using Frictional Energy Analysis)

  • 강종진;조진래;정의봉
    • 한국자동차공학회논문집
    • /
    • 제19권5호
    • /
    • pp.125-133
    • /
    • 2011
  • The wear of rubber track being in contact with the road surface is an important subject because it decreases the traction performance and the operating efficiency of tracked vehicle. For the above reasons, many attempts have been made to quantitatively calculate the rubber track. However, it depends on the experimental methods which are highly time- and cost-consuming. Therefore, the numerical simulation approach is highly desirable, but it needs to model the complex geometry and the material behavior in details as well as the interaction with the road surface. In this study, the rubber track and its material behavior are elaborately modeled since these factors are very important in the prediction of the wear rate of the rubber track. Accordingly to the studies on the rubber wear by previous investigations, it has been found that the wear is greatly influenced by the frictional energy. The frictional energy of rubber track is computed by utilizing the 3D finite element analysis of the rubber track, and the wear rate is evaluated making use of the frictional energy and a wear model.

Wine Quality Classification with Multilayer Perceptron

  • Agrawal, Garima;Kang, Dae-Ki
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제10권2호
    • /
    • pp.25-30
    • /
    • 2018
  • This paper is about wine quality classification with multilayer perceptron using the deep neural network. Wine complexity is an issue when predicting the quality. And the deep neural network is considered when using complex dataset. Wine Producers always aim high to get the highest possible quality. They are working on how to achieve the best results with minimum cost and efforts. Deep learning is the possible solution for them. It can help them to understand the pattern and predictions. Although there have been past researchers, which shows how artificial neural network or data mining can be used with different techniques, in this paper, rather not focusing on various techniques, we evaluate how a deep learning model predicts for the quality using two different activation functions. It will help wine producers to decide, how to lead their business with deep learning. Prediction performance could change tremendously with different models and techniques used. There are many factors, which, impact the quality of the wine. Therefore, it is a good idea to use best features for prediction. However, it could also be a good idea to test this dataset without separating these features. It means we use all features so that the system can consider all the feature. In the experiment, due to the limited data set and limited features provided, it was not possible for a system to choose the effective features.

순환 심층 신경망 모델을 이용한 전용회선 트래픽 예측 (Leased Line Traffic Prediction Using a Recurrent Deep Neural Network Model)

  • 이인규;송미화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.391-398
    • /
    • 2021
  • 전용회선은 데이터 전송에 있어서 연결된 두 지역을 독점적으로 사용하는 구조이기 때문에 안정된 품질수준과 보안성이 확보되어 교환회선의 급격한 증가에도 불구하고 기업 내부에서는 지속적으로 많이 사용하는 회선 방식이다. 하지만 비용이 상대적으로 고가이기 때문에 기업 내 네트워크 운영자의 중요한 역할 중의 하나는 네트워크 전용회선의 자원을 적절히 배치하고 활용하여 최적의 상태를 유지하는 것이 중요한 요소이다. 즉, 비즈니스 서비스 요구 사항을 적절히 지원하기 위해서는 데이터 전송 관점에서 전용회선의 대역폭 자원에 대한 적절한 관리가 필수적이며 전용회선 사용량을 적절히 예측하고 관리하는 것이 핵심 요소가 된다. 이에 본 연구에서는 기업 네트워크에서 사용하는 전용회선의 실제 사용률 데이터를 기반으로 다양한 예측 모형을 적용하고 성능을 평가하였다. 일반적으로 통계적인 방법으로 많이 사용하는 평활화 기법 및 ARIMA 모형과 요즘 많은 연구가 되고 있는 인공신경망에 기반한 딥러닝의 대표적인 모형들을 적용하여 각각의 예측에 대한 성능을 측정하고 비교하였다. 또한, 실험결과에 기초하여 전용회선 자원의 효과적인 운영 관점에서 각 모형이 예측에 대하여 좋은 성능을 내기 위하여 고려해야 할 사항을 제안하였다.