• 제목/요약/키워드: Input Variable Selection

검색결과 67건 처리시간 0.025초

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

저수지 최적수질측정망 구축시스템 개발 및 적용 (Construction and Application of Network Design System for Optimal Water Quality Monitoring in Reservoir)

  • 이요상;권세혁;이상욱;반양진
    • 한국수자원학회논문집
    • /
    • 제44권4호
    • /
    • pp.295-304
    • /
    • 2011
  • 효과적인 수질관리를 위해서는 수질정보의 기대수준에 맞는 신뢰성 있는 수질자료가 확보되어야 한다. 이런 점에서 볼 때 수질모니터링은 조사지점, 수질항목, 측정주기 등이 성패의 중요한 요인이 되며, 이중에서 특히 조사지점은 가장 중요한 사항으로 판단된다. 그러나 지금까지 수질조사를 위한 관측지점은 대부분 정성적 판단에 따라 정해지고 있었기 때문에 수질 대표성이 문제가 되기도 하였다. 본 논문에서는 이와같은 수질측정망 구축 시 문제점을 과학적인 통계기법을 적용하여 개선한최적수질측정망구축시스템으로제시하였다. 구축된 최적수질측정망 구축시스템은 SAS 프로그램 버전 9.2를 기반으로 만들었으며, 이용자의사용편의성을 고려하여 간단한 입력으로 측정망을 구축할 수 있는 체계로 구성하였다. 분석 데이 터형식은 자료 입출력 및 관리가 용이한 엑셀데이터를 사용하도록 하였으며, 관측지점별 데이터는 시트로만 구별하게 하였다. 시스템에서는 시계열 분석과 유사성계산을 하여, 각 수질의 변화패턴을 고려할 수 있는 상관계수를 활용한 다차원척도법을 적용하여 그 결과를 덴드로그램으로 제시하며, 그 결과를 활용하여 군집 개수를 결정한다. 이용자가 최종 산점도 출력시스템에 원하는 군집의 개수를 입력하면 수질 특성 파악이 가능한 주성분 산점도가 출력되며, 군집 내 관측지점의 중심점을 대표지점으로 선정하면 된다.

유전 프로그래밍을 활용한 제조 빅데이터 분석 방법 연구 (Genetic Programming based Manufacutring Big Data Analytics)

  • 오상헌;안창욱
    • 스마트미디어저널
    • /
    • 제9권3호
    • /
    • pp.31-40
    • /
    • 2020
  • 현재 제조 분야 빅데이터 분석을 위하여 black-box 기반 기계 학습 알고리즘을 활용하고 있다. 해당 알고리즘은 높은 분석 정합성 가지는 장점이 있지만, 분석 결과에 대한 해석이 어렵다는 단점이 있다. 그러나 제조업에서는 분석 알고리즘은 제조 공정 원리 기반 해석을 통하여 결과의 근거 및 도출 타당성에 대한 검증이 중요하다. 이러한 기계 학습 알고리즘의 결과 설명력 한계를 극복하기 위하여 유전 프로그래밍을 활용한 제조 빅데이터 분석 방법을 제안한다. 본 알고리즘은 생물학적 진화유전 프로그래밍 알고리즘은 생물학적 진화를 모방한 진화 연산 (선택, 교배, 돌연변이) 반복하면서 최적의 해를 찾아간다. 그리고 해는 수학적 기호를 활용하여 변수 간의 관계로 나타나며, 가장 높은 설명력을 가지는 해가 최종적으로 선택된다. 이를 통하여 입력 및 출력 변수 관계 수식화를 통한 결과를 도출하므로 직관적인 제조 매카니즘에 대한 해석이 가능하며 또한 수식으로 나타낸 변수간의 관계 기반으로 기존 해석이 불가한 제조 원리 도출도 가능하다. 제안 기법은 대표적인 기계 학습 알고리즘과 성능을 비교 분석 결과 동등 또는 우수한 성능을 보였다. 향후 해당 기법을 통하여 다양한 제조 분야 활용 가능성을 검증하였다.

역전파 학습 알고리즘을 이용한 콘크리트와 부착된 FRP 판의 부착강도 모델 개발 (Development of Bond Strength Model for FRP Plates Using Back-Propagation Algorithm)

  • 박도경
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제10권2호
    • /
    • pp.133-144
    • /
    • 2006
  • FRP 판은 외부 부착된 보강 판의 효과적인 부착강도의 증진으로 실질적으로 부착강도에 대한 많은 연구가 수행되어왔다. 선행연구자들은 이러한 부착강도를 알아보기 위하여 다양한 변수를 설정하여 실험을 통하여 FRP 판의 부착강도를 규명하였다. 그러나, 이러한 부착강도를 알아보기 위한 실험은 장비구축의 비용과 시간 소비가 많이 되고 수행하기 어렵기 때문에 국한적으로 수행되고 있다. 본 연구는 선행연구자들의 부착실험 데이터를 다양한 신경망 모형과 알고리즘을 적용하여 최적의 인공신경망 모형을 개발하는데 그 목적이 있다. 인공신경망 모형의 출력층은 부착강도, 입력층은 FRP 판의 두께, 폭, 부착 길이, 탄성계수, 인장강도와 콘크리트의 압축강도, 인장강도, 폭을 변수로 선정하여 학습을 수행하였다. 개발된 인공신경망 모형은 역전파 학습 알고리즘을 적용하였으며, 오차는 0.001범위에 수렴되도록 학습을 하였다. 또한, 일반화 과정은 Bayesian 기법을 도입함으로써 보다 일반화된 방법으로 과대적합의 문제를 해소하였다. 개발된 모형의 검증은 학습에 이용되지 않은 다른 선행연구자들의 부착강도 결과 값과 비교함으로서 실시하였다.

기계학습 기반 모델을 활용한 시화호의 수질평가지수 등급 예측 (WQI Class Prediction of Sihwa Lake Using Machine Learning-Based Models)

  • 김수빈;이재성;김경태
    • 한국해양학회지:바다
    • /
    • 제27권2호
    • /
    • pp.71-86
    • /
    • 2022
  • 해양환경을 정량적으로 평가하기 위해 수질평가지수(water quality index, WQI)가 사용되고 있다. 우리나라는 해양수산부고시 해양환경기준에 따라 WQI를 5개 등급으로 구분하여 수질을 평가한다. 하지만, 방대한 수질 조사 자료에 대한 WQI 계산은 복잡하고 많은 시간이 요구된다. 이 연구는 기존의 조사된 수질 자료를 활용하여 WQI 등급을 예측할 수 있는 기계학습(machine learning, ML) 기반의 모델을 제안하고자 한다. 특별관리해역인 시화호를 모델링 지역으로 선정하였다. AdaBoost와 TPOT 알고리즘을 모델 훈련을 위해 사용하였으며, 분류 모델 평가 지표(정확도, 정밀도, F1, Log loss)로 모델 성능을 평가하였다. 훈련하기 전, 각 알고리즘 모델의 최적 입력자료 조합을 탐색하기 위해 변수 중요도와 민감도 분석을 수행하였다. 그 결과 저층 용존산소(dissolved oxygen, DO)는 모델의 성능에서 가장 중요한 인자였다. 반면, 표층 용존무기질소(dissolved inorganic nitrogen, DIN)와 표층 용존무기인(dissolved inorganic phosphorus, DIP)은 상대적으로 영향이 적었다. 한편, 최적 모델의 시공간적 민감도와 WQI 등급 별 민감도를 비교한 결과 각 조사 정점 및 시기, 등급 별 모델의 예측 성능이 상이하였다. 결론적으로 TPOT 알고리즘이 모든 입력자료 조합에서 성능이 더 우수하여 충분한 자료로 훈련된 최적 모델은 새로운 수질 조사 자료의 WQI 등급을 정확하게 분류할 수 있을 거라 판단된다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.