• 제목/요약/키워드: Credit classification

검색결과 110건 처리시간 0.022초

신용카드 사기 검출을 위한 비용 기반 학습에 관한 연구 (Cost-sensitive Learning for Credit Card Fraud Detection)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.545-551
    • /
    • 2005
  • 사기 검출의 주목적은 사기 거래로 인해 발생하는 손실을 최소화하는 것이다. 하지만, 사기 검출 문제의 특이한 속성, 즉 불균형하고 중첩이 심한 클래스 분포와 비균일한 오분류 비용으로 인해, 실제로 희망하는 거절율 동작 영역에서의 분류비용 측면의 최적 분류기를 생성하는 것이 용이하지 않다. 본 논문에서는, 특정 동작 영역에서의 분류기의 분류 비용을 정의하고, 진화 탐색을 이용하여 이를 직접적으로 최적화함으로써, 실제 신용카드 사기 검출에 적합한 분류기를 학습할 수 있는 비용 기반 학습 방법을 제시한다. 신용카드 거래 데이터를 사용한 실험을 통해, 제시한 방법이 타 학습 방법에 비해 비용에 민감한 분류기를 학습할 수 있는 효과적인 방법임을 보인다.

분류모형을 이용한 여신회사 고객대출 분석에 관한 연구 (A study on the analysis of customer loan for the credit finance company using classification model)

  • 김태형;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.411-425
    • /
    • 2013
  • 데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

The Hybrid Systems for Credit Rating

  • Goo, Han-In;Jo, Hong-Kyuo;Shin, Kyung-Shik
    • 한국경영과학회지
    • /
    • 제22권3호
    • /
    • pp.163-173
    • /
    • 1997
  • Although numerous studies demonstrate that one technique outperforms the others for a given data set, it is hard to tell a priori which of these techniques will be the most effective to solve a specific problem. It has been suggested that the better approach to classification problem might be to integrate several different forecasting techniques by combining their results. The issues of interest are how to integrate different modeling techniques to increase the predictive performance. This paper proposes the post-model integration method, which tries to find the best combination of the results provided by individual techniques. To get the optimal or near optimal combination of different prediction techniques, Genetic Algorithms (GAs) are applied, which are particularly suitable for multi-parameter optimization problems with an object function subject to numerous hard and soft constraints. This study applies three individual classification techniques (Discriminant analysis, Logit model and Neural Networks) as base models for the corporate failure prediction. The results of composite predictions are compared with the individual models. Preliminary results suggests that the use of integrated methods improve the performance of business classification.

  • PDF

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.

비용곡선과 ROC곡선에서의 비용비율 (Cost Ratios for Cost and ROC Curves)

  • 홍종선;유현상
    • Communications for Statistical Applications and Methods
    • /
    • 제17권6호
    • /
    • pp.755-765
    • /
    • 2010
  • 혼합분포의 분류문제에서 비용함수를 고려한 분류점은 최소 기대비용이라는 측면에서 최적이다. 비용에 관한 어떠한 정보가 주어지지 않은 경우에 ROC곡선을 이용하여 분류정확도 측도인 전체정확도와 진실율이 최대일 때의 분류점에 대응하는 기대비용에서의 비용비율을제안하고, 최소 기대비용의 비용비율과의 관계를 설명한다. 그리고 비용곡선을 이용하여 분류정확도 측도들에 기반하는 최소 기대비용에서의 비용비율을 제안하였고 이 비용비율은 대표적인 두 종류의 분류정확도가 최대일 때의 기대비용에 대한 비용비율들 사이에 존재하며, 최소 기대비용에서의 비용비율에 수렴하는 것을 발견하였다. 본 연구는 기대비용과 정규화된 기대비용을 최소화할 때의 비용비율과 분류정확도가 최대일 때의 비용비율들의 관계를 토론한다.

국내대학의 학술논문 공동연구 기여도 산정 기준 비교 분석 (Comparative Analysis of Korean Universities' Co-author Credit Allocation Standards on Journal Publications)

  • 이혜경;양기덕
    • 한국도서관정보학회지
    • /
    • 제46권4호
    • /
    • pp.191-205
    • /
    • 2015
  • 본 연구는 보편적이고 타당한 학술논문 공동연구 기여도 산정 기준의 개발을 도모하기 위하여, 국내대학의 교수연구업적평가 중 학술논문 공동연구 기여도 산정 기준을 분석하였다. 국내 문헌정보학과가 포함된 종합대학 27개교의 규정과 189명의 국내 교수들의 2001년~2014년간의 학술논문 데이터를 수집하여 첫 번째 학교기준들을 비교하였으며, 두번째 공동연구의 기여도 세 가지 산정식(Inflated, Harmonic, Fractional)과 학교기준을 적용하여 도출한 순위를 통계적으로 분석하였다. 계량서지학의 대표적인 공동연구 기여도 기준(i.e Vinkler)과 가장 유사한 기준은 기여도 총합이 1인 학교기준이었으며, 국내의 저자역할은 제1저자, 교신저자, 공동저자로만 구분하하고 있었다. 한편 순위의 통계분석 결과, 학교기준과 가장 유사한 기준은 Harmonic 방식이었으나, 학교기준 중 1보다 큰 기준과 Harmonic방식이 순위 상관이 상대적으로 차이가 나타났으며, 이러한 결과는 논문의 수가 중간수준인 저자일 경우, 산정식 형태에 따라 기여도 순위가 변동될 수 있음을 추측 할 수 있었다. 그러나 공동연구에서 가장 많은 기여도를 받는 학교기준을 적용할지라도 단독연구만큼의 기여도는 받지 못하였으며, 이는 연구자들이 공동연구를 기피하고 지양하는 한 요소가 될 수도 있다. 이에 타당한 공동연구 기여도 측정 개발을 위하여 정성적 연구방법을 포함한 후속연구가 지속 되어야 한다.

정규혼합분포에서 최소오류의 분류정확도 측도 (Classification accuracy measures with minimum error rate for normal mixture)

  • 홍종선;;홍선우;김강천
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.619-630
    • /
    • 2011
  • 본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다. 다양한 정규혼합분포의 상황에서 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 구하여 각각의 오류율이 최소인 경우를 탐색적으로 살펴본다. 현실자료에 적합한 정규혼합분포를 추정하여 본 연구 결과를 적용하면 최소 오류율이 보장되는 분류정확도를 선택할 수 있으며, 이를 사용하여 모형의 판별력을 향상시킬 수 있다.

뇌 구조 분석을 위한 연속적인 퍼지 분할법과 구획화 방법의 개선 (Successive Fuzzy Classification and Improved Parcellation Method for Brain Anlaysis)

  • 윤의철;황진우;김재석;김재진;김인영;권준수;김선일
    • 대한의용생체공학회:의공학회지
    • /
    • 제22권5호
    • /
    • pp.377-384
    • /
    • 2001
  • 일반적으로 정신질환인 경우 뇌의 미세한 이상이 있는 것으로 알려져 있어 자기공명영상의 시각적 분석에서 뇌의 구조적 이상을 밝히는 데 한계가 있다. 따라서 특정 부위의 용적이나 모양의 이상을 통하여 정신질환의 뇌 구조적 이상을 연구하는 것이 일반적이다 이러한 경우 뇌 자기공명영상은 조직간의 경계가 불분명하여 뇌 구조 분석의 신뢰도는 조직별 분할의 정확성이 좌우한다 본 논문에서는 뇌 자기공명영상의 특성에 적합한 퍼지 분할법을 반복적으로 적용함으로써 분할 영상의 질을 개선하여 뇌 구조 분석의 신뢰도를 높이고, 사용자 편의성을 고려한 소프트웨어를 이용한 좌우 뇌섬엽 용적 측정을 통해 뇌 구조적 이상에 대한 보다 나은 분석 방법을 제시한다.

  • PDF

대용량 자료에서 핵심적인 소수의 변수들의 선별과 로지스틱 회귀 모형의 전개 (Screening Vital Few Variables and Development of Logistic Regression Model on a Large Data Set)

  • 임용빈;조재연;엄경아;이선아
    • 품질경영학회지
    • /
    • 제34권2호
    • /
    • pp.129-135
    • /
    • 2006
  • In the advance of computer technology, it is possible to keep all the related informations for monitoring equipments in control and huge amount of real time manufacturing data in a data base. Thus, the statistical analysis of large data sets with hundreds of thousands observations and hundred of independent variables whose some of values are missing at many observations is needed even though it is a formidable computational task. A tree structured approach to classification is capable of screening important independent variables and their interactions. In a Six Sigma project handling large amount of manufacturing data, one of the goals is to screen vital few variables among trivial many variables. In this paper we have reviewed and summarized CART, C4.5 and CHAID algorithms and proposed a simple method of screening vital few variables by selecting common variables screened by all the three algorithms. Also how to develop a logistics regression model on a large data set is discussed and illustrated through a large finance data set collected by a credit bureau for th purpose of predicting the bankruptcy of the company.