• 제목/요약/키워드: Binary Systems

검색결과 1,167건 처리시간 0.023초

고령은퇴자의 사회적 관계망과 은퇴만족도 관계 연구 (A Study on the Relationship between Social Networks and Retirement Satisfaction of Old Retirees)

  • 정순둘;문진영;김성원
    • 한국노년학
    • /
    • 제30권4호
    • /
    • pp.1145-1161
    • /
    • 2010
  • 본 연구의 목적은 고령은퇴자의 다양한 측면의 사회적 관계망이 은퇴만족도에 미치는 영향을 알아보고, 이를 통해 고령은퇴자의 은퇴만족도를 향상시키는 방안을 제시하는데 있다. 연구에 사용한 데이터는 중·고령자를 대상으로 한 최초의 전국 데이터인 한국 고령화연구패널조사(Korean Longitudinal Study of Ageing: 이하 KLoSA) 2006년도 제1차 기본조사 데이터이다. 조사 참여자 중 65세 이상의 노인 가운데 대도시 및 중소도시에 거주하고, 은퇴만족도 질문에 응답한 1,009명을 대상으로 하였다. 자료 분석은 이분형 로지스틱 회귀분석방법을 실시하여 이루어졌으며, 다양한 사회적 관계망과 기타 변수들이 은퇴만족도에 미치는 영향을 살펴보았다. 연구결과, 사회적 관계망 중 자녀와의 접촉빈도와 사회활동 참여 개수 그리고 자녀와의 관계만족도가 은퇴만족도에 유의미한 영향을 미치는 변수인 것으로 나타났다. 또한 기타 변수에서 성별, 주관적 건강상태, 은퇴 형태, 은퇴 경과 기간이 은퇴만족도에 영향을 미치는 유의미한 변수인 것으로 나타났다. 결과는 앞으로 고령은퇴자를 위한 예방적 차원의 은퇴 준비 프로그램 제공과 고령은퇴자의 가족 자원 활용 및 사회활동 참여 기회의 장을 확대하는 등 제도적 기반 마련과 지역사회와의 연계의 필요성을 시사해 주고 있다고 하겠다.

웹사이트 중복회원 관리 : 소셜 네트워크 분석 접근 (Managing Duplicate Memberships of Websites : An Approach of Social Network Analysis)

  • 강은영;곽기영
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.153-169
    • /
    • 2011
  • 오늘날 기업의 마케팅에 있어 인터넷 환경의 이용은 필수적이며, 좀 더 효율적인 마케팅을 위해 다양한 방법들이 시도되고 있다. 기업들은 온라인마케팅을 통해 다양한 경품이나 포인트 등의 마케팅 비용을 사용하는 것으로 제품이나 서비스를 알려왔다. 특히 웹 2.0의 등장과 함께 기업은 좀 더 적극적으로 고객과 소통하기 위한 노력을 아끼지 않고 있다. 고객들은 회사의 웹사이트에 개인정보를 제공하는 형태로 회원가입을 하여 회사가 제공하는 혜택을 받으면서 제품 광고나 프로모션에 참여하게 된다. 그러나 온라인 마케팅의 운영측면에서 볼 때 현재의 회원관리 시스템은 회원의 모집과 운영에 있어서 효과적이지 못한 문제점이 나타나고 있다. 온라인 환경에서의 고객들은 오프라인 환경에서보다 명확한 자아를 덜 드러내기 때문에 회원가입 과정 중에 일부 악의적인 목적을 가진 고객들이 주변인의 개인정보를 이용하거나 조작하여 중복 아이디를 만들어 활동할 수 있게 된다. 이러한 취약점을 이용하여 중복가입 회원들은 고객들에게 돌아가야 할 경품이나 포인트 등을 가로채어 기업 마케팅 비용의 효율을 떨어뜨리고 있다. 그러나 증가하고 있는 마케팅 비용에 비해 중복회원의 선별 및 이들에 대한 제재를 위한 효과적 방법은 뚜렷하게 제시되지 않고 있다. 따라서 이를 방지하기 위한 체계적인 회원관리 시스템이 요구된다. 본 연구에서는 소셜 네트워크 분석 기법을 이용한 중복회원 식별방법을 제시하고 실제 온라인 고객데이터를 이용하여 그 효과성을 검증한다. 소셜 네트워크는 노드들의 관계를 표현하며, 관계의 유무, 방향 및 강도 등으로 연결 형태를 나타낼 수 있다. 특히 컴포넌트 분석방법은 소셜 네트워크 하위그룹 분석방법으로 네트워크의 내부 그룹을 구분하여 다양한 네트워크 특성을 식별하여 준다. 회원정보 분석에 있어 컴포넌트 분석방법은 전제회원 데이터 내의 의미 있는 정보를 이루고 있는 그룹을 식별하게 된다. 본 연구는 H사의 서로 다른 회원가입 기준을 가진 3개 웹사이트의 회원정보를 사용하여 진행되었다. 제안된 분석방법은 중복회원의 실체를 분석하고 시각화함으로써, 실무적인 측면에서 효율적인 마케팅의 증진을 도울 뿐만 아니라 신뢰성 있는 고객의 의견수렴 및 의사결정에도 도움이 될 것으로 기대된다.

다양한 다분류 SVM을 적용한 기업채권평가 (Corporate Bond Rating Using Various Multiclass Support Vector Machines)

  • 안현철;김경재
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.157-178
    • /
    • 2009
  • Corporate credit rating is a very important factor in the market for corporate debt. Information concerning corporate operations is often disseminated to market participants through the changes in credit ratings that are published by professional rating agencies, such as Standard and Poor's (S&P) and Moody's Investor Service. Since these agencies generally require a large fee for the service, and the periodically provided ratings sometimes do not reflect the default risk of the company at the time, it may be advantageous for bond-market participants to be able to classify credit ratings before the agencies actually publish them. As a result, it is very important for companies (especially, financial companies) to develop a proper model of credit rating. From a technical perspective, the credit rating constitutes a typical, multiclass, classification problem because rating agencies generally have ten or more categories of ratings. For example, S&P's ratings range from AAA for the highest-quality bonds to D for the lowest-quality bonds. The professional rating agencies emphasize the importance of analysts' subjective judgments in the determination of credit ratings. However, in practice, a mathematical model that uses the financial variables of companies plays an important role in determining credit ratings, since it is convenient to apply and cost efficient. These financial variables include the ratios that represent a company's leverage status, liquidity status, and profitability status. Several statistical and artificial intelligence (AI) techniques have been applied as tools for predicting credit ratings. Among them, artificial neural networks are most prevalent in the area of finance because of their broad applicability to many business problems and their preeminent ability to adapt. However, artificial neural networks also have many defects, including the difficulty in determining the values of the control parameters and the number of processing elements in the layer as well as the risk of over-fitting. Of late, because of their robustness and high accuracy, support vector machines (SVMs) have become popular as a solution for problems with generating accurate prediction. An SVM's solution may be globally optimal because SVMs seek to minimize structural risk. On the other hand, artificial neural network models may tend to find locally optimal solutions because they seek to minimize empirical risk. In addition, no parameters need to be tuned in SVMs, barring the upper bound for non-separable cases in linear SVMs. Since SVMs were originally devised for binary classification, however they are not intrinsically geared for multiclass classifications as in credit ratings. Thus, researchers have tried to extend the original SVM to multiclass classification. Hitherto, a variety of techniques to extend standard SVMs to multiclass SVMs (MSVMs) has been proposed in the literature Only a few types of MSVM are, however, tested using prior studies that apply MSVMs to credit ratings studies. In this study, we examined six different techniques of MSVMs: (1) One-Against-One, (2) One-Against-AIL (3) DAGSVM, (4) ECOC, (5) Method of Weston and Watkins, and (6) Method of Crammer and Singer. In addition, we examined the prediction accuracy of some modified version of conventional MSVM techniques. To find the most appropriate technique of MSVMs for corporate bond rating, we applied all the techniques of MSVMs to a real-world case of credit rating in Korea. The best application is in corporate bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. For our study the research data were collected from National Information and Credit Evaluation, Inc., a major bond-rating company in Korea. The data set is comprised of the bond-ratings for the year 2002 and various financial variables for 1,295 companies from the manufacturing industry in Korea. We compared the results of these techniques with one another, and with those of traditional methods for credit ratings, such as multiple discriminant analysis (MDA), multinomial logistic regression (MLOGIT), and artificial neural networks (ANNs). As a result, we found that DAGSVM with an ordered list was the best approach for the prediction of bond rating. In addition, we found that the modified version of ECOC approach can yield higher prediction accuracy for the cases showing clear patterns.

Virtual Digital Test Pattern Method를 이용한 CR 시스템의 영상처리 특성 분석 (Analysis of Image Processing Characteristics in Computed Radiography System by Virtual Digital Test Pattern Method)

  • 최인석;김정민;오혜경;김유현;이기성;정회원;최석윤
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제33권2호
    • /
    • pp.97-107
    • /
    • 2010
  • 연구 목적은 virtual digital test pattern method을 이용하여 REGIUS 150 CR 시스템의 각 LUT별 프로세싱 커브를 도출하고, Dry Imager의 특성을 파악하여 CR의 영상처리 방법을 분석하는 것이다. 실험은 먼저, CR의 화상데이터에 맞게 virtual digital test pattern 파일을 만들고, 인위적으로 입력하여 virtual digital test pattern step의 변화를 통해 각 LUT(THX, ST, STM, LUM, BONE, LIN)별 프로세싱 커브를 구한다. 그리고 하드카피 이미지를 통해 Dry Imager의 프로세싱 커브도 도출한다. 마지막으로, CR 본체의 영상처리 파라미터들을 변화시켜 각각의 특성을 알아낸다. 실험 결과를 살펴보면, 입 출력 값을 통해 CR 시스템의 입력 다이나믹 레인지의 LUT별 프로세싱 커브를 구하였다. 프로세싱 커브는 모두 곡선으로 이어져 있었으며(LIN mode 제외), 각 커브마다 조금씩 차이를 보였다. 또한 Dry Imager의 프로세싱 커브는 중간부분에만 선형성이 나타났다. 그리고 프로세싱 파라미터의 G value는 기울기와, S value는 감도의 shift량과 관련된다는 것을 알 수 있었고, 선량에 따라 S value가 비례하여 변화한다는 것 또한 유추해 낼 수 있었다. 결론적으로 CR 시스템은 각 회사별로 내부 처리가 다르고, 구조 또한 복잡하기 때문에 내부 영상처리의 파악이 어렵다. 하지만 본 연구에서 사용한 virtual digital test pattern method는 CR 시스템의 내부처리 구조와 영상 파라미터의 변화에 따른 특성을 추정할 수 있으므로, 이 방법을 통해 타 장비의 CR 시스템과 Dry Imager의 전체적인 영상처리 특성을 비교, 분석 가능할 것이다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

고객 간 관계 네트워크가 조직성과에 미치는 영향: 페이스북 기업 팬페이지를 중심으로 (Effects of Customers' Relationship Networks on Organizational Performance: Focusing on Facebook Fan Page)

  • 전수현;곽기영
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.57-79
    • /
    • 2016
  • 최근 소셜 네트워크 서비스는 소비자와의 관계 마케팅 확산 및 확장을 위한 중요한 채널로 인식되며 많은 관심을 받고 있다. 기업이 온라인 환경에서 성공하기 위해서는 기업과 고객 사이의 관계 구축뿐만 아니라 고객들 간의 관계에 초점을 맞출 필요가 있다. 본 연구에서는 페이스북 팬 페이지에 참여하는 사용자들 사이의 네트워크를 분석하여 기업의 비즈니스 성과에 고객 간 네트워크의 구조적 특성이 미치는 영향을 실증적으로 분석하였다. 이를 위해 네트워크 데이터는 코스피 상장 기업 가운데 페이스북 팬 페이지에 100개 이상의 게시글을 올린 54개 기업으로부터 수집하였으며, 수집된 네트워크 데이터는 각 사용자를 노드로 하고 동일한 마케팅 활동에 대해 참여한 사용자간의 관계를 링크로 한 원모드 비방향 이진 네트워크(one-mode undirected binary network)이다. 본 연구에서는 이러한 네트워크 데이터를 핸들링하여 사용자들 간의 활동 관계를 분석할 수 있는 네트워크 지표(밀도, 글로벌 클러스터링 계수, 최단거리평균, 직경)를 도출하였으며, 이러한 고객 간 네트워크의 구조적 특징을 파악할 수 있는 지표와 기업의 과거실적(순이익), 그리고 미래 예측성과(토빈의 Q) 간의 관계를 분석하였다. 본 연구는 학문적 관점에서 소셜 미디어 채널을 비즈니스 관점에서 연구하려는 연구자들에게 소셜네트워크분석 방법을 통한 새로운 접근법을 제시한다. 실무적인 관점에서 본 연구는 소셜미디어를 통해 마케팅 활동을 수행하려는 기업의 관리자들에게 네트워크의 지표를 이용한 지능형 마케팅 서비스를 수행할 수 있는 토대를 제공할 것으로 기대한다.

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.