• 제목/요약/키워드: Robustness Analysis

검색결과 944건 처리시간 0.028초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

다양한 다분류 SVM을 적용한 기업채권평가 (Corporate Bond Rating Using Various Multiclass Support Vector Machines)

  • 안현철;김경재
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.157-178
    • /
    • 2009
  • Corporate credit rating is a very important factor in the market for corporate debt. Information concerning corporate operations is often disseminated to market participants through the changes in credit ratings that are published by professional rating agencies, such as Standard and Poor's (S&P) and Moody's Investor Service. Since these agencies generally require a large fee for the service, and the periodically provided ratings sometimes do not reflect the default risk of the company at the time, it may be advantageous for bond-market participants to be able to classify credit ratings before the agencies actually publish them. As a result, it is very important for companies (especially, financial companies) to develop a proper model of credit rating. From a technical perspective, the credit rating constitutes a typical, multiclass, classification problem because rating agencies generally have ten or more categories of ratings. For example, S&P's ratings range from AAA for the highest-quality bonds to D for the lowest-quality bonds. The professional rating agencies emphasize the importance of analysts' subjective judgments in the determination of credit ratings. However, in practice, a mathematical model that uses the financial variables of companies plays an important role in determining credit ratings, since it is convenient to apply and cost efficient. These financial variables include the ratios that represent a company's leverage status, liquidity status, and profitability status. Several statistical and artificial intelligence (AI) techniques have been applied as tools for predicting credit ratings. Among them, artificial neural networks are most prevalent in the area of finance because of their broad applicability to many business problems and their preeminent ability to adapt. However, artificial neural networks also have many defects, including the difficulty in determining the values of the control parameters and the number of processing elements in the layer as well as the risk of over-fitting. Of late, because of their robustness and high accuracy, support vector machines (SVMs) have become popular as a solution for problems with generating accurate prediction. An SVM's solution may be globally optimal because SVMs seek to minimize structural risk. On the other hand, artificial neural network models may tend to find locally optimal solutions because they seek to minimize empirical risk. In addition, no parameters need to be tuned in SVMs, barring the upper bound for non-separable cases in linear SVMs. Since SVMs were originally devised for binary classification, however they are not intrinsically geared for multiclass classifications as in credit ratings. Thus, researchers have tried to extend the original SVM to multiclass classification. Hitherto, a variety of techniques to extend standard SVMs to multiclass SVMs (MSVMs) has been proposed in the literature Only a few types of MSVM are, however, tested using prior studies that apply MSVMs to credit ratings studies. In this study, we examined six different techniques of MSVMs: (1) One-Against-One, (2) One-Against-AIL (3) DAGSVM, (4) ECOC, (5) Method of Weston and Watkins, and (6) Method of Crammer and Singer. In addition, we examined the prediction accuracy of some modified version of conventional MSVM techniques. To find the most appropriate technique of MSVMs for corporate bond rating, we applied all the techniques of MSVMs to a real-world case of credit rating in Korea. The best application is in corporate bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. For our study the research data were collected from National Information and Credit Evaluation, Inc., a major bond-rating company in Korea. The data set is comprised of the bond-ratings for the year 2002 and various financial variables for 1,295 companies from the manufacturing industry in Korea. We compared the results of these techniques with one another, and with those of traditional methods for credit ratings, such as multiple discriminant analysis (MDA), multinomial logistic regression (MLOGIT), and artificial neural networks (ANNs). As a result, we found that DAGSVM with an ordered list was the best approach for the prediction of bond rating. In addition, we found that the modified version of ECOC approach can yield higher prediction accuracy for the cases showing clear patterns.

Stem-loop RT-qPCR 분석법을 이용한 siRNA 치료제의 생체시료 분석법 검증 및 약물 동태학적 분석 (Validation of Stem-loop RT-qPCR Method on the Pharmacokinetic Analysis of siRNA Therapeutics)

  • 김혜정;김택민;김홍중;정헌순;이승호
    • 생명과학회지
    • /
    • 제29권6호
    • /
    • pp.653-661
    • /
    • 2019
  • 본 연구는 siRNA 기반 치료제등의 핵산치료제 개발에 있어서 필수적인 약물의 생체내 흡수, 분포, 대사, 배설에 대한 동태의 확인을 위해 stem-loop RT-qPCR 법을 이용하여 보다 더 정확한 시험법을 확립하고자 하였다. siRNA에 특이적인 primer와 probe를 선별하여 siRNA 정량검출 시험법을 최적화하였다. siRNA 표준시료를 이용하여 최적화된 시험법을 적용하였을 때 siRNA 표준시료에 대한 Cp 값(y)간의 선형분석 결과, 기울기 평균 -3.3, 결정계수 $R^2$>0.99으로 확인되어 siRNA 표준시료와 Cp 값 간의 회귀성이 매우 높아 정량 분석이 가능한 시험법임을 확인하였고, 같은 표준시료를 이용한 stem-loop RT-qPCR의 검출한계(LOD)는 10 fM, 최소정량한계(LLOQ)는 100 fM이었다. 확립된 시험법의 신뢰성을 확인하기 위해 시험자를 다르게 하고, 시험법을 3회 반복하여 각각 진행한 결과, siRNA 표준시료에 대한 Cp 값(y)간의 선형분석 결과 기울기와 결정계수 $R^2$의 재현성(slope ${\pm}-3.2$, 결정계수 $R^2$>0.99)을 확인하였고, 표준 곡선으로부터 환산된 siRNA 표준시료의 회수율(recovery ${\pm}20%$)과 완건성이 우수함을 확인하였다. 확립된 stem-loop RT-qPCR을 생체내 존재하는 약물 검증에 적용할 수 있는지 확인하기 위하여 시험동물에 siRNA를 주입 후 시간별 혈액을 채취하여 확립된 시험법으로 시험을 진행하였고 약물 동태학적 분석을 통해 siRNA치료제의 혈액내의 안정성을 확인하였다. 따라서 본연구에서 개발된 stem-loop RT-qPCR 분석법은 정확성, 정밀성 및 민감도가 높은 분석법으로 핵산치료제 개발 연구의 다양한 생체시료 분석 연구에 적용할 수 있을 것으로 기대한다.

딥러닝 기반 윤곽정보 추출자를 활용한 RPC 보정 기술 적용성 분석 (Analysis of Applicability of RPC Correction Using Deep Learning-Based Edge Information Algorithm)

  • 허재원;이창희;서두천;오재홍;이창노;한유경
    • 대한원격탐사학회지
    • /
    • 제40권4호
    • /
    • pp.387-396
    • /
    • 2024
  • 대부분의 고해상도 위성영상은 rational polynomial coefficients (RPC) 정보를 제공하여 지상좌표와 영상좌표 간 변환을 수행한다. 그러나 초기 RPC에는 기하학적 오차가 존재하여 ground control points (GCPs)와의 정합을 통해 보정을 수행하여야 한다. GCP chip은 항공정사영상에서 추출한 높이 정보가 포함된 작은 영상 패치(patch)이다. 많은 선행연구에서는 영역 기반 정합 기법을 사용하여 고해상도 위성영상과 GCP chip 간 정합을 수행하였다. 계절적 차이나 변화된 지역이 존재하는 영상에서는 화소값에 의존하는 정합이 어렵기 때문에 윤곽 정보를 추출하여 정합을 수행하기도 한다. 그러나 일반적으로 사용하는 canny 기법으로 정합에 용이한 윤곽을 추출하기 위해서는 위성영상의 분광 특성에 적절한 임계치를 설정해주어야 하는 문제가 존재한다. 따라서 본 연구에서는 위성영상의 지역별 특성에 둔감한 윤곽 정보를 활용하여 RPC 보정을 위한 정합을 수행하고자 한다. 이를 위해 딥러닝 기반 윤곽 정보 추출 네트워크인 pixel difference network (PiDiNet)를 활용하여 위성영상과 GCP chip의 윤곽맵(edge map)을 각각 생성하였다. 그 후 생성된 윤곽맵을 normalized cross-correlation과 relative edge cross-correlation의 입력데이터로 대체하여 영역 기반의 정합을 수행하였다. 마지막으로 RPC 보정에 필요한 변환모델 계수를 도출하기 위하여 data snooping 기법을 반복적으로 적용하여 참정합쌍을 추출하였다. 오정합쌍을 제거한 참정합쌍에 대해 root mean square error (RMSE)를 도출하고 기존에 사용하던 상관관계 기법과 결과를 정성적으로 비교하였다. 실험 결과, PiDiNet은 약 0.3~0.9 화소의 RMSE 값 분포를 보였으나 canny 기법에 비해 두꺼운 윤곽을 나타내어 일부 영상에서 미세하게 정확도가 저하되는 것을 확인하였다. 그러나 위성영상 내 특징적인 윤곽을 일관적으로 나타냄으로써 정합이 어려운 지역에서도 정합이 잘 수행되는 것을 확인하였다. 본 연구를 통해 윤곽 기반 정합 기법의 강인성을 개선하여 다양한 지역에서의 정합을 수행할 수 있을 것으로 예상된다.