• 제목/요약/키워드: Robust Statistics

검색결과 397건 처리시간 0.022초

앙상블 SVM 모형을 이용한 기업 부도 예측 (Bankruptcy prediction using ensemble SVM model)

  • 최하나;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1113-1125
    • /
    • 2013
  • 기업의 부도를 예측하는 것은 회계나 재무 분야에서 중요한 연구주제이다. 지금까지 기업 부도예측을 위해 여러 가지 데이터마이닝 기법들이 적용되었으나 주로 단일 모형을 사용함으로서 복잡한 분류 문제에의 적용에 한계를 갖고 있었다. 본 논문에서는 최근에 각광받고 있는 SVM (support vector machine) 모형들을 결합한 앙상블 SVM 모형 (ensemble SVM model)을 부도예측에 사용하고자 한다. 제안된 앙상블 모형은 v-조각 교차 타당성 (v-fold cross-validation)에 의해 얻어진 여러 가지 모형 중에서 성능이 좋은 상위 k개의 단일 모형으로 구성하고 과반수 투표 방식 (majority voting)을 사용하여 미지의 클래스를 분류한다. 본 논문에서 제안된 앙상블 SVM 모형의 성능을 평가하기 위해 실제 기업의 재무비율 자료와 모의실험자료를 가지고 실험하였고, 실험결과 제안된 앙상블 모형이 여러 가지 평가척도 하에서 단일 SVM 모형들보다 좋은 성능을 보임을 알 수 있었다.

두 이종 혼합 모형에서의 수정된 경사 하강법 (Adaptive stochastic gradient method under two mixing heterogenous models)

  • 문상준;전종준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1245-1255
    • /
    • 2017
  • 온라인 학습은 자료가 실시간으로 혹은 배치 단위로 축적되는 상황에서 주어진 목적함수의 해를 계산하는 방법을 말한다. 온라인 학습 알고리즘 중 배치를 이용한 확률적 경사 하강법 (stochastic gradient decent method)은 가장 많이 사용되는 방법 중 하나다. 이 방법은 구현이 쉬울 뿐만 아니라 자료가 동질적인 분포를 따른다는 가정 하에서 그 해의 성질이 잘 연구되어 있다. 하지만 자료에 특이값이 있거나 임의의 배치가 확률적으로 이질적 성질을 가질 때, 확률적 경사 하강법이 주는 해는 큰 편이를 가질 수 있다. 본 연구에서는 이러한 비정상 배치 (abnormal batch) 있는 자료 하에서 효과적으로 온라인 학습을 수행할 수 있는 수정된 경사 하강 알고리즘 (modified gradient decent algorithm)을 제안하고, 그 알고리즘을 통해 계산된 해의 수렴성을 밝혔다. 뿐만 아니라 간단한 모의실험을 통해 제안한 방법의 이론적 성질을 실증하였다.

음성 통계 모형에 따른 음성 왜곡량 감소를 위한 비선형 음성강조법 (Nonlinear Speech Enhancement Method for Reducing the Amount of Speech Distortion According to Speech Statistics Model)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.465-470
    • /
    • 2021
  • 잡음이 존재하는 실제 환경에서 음성인식을 실시하는 경우에 음성인식의 성능 열화 및 음성의 품질이 저화되지 않는 강건한 음성인식 기술이 필요하다. 이러한 음성인식 기술을 개발함으로써 사람의 음성 스펙트럼과 유사한 잡음 환경에서도 안정되고 높은 음성인식률이 실현되는 어플리케이션이 요구된다. 따라서 본 논문에서는 최소 평균 제곱의 오차를 기반으로 한 단시간 스펙트럼 진폭 방법인 MMSA-STSA 추정 알고리즘에 기초한 잡음억압을 처리하는 음성강조 알고리즘을 제안한다. 이 알고리즘은 단일 채널 입력에 기초한 효과적인 비선형 음성강조 알고리즘이며, 높은 잡음억제 성능을 가지고 있으며 음성의 통계적인 모델에 기초하여 음성의 왜곡량을 줄이는 기법이다. 본 실험에서는 MMSA-STSA 추정 알고리즘의 유효성을 확인하기 위하여 입력 음성파형과 출력 음성파형을 비교하여 제안한 알고리즘의 효과를 확인한다.

강우 및 밝기에 따른 신호교차로 포화차두시간 분석에의 적응 뉴로-퍼지 적용 (Applying the ANFIS to the Analysis of Rain and Dark Effects on the Saturation Headways at Signalized Intersections)

  • 김경환;정재환;김대현
    • 대한토목학회논문집
    • /
    • 제26권4D호
    • /
    • pp.573-580
    • /
    • 2006
  • 포화차두시간은 신호시간 설계와 교차로 용량추정에 있어서 중요한 변수 중에 하나이다. 그러나 현재의 기법은 신호교차로에서 포화차두시간에 영향을 미치는 요인들 중 정성적인 요인들을 다루기에는 부적절하다. 본 연구에서는 퍼지적 성격을 가진 정성적 인자인 강우조건과 주변 밝기정도를 선택하여 ANFIS를 이용해서 현장에서 관측된 관측치와 입 출력 데이터 집합의 학습을 통해 퍼지근사추론 모형을 구축하였다. 강우조건은 강우량에 따라 3개의 퍼지변수로, 주변 밝기정도는 2개의 퍼지변수로 구분하였다. 이렇게 구축된 모형의 예측력은 검증자료를 이용한 관측치와 추론치를 비교함으로써 평가되었다. 결정계수와 오차 및 분산정도를 나타내는 척도인 평균절대 오차(MAE)와 평균제곱근 오차(MSE)가 각각 0.993, 0.0289, 0.00173으로 나타나 본 모형의 설명력이 높은 것으로 평가 된다.

다구찌 기법을 이용한 FCM 가스켓의 강건 설계에 관한 연구 (A Study of Robust Design of FCM Gasket Using Taguchi Method)

  • 정진은;안중규
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3177-3183
    • /
    • 2013
  • 본 연구에서는 비석면 FCM(Fiber-elastomer Coated Metal) 가스켓의 강건 설계를 수행하였다. 이를 위하여 직교배열표를 사용한 실험계획법에 따라 전단력을 측정하는 실험을 수행하고 다구찌 기법을 사용하여 망대 SN비를 산출하여 영향을 미치는 제어인자를 파악하고 분산 분석을 수행하였다. 전단력에 영향을 미치는 제어인자로 온도, 압력, 시간 및 습도를 선택하였으며 각 제어인자에 대하여 3수준을 고려하여 $L_9(3^4)$ 직교배열표를 작성하였고, 이에 근거하여 측정 실험을 수행하였다. 다구찌 기법을 사용하여 망대 SN비를 산출하고 델타 통계량을 계산하였다. 시간의 델타 통계량이 0.93으로, 시간이 전단력에 가장 큰 영향을 미치는 결과를 얻었다. 다음으로 온도, 압력, 습도 순으로 영향을 미쳤다. 또한 시간 80초, 온도 $200^{\circ}C$, 압력 90 $kgf/cm^2$, 습도 60 %RH의 조건에서 전단력이 최대가 됨을 보였다. 이에 대한 분산 분석을 수행한 결과 시간과 온도는 각각 p값 0.037, 0.098을 보여 신뢰수준 95%와 90%에서 유의함을 밝혔다.

통계적 사전 처리방법을 통한 MT 전달함수 추정의 향상 기법 연구 (An improvement of MT transfer function estimates using by pre-screening scheme based on the statistical distribution of electromagnetic fields)

  • 양준모;권병두;이덕기;송윤호;윤용훈
    • 한국지구물리탐사학회:학술대회논문집
    • /
    • 한국지구물리탐사학회 2005년도 공동학술대회 논문집
    • /
    • pp.273-280
    • /
    • 2005
  • MT 전달함수의 추정과정에서 로버스트 방법의 적용은 현재 전자탐사 분야에서 일반적이다. 적절하게 고안되고 적용된 로버스트 방법은 출력 채널인 전기장에 포함되어 있는 외치의 영향을 감소시킬 수 있으나, HLP(High leverage point)라 불리 우는 자기장(입력 채널)의 외치에 종종 민감하지 못하다. 이 문제를 해결하기 위해 HLP의 영향을 최소화할 수 있는 BI(Bounded Influence) 추정이 제안되었고, 전통적인 로버스트 방법보다 신뢰성 있는 전달함수를 제공하는 것으로 보고되었다. 이는 BI 추정이 M-추정을 적용함과 동시에 자기장 성분만으로 결정되는 모자행렬의 통계적인 특성을 고려하여 가중치를 부여하는 방법이기 때문이다. 본 연구에서는 전달함수 추정과정에 BI 추정을 적용하고, 이와 더불어 전처리 단계로서 전자기장의 통계적 분포를 이용해 주파수 영역에서 극단적인 전기장과 자기장 자료의 영향을 감소시키는 기법을 개발하였다. 개발된 전처리 기법은 BI 추정으로 제거될 수 없는 자료를 주파수 영역에서 효과적으로 제거하는 것으로 생각된다. 본 연구에서 개발된 기법의 효율성과 장점은 합성 자료와 현장 자료를 이용하여 도시될 것이다.

  • PDF

Combining Information of Common Metabolites Reveals Global Differences between Colorectal Cancerous and Normal Tissues

  • Chae, Young-Kee;Kang, Woo-Young;Kim, Seong-Hwan;Joo, Jong-Eun;Han, Joon-Kil;Hong, Boo-Whan
    • Bulletin of the Korean Chemical Society
    • /
    • 제31권2호
    • /
    • pp.379-383
    • /
    • 2010
  • Metabolites of colorectal cancer tissues from 12 patients were analyzed and compared with those of the normal tissues by two-dimensional NMR spectroscopy. NMR data were analyzed with the help of the metabolome database and the statistics software. Cancerous tissues showed significantly altered metabolic profiles as compared to the normal tissues. Among such metabolites, the concentrations of taurine, glutamate, choline were notably increased in the cancerous tissues of most patients, and those of glucose, malate, and glycerol were decreased. Changes in individual metabolites varied significantly from patient to patient, but the combination of such changes could be used to distinguish cancerous tissues from normal ones, which could be done by PCA analysis. The traditional chemometric analysis was also performed using AMIX software. By comparing those two results, the analysis via $^1H-^{13}C$ HSQC spectra proved to be more robust and effective in assessing and classifying global metabolic profiles of the colorectal tissues.

급성심근경색증 환자의 증상 인지와 건강행위 이행이 내원시간에 미치는 영향 (Effects of Symptom Recognition and Health Behavior Compliance on Hospital Arrival Time in Patients with Acute Myocardial Infarction)

  • 한은주;김정선
    • 성인간호학회지
    • /
    • 제27권1호
    • /
    • pp.83-93
    • /
    • 2015
  • Purpose: This study was to investigate the relationship among the symptom recognition, health behavior compliance, and the hospital arrival time to identify factors influencing the hospital arrival time in patient with acute myocardial infarction (AMI). Methods: The subjects of this study were 200 patients with AMI in C hospital in D city. Data were analyzed using descriptive statistics, independent t-test, One way ANOVA, Pearson's correlation coefficients, and stepwise multiple liner regression tests. Results: Level of symptom recognition and health behavior compliance was low. The median value of hospital arrival time was 4.48 hours (ST-segment Elevation Ml was 2.43 hours and Non ST-segment Elevation MI was 7.83 hours). Among the studied factors, only symptom recognition had a statistically significant positive correlation with health behavior compliance (r=0.38, p<.001). Factors influencing the hospital arrival time were MI classification, diabetes mellitus (DM) and transport vehicle to the 1st hospital, and they accounted for 13% of the variance for hospital arrival time in AMI patients. Conclusion: To prevent the delay of hospital arrival time in MI patients, a more robust nursing strategic intervention according to MI classification and DM is necessary; further education on the importance of transportation utilization is also mandated.

마이크로어레이 자료에서 서포트벡터머신과 데이터 뎁스를 이용한 분류방법의 비교연구 (A comparison study of classification method based of SVM and data depth in microarray data)

  • 황진수;김지연
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권2호
    • /
    • pp.311-319
    • /
    • 2009
  • 군집과 분류분석에서 L1 데이터 뎁스를 이용한 DDclust와 DDclass라고 불리는 로버스트한 방법이 Jornsten (2004)에 의하여 제안되었다. SVM-기반방법이 많이 사용되나 이상치가 있는 경우에는 약간의 문제가 있다. 유전자 자료에서는 유전자 수가 많기 때문에 적절한 유전자 선택과정이 필요하다. 따라서 적절한 유전자 또는 유전자 군집을 선택하여 분류에 이용하면 분류의 성능을 향상시킬 수 있다. 이러한 관점에서 뎁스 기반 분류방법과 SVM-기반 분류방법을 비교 연구하여 그 성능을 비교 하였다.

  • PDF

다변량 자료에서 다수 이상치 인식의 절차 (A Procedure for Indentifying Outliers in Multivariate Data)

  • 염준근;박종구;김종우
    • 품질경영학회지
    • /
    • 제23권4호
    • /
    • pp.28-41
    • /
    • 1995
  • We consider the problem of identifying multiple outliers in linear model. The available regression diagnostic methods often do not succeed in detecting multiple outliers because of the masking and swamping effect. Recently, among the various robust estimator of reducing the effect of outliers, LMS(Least Meadian Square) estimator has been to be a suitable method proposed to expose outliers and leverage points. However, as you know it, the data analysis method with LMS estimator is to be taken the median of the squared residuals in the sample which is extracted the sample space. Then this model causes the trouble, for the number of the chosen sample is nCp, i.e. as the size of sample space n is increasing, the number is increasing fastly. And the covariance matrix may be the singular matrix, so that matrix is approching collinearity. Thus we propose a procedure ELMS for the resampling in LMS method and study the size of the effective elementary set in this algorithm.

  • PDF