• 제목/요약/키워드: classifier

검색결과 2,222건 처리시간 0.033초

PRINCIPAL DISCRIMINANT VARIATE (PDV) METHOD FOR CLASSIFICATION OF MULTICOLLINEAR DATA WITH APPLICATION TO NEAR-INFRARED SPECTRA OF COW PLASMA SAMPLES

  • Jiang, Jian-Hui;Yuqing Wu;Yu, Ru-Qin;Yukihiro Ozaki
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1042-1042
    • /
    • 2001
  • In linear discriminant analysis there are two important properties concerning the effectiveness of discriminant function modeling. The first is the separability of the discriminant function for different classes. The separability reaches its optimum by maximizing the ratio of between-class to within-class variance. The second is the stability of the discriminant function against noises present in the measurement variables. One can optimize the stability by exploring the discriminant variates in a principal variation subspace, i. e., the directions that account for a majority of the total variation of the data. An unstable discriminant function will exhibit inflated variance in the prediction of future unclassified objects, exposed to a significantly increased risk of erroneous prediction. Therefore, an ideal discriminant function should not only separate different classes with a minimum misclassification rate for the training set, but also possess a good stability such that the prediction variance for unclassified objects can be as small as possible. In other words, an optimal classifier should find a balance between the separability and the stability. This is of special significance for multivariate spectroscopy-based classification where multicollinearity always leads to discriminant directions located in low-spread subspaces. A new regularized discriminant analysis technique, the principal discriminant variate (PDV) method, has been developed for handling effectively multicollinear data commonly encountered in multivariate spectroscopy-based classification. The motivation behind this method is to seek a sequence of discriminant directions that not only optimize the separability between different classes, but also account for a maximized variation present in the data. Three different formulations for the PDV methods are suggested, and an effective computing procedure is proposed for a PDV method. Near-infrared (NIR) spectra of blood plasma samples from daily monitoring of two Japanese cows have been used to evaluate the behavior of the PDV method in comparison with principal component analysis (PCA), discriminant partial least squares (DPLS), soft independent modeling of class analogies (SIMCA) and Fisher linear discriminant analysis (FLDA). Results obtained demonstrate that the PDV method exhibits improved stability in prediction without significant loss of separability. The NIR spectra of blood plasma samples from two cows are clearly discriminated between by the PDV method. Moreover, the proposed method provides superior performance to PCA, DPLS, SIMCA md FLDA, indicating that PDV is a promising tool in discriminant analysis of spectra-characterized samples with only small compositional difference.

  • PDF

CRM의 기능 분류를 위한 통계적 학습에 관한 연구 (A Study of Statistical Learning as a CRM s Classifier Functions)

  • 장근;이정배;이병수
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.71-76
    • /
    • 2004
  • 현재 ERP와 CRM은 대부분 전통적인 기능적 수행에만 초점이 맞추어져 있다. 그러나 최근의 경영환경은 인터넷(Internet)과 이를 기반으로 하는 전자상거래의 비약적 발전에 기인하여 시장의 변화를 가져왔으며, 이는 대부분 e-비즈니스화 되어 가고 있으며, 이를 추진하면서 제휴기관과의 관계증진, 고객관계의 혁신적 개선은 물론 조직내부의 업무프로세스의 획기적 개선을 통한 경쟁력 강화를 적극적으로 전개하고 있다. CRM(Customer Relationship Management)은 기업이 획득한 고객을 지속적으로 유지하고, 기업에 대한 고객의 가치를 증진시키기 위해 기업과 고객간의 상호 이익적 관계를 형성 유지 강화하려는 기업의 일련의 마케팅과정으로 다양하고도 수많은 고객들의 정보를 기반으로 수행되기 때문에 고객 정보를 파악할 수 있는 시스템 기반을 필요로 하며, 생산과 상품의 전달경로, 마케팅, 그리고 의사결정 등의 경영 카테고리와 연관되어 있다. 한편 ERP는 SCM과 CRM 및 SEM(Strategic Enterprise Management)등으로 기능을 확대해감에 따라 21세기의 ERP는 e-비즈니스의 전략적 도구로 발전해 갈 것이다. 본 논문에서는 이를 위한 중재 도구를 제시함으로써 고객에게 더욱 더 효율적이고 고 부가가치 있는 의미 있는 데이터들의 통계적 기계 학습법을 통해 CRM의 기능들을 효율적으로 분류할 수 있도록 한다. 또한 시스템 특징으로는 기존에 수작업으로 이루어지던 파일의 분류 작업을 기계 학습법을 통한 에이전트가 자동으로 수행함으로써 사용자가 좀 더 효율적으로 작업을 수행 할 수 있도록 한 것이다.

모발분석 및 처리를 위한 한국형 의료 정보 시스템 구축 (Implementation of Medical Information System for Korean by Tissue Mineral Analysis)

  • 조영임
    • 한국멀티미디어학회논문지
    • /
    • 제6권1호
    • /
    • pp.148-160
    • /
    • 2003
  • 현재 세계 48개국의 의료기관에서 임상을 위해 널리 사용 중인 모발분석(TMA)은 중요 미네랄 비율을 분석하여 체내에 과잉, 결핍 및 불균형 상태를 평가하고 인체에 미치는 영향을 예측하여 건강유지 방향을 제시하는 임상 영양학 및 독성학 검사방법을 말한다. 그러나 국내 모발분석방법에는 몇 가지 문제점이 있다. 즉, 모발분석결과를 처리하고 해석할 수 있는 한국형 의료정보 데이터베이스가 없으므로 미국에 의뢰하고 있는데, 외화낭비는 물론 보내오는 모발분석 검사결과지가 영문이고 철저한 보안 위주파일이므로 국내의료 기관에서의 활용도가 매우 낮다. 또한 모발분석 결과가 서구식 데이터베이스로부터 분석된 것이므로 검사결과의 신뢰성 문제도 발생한다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 국내 최초로 TMA 기반 한국형 의료정보시스템을 구축하였다. 이 시스템은 복잡한 모발분석 자료의 분류를 다단계 통계분석 방법에 의한 결정트리 분류기를 통해 수행하고, 다중 퍼지 규칙방식의 데이터베이스를 구축하여 지능형 퍼지추론 방법에 의해 모발분석 자료를 분석한다. 본 시스템의 성능을 실제 작업 환경에서 측정한 결과, 시스템을 사용하는 경우가 사용하지 않았을 경우보다 업무능률과 사용자 만족도가 각각 86%, 92% 증가하였다.

  • PDF

최적화된 영역 분할을 이용한 패킷 분류 알고리즘 (Optimum Range Cutting for Packet Classification)

  • 김형기;박경혜;임혜숙
    • 한국정보과학회논문지:정보통신
    • /
    • 제35권6호
    • /
    • pp.497-509
    • /
    • 2008
  • 현재 패킷 분류에 대한 다양한 알고리즘들이 연구되어 오고 있다 그 중 HiCuts와 HyperCuts와 같은 디시젼(decision) 트리에 기초한 패킷 분류 알고리즘은 룰의 각 필드가 가지는 영역에 따른 기하학적 구조를 이용한 방법으로 잘 알려져 있다. 그러나 이 알고리즘들은 분할(cutting)을 수행할 필드(Field)를 선택하거나 디시젼 트리의 각 노드에서 컷(cut)의 수를 결정해야 하는 등의 비교적 복잡한 작업을 요구하므로 현실적으로 구현하기 어려운 점을 가진다. 또한 각 룰이 차지하는 영역의 특성을 고려하지 않고 일정한 크기의 영역으로 커팅이 이루어지므로 효과적인 커팅을 하지 못하는 단점이 있다. 본 논문에서는 새로운 영역 분할을 사용한 효과적인 패킷 분류 알고리즘을 제안한다. 제안하는 알고리즘은 먼저 프리픽스를 가지는 두 필드를 이용하여 각 룰이 차지하는 영역들을 찾아내 이들을 이용해 영역분할을 수행한다. 따라서 제안된 알고리즘은 보다 효율적인 디시젼 트리를 구성한다. 즉, 디시젼 트리의 각 노드에서는 HiCuts이나 HyperCuts와 같은 복잡한 작업없이 최적화된 커팅을 수행할 수 있다. 클래스 벤치에서 제공된 데이타베이스에 대하여 시뮬레이션을 수행한 결과, 제안된 알고리즘은 평균 검색 속도에서 기존의 알고리즘들보다 훨씬 향상되었고 메모리 요구량에서는 기존의 커팅 알고리즘과 비교하여 대략 $3{\sim}300$배까지 크게 줄어드는 효과를 보였다.

교차 프로젝트 결함 예측 성능 향상을 위한 효과적인 하모니 검색 기반 비용 민감 부스팅 최적화 (Effective Harmony Search-Based Optimization of Cost-Sensitive Boosting for Improving the Performance of Cross-Project Defect Prediction)

  • 류덕산;백종문
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권3호
    • /
    • pp.77-90
    • /
    • 2018
  • 소프트웨어 결함 예측(SDP)은 결함이 있는 모듈을 식별하기 위한 연구 분야이다. 충분한 로컬 데이터가 없으면 다른 회사에서 수집한 데이터를 사용하여 분류기를 구축하는 교차 프로젝트 결함 예측(CPDP)을 활용할 수 있다. SDP에 대한 대부분의 기계 학습 알고리즘은 서로 다른 값에 따라 예측 성능에 큰 영향을 미치는 하나 이상의 매개 변수를 사용한다. 본 연구의 목적은 CPDP의 예측 성능 향상을 위해 매개 변수 선택 기법을 제안하는 것이다. Harmony Search 알고리즘을 사용하여, 예측 어려움을 야기하는 클래스 불균형을 해결하는 방법인 비용에 민감한 부스팅의 매개 변수를 조정한다. 분포 특성에 따라 매개 변수 범위와 매개 변수 간의 제한 조건 규칙이 정의되어 하모니 검색 알고리즘에 적용된다. 제안된 접근법은 15개의 대상 프로젝트를 대상으로 3개의 CPDP 모델과 내부프로젝트 결함 예측(WPDP) 모델을 비교한다. 실험 결과는 제안된 방법이 클래스 불균형의 맥락에서 다른 CPDP 방법보다 성능이 우수하다는 것을 보여준다. 이전의 연구에서는 탐지 확률이 낮거나 오보 가능성이 높았으나 우리의 기법은 높은 PD와 낮은 PF를 제공하면서 높은 전체 성능을 보였다. 또한 WPDP와 비슷한 성능을 제공하였다.

베이지언 문서분류시스템을 위한 능동적 학습 기반의 학습문서집합 구성방법 (An Active Learning-based Method for Composing Training Document Set in Bayesian Text Classification Systems)

  • 김제욱;김한준;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권12호
    • /
    • pp.966-978
    • /
    • 2002
  • 기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.

선형모델을 이용한 방향성 조명하의 얼굴영상 정규화 (Normalization of Face Images Subject to Directional Illumination using Linear Model)

  • 고재필;김은주;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권1호
    • /
    • pp.54-60
    • /
    • 2004
  • 얼굴인식은 외관기반(appearance-based) 매칭기법으로 풀어야 할 문제 중의 하나이다. 그러나, 얼굴영상의 외관은 조명 변화에 매우 민감하다. 얼굴인식 성능을 향상시키기 위해서는 다양한 조명 아래에서 다양한 학습 데이타를 수집해야 하나, 실제로는 데이타 수집이 용이하지 않다. 따라서, 성능향상을 위해서 다양한 데이타를 학습시키는 것 보다 다양한 조건의 데이타를 정규화 하는 기법에 주목하는 것이 바람직하다. 본 논문에서는 방향성 조명 아래에서 취득한 얼굴영상을 정규화 할 수 있는 간단한 방법을 제안한다. 조명 문제는 얼굴인식 시스템에서 오류를 일으키는 가장 중요한 요인중 하나이다. 제안하는 방법을 ICR(illumination Compensation based on Multiple Linear Regression)이라 명명하였다. 본 방법에서는 다중회귀분석 모델을 사용하여 얼굴영상의 화소 밝기 갈 분포에 가장 잘 맞는 평면을 찾은 후 이 평면을 이용하여 얼굴영상을 정규화 한다. 제안하는 방법의 장점은 간단하고 실용적이며, 얼굴영상의 밝기 값 분포에 대한 평면 근사가 선형모델에 의해 수학적으로 정의된다는 점이다. 얼굴인식에서 제안하는 방법의 성능 향상을 보여주기 위해 공개 및 자체 구축 데이타 베이스에 대한 실험 결과를 제시한다. 실험 결과 두드러진 얼굴인식 성능 향상을 보여주었다.

동작 상상 EEG 분류를 위한 필터 뱅크 기반 정규화 공통 공간 패턴 (Filter-Bank Based Regularized Common Spatial Pattern for Classification of Motor Imagery EEG)

  • 박상훈;김하영;이다빛;이상국
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.587-594
    • /
    • 2017
  • 최근, 동작 상상(Motor Imagery) Electroencephalogram(EEG)를 기반으로 한 Brain-Computer Interface(BCI) 시스템은 의학, 공학 등 다양한 분야에서 많은 관심을 받고 있다. Common Spatial Pattern(CSP) 알고리즘은 동작 상상 EEG의 특징을 추출하기 위한 가장 유용한 방법이다. 그러나 CSP 알고리즘은 공분산 행렬에 의존하기 때문에 Small-Sample Setting(SSS) 상황에서 성능에 한계가 있다. 또한 사용하는 주파수 대역에 따라 큰 성능 차이를 보인다. 이러한 문제를 동시에 해결하기 위해, 4-40Hz 대역 EEG 신호를 9개의 필터 뱅크를 이용하여 분할하고 각 밴드에 Regularized CSP(R-CSP)를 적용한다. 이후 Mutual Information-Based Individual Feature(MIBIF) 알고리즘은 R-CSP의 차별적인 특징을 선택하기 위해 사용된다. 본 연구에서는 대뇌 피질의 운동영역 부근 18개 채널을 사용하여 BCI CompetitionIII DatasetIVa의 피험자 다섯 명(aa, al, av, aw 및 ay)에 대해 각각 87.5%, 100%, 63.78%, 82.14% 및 86.11%의 정확도를 도출하였다. 제안된 방법은 CSP, R-CSP 및 FBCSP 방법보다 16.21%, 10.77% 및 3.32%의 평균 분류 정확도 향상이 있었다. 특히, 본 논문에서 제안한 방법은 SSS 상황에서 우수한 성능을 보였다.

석회석광산 지하대형공간의 재난관리를 위한 업무영향력 분석 (Business impact analysis for disaster management of large underground limestone mine)

  • 이성민;김선명;이연희
    • 한국터널지하공간학회 논문집
    • /
    • 제15권6호
    • /
    • pp.613-623
    • /
    • 2013
  • 현재 국내 석회석광산은 개발 방식 및 특성에 따라 환경적, 사회적, 경영적 측면에서 다양한 문제 등을 내포한 채 운영되고 있다. 따라서 최근에는 이 같은 문제점들을 저감하고 지속가능한 광산개발을 위하여, 갱내채광 혹은 시설물 갱내화 등 다양한 노력이 계속되고 있다. 이러한 노력은 기존의 광산개발 공간 외에 새로운 지하대형공간의 생성을 유발하기 때문에, 작업자 및 시설물의 안전성확보를 위하여 발생 가능한 다양한 종류의 리스크에 대한 재난관리 필요성이 제기되고 있다. 본 연구에서는 지하대형공간을 구축하고 시설물을 갱내화하여 본격가동을 앞둔 석회석광업현장의 작업자들을 대상으로 설문조사를 실시하여 리스크 위험도평가 및 업무영향력분석 후 재난관리를 위한 업무우선순위를 도출하였다. 그 결과, 대상 현장의 경우 파분쇄 및 분립선별공정에서 안전수칙 불이행으로 인한 리스크에 대하여 위험도가 가장 높은 것으로 나타났다. 또한, 이 리스크에 대한 재난발생시 업무연속성 유지를 위한 영향력을 분석결과 우선적으로 갱내외의 연계작업이 원활하게 이루어지도록 해야 하는 것으로 나타났다.

효과적인 기업부도 예측모형을 위한 ROSE 표본추출기법의 적용 (Application of Random Over Sampling Examples(ROSE) for an Effective Bankruptcy Prediction Model)

  • 안철휘;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.525-535
    • /
    • 2018
  • 분류 문제에서 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 경우, 왜곡된 기계 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 기업부도 예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 이러한 데이터 불균형 문제를 해결하기 위해서는 적절한 표본추출 기법이 적용될 필요가 있으며, 지금껏 소수 범주 데이터를 복원 추출함으로써 다수 범주 데이터와 비율을 맞추어 데이터 불균형을 해결하는 오버 샘플링(oversampling) 기법이 주로 활용되어 왔다. 그러나 전통적인 오버 샘플링은 과적합화(overfitting)가 발생할 위험이 높아질 수 있는 단점이 있다. 이러한 배경에서 본 연구는 효과적인 기업부도 예측 모형 학습을 위한 표본추출 기법으로 2014년에 Menardi와 Torelli가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 학습에 사용될 사례를 반복적으로 새롭게 합성하여 생성(synthetic generation)하는 기법으로, 과적합화 문제를 회피하면서도 분류 예측 정확도 개선에 도움을 줄 수 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 이분류기로 알려진 SVM(support vector machine)과 결합하여 국내 한 대형 은행의 기업부도 예측에 적용해 보고, 다른 표본추출 기법들과의 비교연구를 수행하였다. 실험 결과, ROSE 기법이 다른 기법에 비해 통계적으로 유의한 수준으로 SVM의 예측정확도 개선에 기여할 수 있음을 확인하였다. 이러한 본 연구의 결과는 부도예측 외에 다른 사회과학 분야 예측문제의 데이터 불균형 문제 해결에도 ROSE가 우수한 대안이 될 수 있다는 사실을 시사한다.