• 제목/요약/키워드: feature subset selection

검색결과 85건 처리시간 0.018초

퍼지이론과 SVM 결합을 통한 기업부도예측 최적화 (Optimized Bankruptcy Prediction through Combining SVM with Fuzzy Theory)

  • 최소윤;안현철
    • 디지털융복합연구
    • /
    • 제13권3호
    • /
    • pp.155-165
    • /
    • 2015
  • 기업부도예측은 재무 분야에 있어 중요한 연구주제 중 하나로 1960년대 이후부터 꾸준히 연구되어져 왔다. 국내의 경우, IMF 사태 이후 기업부도예측에 관한 중요성이 강조되고 있다. 이에 본 연구에서는 보다 정확한 기업부도예측을 위해 높은 예측력과 동시에 과적합화의 문제를 해결한다고 알려진 SVM(Support Vector Machine)을 기반으로 퍼지이론(fuzzy theory)을 활용해 입력변수를 확장하고, 유전자 알고리즘(GA, Genetic Algorithm)을 이용해 유사 혹은 유사최적의 입력변수집합과 파라미터를 탐색하는 새로운 융합모형을 제시한다. 제안모형의 유용성을 검증하기 위하여 H은행의 비외감 중공업 기업 데이터를 이용하여 실험을 수행하였으며, 비교모형으로는 로짓분석, 판별분석, 의사결정나무, 사례기반추론, 인공신경망, SVM을 선정하였다. 실험결과, 제안모형이 모든 비교모형들에 비해 우수한 예측력을 보이는 것으로 나타났다. 본 연구는 우수한 예측 성능을 가진 다기법 융합 모형을 새롭게 제안하여, 부도예측 분야에 학술적, 실무적으로 기여할 수 있을 것으로 기대된다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

주식 시장 예측을 위한 π-퍼지 논리와 SVM의 최적 결합 (An Optimized Combination of π-fuzzy Logic and Support Vector Machine for Stock Market Prediction)

  • 다오두안훙;안현철
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.43-58
    • /
    • 2014
  • 최근 정보기술의 발전으로 복잡하고 방대한 양의 주가 데이터에 대한 실시간 분석이 가능해지면서 인공지능 기법을 활용해 주식 시장의 등락을 예측하고, 이를 기반으로 매매 거래를 수행하는 트레이딩 시스템에 대한 세간의 관심이 높아지고 있다. 본 연구는 이러한 트레이딩 시스템의 시장 예측 알고리즘으로 활용될 수 있는 새로운 주식 시장 등락 예측 모형을 제시한다. 본 연구의 제안 모형은 ${\pi}$-퍼지 논리를 이용해 모든 입력변수의 차원을 low, medium, high로 퍼지변환한 입력값을 대상으로 Support Vector Machine(SVM)을 적용하여 익일 시장의 등락을 예측하도록 설계되었다. 그런데 이 경우 입력변수의 수가 3배로 늘어나기 때문에, 적절한 입력변수의 선택이 요구된다. 이에 본 연구에서는 유전자 알고리즘을 활용하여 입력변수 선택 집합을 최적화하도록 하였으며, 동시에 ${\pi}$-퍼지 논리 및 SVM에 적용되는 조절 파라미터들의 값도 함께 최적화 하도록 하였다. 모형의 성능을 검증하기 위해, 본 연구에서는 지난 2004년부터 2013년까지의 10년치 국내 주식시장 데이터를 기반으로 한 KOSPI 200 지수의 등락 예측에 제안모형을 적용해 보았다. 이 때, 비교모형으로 로지스틱 회귀모형, 다중판별분석, 의사결정나무, 인공신경망, SVM, 퍼지SVM 등도 함께 적용시켜 성과를 정밀하게 검증해 보고자 하였다. 그 결과, 제안모형이 예측 정확도는 물론 투자수익률(Return on Investment) 측면에서도 다른 모든 비교모형들에 비해 월등히 우수한 성능을 보임을 확인할 수 있었다.

중환자실 섬망 환자와 비섬망 환자 구분에 기여하는 임상 지표에 관한 연구 (A Study on Clinical Variables Contributing to Differentiation of Delirium and Non-Delirium Patients in the ICU)

  • 고찬영;김재진;조동래;오주영;박진영
    • 정신신체의학
    • /
    • 제27권2호
    • /
    • pp.101-110
    • /
    • 2019
  • 연구목적 중환자실 환자들의 섬망 발생 유무와 관련이 되어 있는 것으로 알려진 많은 임상 지표들이 있지만, 이 중 실제 섬망군과 비섬망군을 분류하는 데 있어서 어떠한 지표가 보다 중요한 역할을 하는지에 대한 연구는 충분히 이루어지지 않았다. 본 연구는 중환자실 내에서 섬망이 발생한 군과 발생하지 않은 군 사이의 재실 기간 내 특징을 비교하고, 두 군을 효과적으로 구분할 수 있는 임상 지표들을 확인하고자 하였다. 방 법 2013년 3월 1일부터 2017년 5월 31일까지 강남세브란스병원 중환자실에 있던 6386명의 환자들 중, 섬망과 연관성을 보일 것으로 예상되는 40개의 임상 지표에 대한 데이터가 재실 기간 중 적어도 한 번 이상 측정되거나, 확인이 가능한 환자 1559명을 대상으로 하였다. 무작위 부분집합 특징 선택 방법 및 주성분분석을 사용하여 섬망과 비섬망을 구분하는 데에 기여도가 높은 특징들의 순위를 구하고, 몇 개의 상위 지표가 동시에 사용되었을 때에 섬망과 비섬망을 가장 효율적으로 판별할 수 있는지를 확인하였다. 확인된 상위 지표만을 이용한 것과 전체 임상 지표를 모두 사용하였을 때의 섬망과 비섬망을 구분할 수 있는 정확도에 대해서 비교 분석하였다. 결 과 총 40개 변수 중 32개의 변수에서 섬망과 비섬망군 간 유의미한 차이를 보였다. 주성분 분석(Principal Component Analysis, PCA)상, 상위 6개 변수인 리치몬드 흥분 진정 척도(Richmond Agitation Sedation Scale, RASS), 도뇨관 사용 유무, 혈관 카테터 사용 유무, 해밀턴 불안 척도(Hamilton Anxiety Rating Scale, HAM-A), 혈액 요소 질소(Blood Urea Nitrogen, BUN), 급성 생리학 및 만성 건강 평가-II (Acute Physiology and Chronic Health Examination II, APACHE II)를 사용했을 때에 섬망과 비섬망군이 가장 잘 구분되었다. 이들 상위 6개 변수에 대해 단일 변수 로지스틱 회귀분석 시행 시 모두 섬망 여부 결정에 대한 유의성을 보였다. 다중 변수 회귀분석 시행 시, 혈관 카테터 사용 유무 를 제외하고 나머지 5개 변수에서 모두 섬망 여부 결정에 대한 유의성을 보였다. 수신자판단특성곡선 분석 결과 신뢰구간 95%에서 곡선하면적 0.818로 높은 판별력을 보였다. 전체 임상 변수를 모두 사용한 수신자판단특성곡선 분석 결과에서는 곡선하면적 0.881로 매우 높은 판별력을 보였다. 결 론 본 연구 결과, 리치몬드 흥분 진정 척도, 도뇨관 사용 유무, 혈관 카테터 사용 유무, 해밀턴 불안 척도, 혈액 요소 질소, 급성 생리학 및 만성 건강 평가-II가 섬망이 발생한 군과 섬망이 발생하지 않은 군을 구분하는데 가장 유용하였다. 중환자실 환자 중 리치몬드 흥분 진정 척도 및 해밀턴 불안 척도 점수가 과도하게 낮거나, 도뇨관 및 혈관 카테터 등의 침습적인 시술을 사용하였을 경우 좀 더 집중적인 모니터링을 통해 섬망의 가능성을 살펴보아야 할 것이다.