• 제목/요약/키워드: classification and regression trees

검색결과 64건 처리시간 0.026초

CART 분석을 이용한 지하철 마모 영향인자 분석 (Analysis of Factors Influencing upon the Metro Wear Using the Classification and Regression Trees)

  • 정민철;이원우;김정훈;공정식
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2011년도 정기 학술발표대회
    • /
    • pp.38-38
    • /
    • 2011
  • 일반적으로 레일마모는 열차의 주행안전 및 승차감에 미치는 영향이 크고, 소음 진동의 주요원인으로 작용한다. 또한 레일마모가 발생할 경우 궤도구조의 파괴를 촉진시킴으로써 차량 및 궤도유지보수비를 크게 증가시킨다. 따라서 구간 특성 및 환경 영향 인자 등 현장에서 발생하는 마모 원인을 체계적으로 분석함으로써 마모를 저감할 수 있도록 차량운행 조건과 선로선형 및 궤도구조를 설계하는 것은 중요한 과제이다. CART(Classification And Regression Tree; 분류와 회귀나무) 분석은 패키지화된 좋은 분류 및 예측도구 기법으로 나무의 상위 분리수준에서 일반적으로 나타나는 가장 중요한 입력변수들을 사용하는 등의 입력변수를 선정하는 경우 매우 유용하다. 본 연구에서는 다변수 구간특성 및 환경인자를 고려한 검측 자료 상관관계 분석을 위한 회귀 나무기반 모델(TBM: Tree Based Model) 분석 수행을 위해 지하철 2호선 마모 데이터와 마모 데이터에 영향을 미치는 각종 다변수 구간특성 및 환경인자를 사용하였다. 2호선 지하철의 구간특성 인자 및 환경인자는 레일의 종류, 레일의 위치, 도상, 곡률반경, 캔트 슬랙 및 운행 일수 등으로 구분하였다. 레일의 종류는 ks-50kg과 ks-60kg 두 종류의 레일이 있으며, 레일의 위치는 지상과 지하로 크게 구분할 수 있다. 도상은 콘크리트 도상, 자갈 도상과 일부 구간의 방진상 콘크리트 도상으로 구분할 수 있으며, 곡률반경은 직선구간과 완화곡선 구간 및 최소 250m부터 627m까지 분포된 원 곡선 구간으로 구분할 수 있다. 캔트 간격은 최소 96cm 부터 120cm 간격으로 구분하며, 슬랙은 5~9cm에 분포하고, 운행 기간은 해당 기간 동안 유지보수 이력이 없는 구간을 선정하여 2005년부터 2006년까지 4번에 걸쳐 검측된 지하철 2호선 내선 마모데이터를 사용하였다. 총 X1부터 X7까지 총 7개의 구간특성 또는 환경특성을 영향인자로 선정하였으며, 이러한 영향인자에 의해 결정되는 종속 인자로 Y1인 직마모와 Y2인 측마모를 선정하여 이 중 실질적으로 지하철 궤도의 성능 평가에 주요 판단인자로 사용되는 측마모와 구간특성 및 환경영향인자와의 상관관계 분석을 수행하였다. 해당 마모 데이터가 검측되는 기간 동안 유지보수 이력이 없는 12272 point의 데이터를 검출하였고 CART 프로그램을 이용하여 데이터를 분석하였으며, CART 프로그램의 해석을 위해 종속변수인 직마모량은 각 검측 지점의 마모량에 해당하는 등급으로 변환하여 분석을 수행하였다. 레일의 마모에 영향을 미치는 구간특성 및 환경인자와 종속 변수로 사용된 레일의 마모량 사이의 CART를 이용한 상관관계 분석은 실제 구조물에서 영향인자간의 상관 관계와 유사하며, 추후 연구에서는 이를 바탕으로 하여 정량화된 검측 데이터를 종속변수로 하여 구간특성 또는 환경인자 등 외부 영향인자를 고려한 궤도 검측데이터와의 상관관계 분석을 수행할 계획이다.

  • PDF

LCZ 유형이 미세먼지에 미치는 영향에 관한 탐색적 연구 (An Exploratory Study on the Effect of LCZ Type on Particulate Matter)

  • 김연주;문한솔;정주철
    • 환경영향평가
    • /
    • 제32권5호
    • /
    • pp.338-352
    • /
    • 2023
  • 2019년 기준 우리나라는 OECD 38개 국가들 중에서 미세먼지가 가장 심각한 수준이며 같은 해 「재난 및 안전관리 기본법」을 개정하여 미세먼지를 사회재난으로 규정하였다. 현재 정부는 총 5대 분야, 42개 과제, 177개 세부과제로 구성된 미세먼지 관리 종합계획(2022년~2023년)을 마련하여 배출량 저감 목표를 달성하기 위해 노력하고 있다. 하지만 단순히 배출원으로만 저감대책을 세우는 것이 아니라, 도시의 다양한 공간 특성을 고려하여 대책을 마련할 필요가 있다. 따라서 본 연구에서는 부산광역시를 대상으로 도시의 건축물유형과 토지피복유형별 17개의 형태로 분류된 LCZ(Local Climate Zone)분류체계를 활용하여 도시의 형태를 분류하였고, IDW기법을 활용하여 연평균 PM10, PM2.5 농도를 매핑하였다. 또한, LCZ분류체계를 정량화하기 위해 Fragstats와 Moving window를 활용하였다. 마지막으로 상관분석과 회귀분석을 실시하여 LCZ분류체계와 PM10, PM2.5 간의 관계를 분석하였다. 그 결과, 건축물의 높이가 낮은 유형과 나무가 있는 녹지 유형은 PM10, PM2.5 농도에 긍정적인 영향을 주는 것을 확인할 수 있었다. 따라서 본 연구는 효율적인 공간계획에 기반한 미세먼지 저감 정책 수립을 위해 기초 자료로 활용될 것으로 기대된다.

KOSDAQ 시장의 관리종목 지정 탐지 모형 개발 (Development of a Detection Model for the Companies Designated as Administrative Issue in KOSDAQ Market)

  • 신동인;곽기영
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.157-176
    • /
    • 2018
  • 관리종목은 상장폐지 가능성이 높은 기업들을 즉시 퇴출하기 보다는 시장 안에서 일정한 제약을 부여하고, 그러한 기업들에게 상장폐지 사유를 극복할 수 있는 시간적 기회를 주는 제도이다. 뿐만 아니라 이를 투자자 및 시장참여자들에게 공시하여 투자의사결정에 주의를 환기시키는 역할을 한다. 기업의 부실화로 인한 부도 예측에 관한 연구는 많이 있으나, 부실화 가능성이 높은 기업에 대한 사회, 경제적 경보체계라 할 수 있는 관리종목에 관한 연구는 상대적으로 매우 부족하다. 이에 본 연구는 코스닥 기업들 가운데 관리종목 지정 기업과 비관리종목 기업을 표본으로 삼아 로지스틱 회귀분석과 의사결정나무 분석을 이용하여 관리종목 지정 예측 모형을 개발하고 검증하였다. 분석결과에 따르면 로지스틱 회귀분석 모형은 ROE(세전계속사업이익), 자기자본현금흐름률, 총자산회전율을 사용하여 관리종목 지정을 예측하였으며, 전체 평균 예측 정확도는 검증용 데이터셋에 대해 86%의 높은 성능을 보여주었다. 의사결정나무 모형은 현금흐름/총자산과 ROA(당기순이익)를 통한 분류규칙을 적용하여 약 87%의 예측 정확도를 보여주었다. 로지스틱 회귀분석 기반의 관리종목 탐지 모형의 경우 ROE(세전계속사업이익)와 같은 구체적인 관리종목 지정 사유를 반영하면서 기업의 활동성에 초점을 맞추어 관리종목 지정 경향성을 설명하는 반면, 의사결정 관리종목 탐지 모형은 기업의 현금흐름을 중심으로 하여 관리종목 지정을 예측하는 것으로 나타났다.

슬통 진단용 설문지개발 및 진단 일치도 평가연구 (Development of Knee Pain Diagnosis Questionnaire and Clinical Study of Diagnostic Correspondent Rate)

  • 황지후;김유종;김은정;이참결;이은용;이승덕;김갑성
    • Journal of Acupuncture Research
    • /
    • 제29권5호
    • /
    • pp.61-74
    • /
    • 2012
  • Objectives : This study is perfomed for preparation of oriental medicine clinical guidelines for drawing up the standards of oriental medicine demonstration and diagnosis classification about the knee pain. Methods : Statistical analysis about Crane's-knee wind(鶴膝風), arthralgia syndrome(痺症), knee injury(膝傷), gout arthritis(痛風), Youk jeol poung(歷節風) classified experts' opinions about knee pain patients by Delphi method is conducted by using oriental medicine diagnosis questionnaire. The result was classified by using linear discriminant analysis(LDA), diagonal linear discriminant analysis(DLDA), diagonal quadratic discriminant analysis(DQDA), K-nearest neighbor classification(KNN), classification and regression trees(CART), support vector machines(SVM). Results : The results are summarized as follows. 1. The result analyzed by using LDA has a hit rate of 81.65% in comparison with the original diagnosis. 2. The result analyzed by using DLDA has a hit rate of 63.3% in comparison with the original diagnosis. 3. The result analyzed by using DQDA has a hit rate of 65.14% in comparison with the original diagnosis. 4. The result analyzed by using KNN has a hit rate of 74.31% in comparison with the original diagnosis. 5. The result analyzed by using CART has a hit rate of 75.23% in comparison with the original diagnosis when the test of selected 13 significant questions based on analysis of variance was performed. 6. The result analyzed by using SVM has a hit rate of 87.16% in comparison with the original diagnosis. Conclusions : Statistical analysis using oriental medicine diagnosis questionnaire on knee pain generally turned out to have a significant result.

고품질 한우를 위한 여러 경제형질에서의 주요 SNP 규명 (Important SNPs Identification from the Economic Traits for the High Quality Korean Cattle)

  • 이제영;김동철
    • Communications for Statistical Applications and Methods
    • /
    • 제16권1호
    • /
    • pp.67-74
    • /
    • 2009
  • 고품질 한우를 만들기 위해 여러 경제형질에 영향을 주는 유전자 즉 single nucleotide polymorphisms(SNPs)를 규명하려고 한다. 이미 Lee 등 (2008a)에 의해 SNP(19_1)$^*$SNP(28_2)가 등심단면적 (LMA: longissimus muscle dorsi area)에 주요한 유전자로 규명되었다. 여기에 추가로 도체중 (CWT: carcass cold weight)과 일당증체량 (ADG: average daily gain)을 선형 모형에 적용하였으며 또한 상호작용에 더 유리하고 연속형 데이터에도 사용할 수 있는 expanded multifactor dimensionality reduction (expanded MDR)을 이용하여 주요한 SNP를 파악하였다. Expanded MDR 적용결과 등심단면적과 같은 결과인 SNP(19_1)과 SNP(19_1)$^*$SNP(28_2)의 상호작용 형태가 가장 좋은 SNP로 선정되었으며, 최종적으로 SNP(19_1)*SNP(28_2) 마커가 한우의 여러 경제형질에 우수 유전자임을 규명하였다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

위성영상 자료를 이용한 고해상도 가뭄지수 산정모형 개발 (Generation of Fine Resolution Drought Index using Satellite Data)

  • 김광섭;박한균
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2009년도 학술발표회 초록집
    • /
    • pp.1607-1611
    • /
    • 2009
  • 본 연구에서는 현재 가뭄을 관측하는데 주로 이용되는 가뭄지수의 단점 등을 보완하고자 가뭄에 관련되는 식생지수를 연계한 공간해상도 높은 가뭄지수를 제시하였다. 우리나라 지상관측을 통해 산출할 수 있는 PDSI(Palmer Drought Severity Index)와 SPI(Standardized Precipitation Index) 같은 가뭄지수는 기온과 강수량 등의 기후자료만을 이용하여 산정할 수 있다. 두 가뭄지수는 관측하기 어려운 가뭄의 시기와 심도를 설명하고자 여러 연구를 통해 개발한 지수이지만, 두 가뭄지수만을 가지고 우리나라 전역의 가뭄의 공간적인 분포를 설명하기에는 다소 무리가 있다. PDSI의 경우 강수량과 기온과 토양의 수분함유량을 가지고 산출하는데, 전 관측지점을 똑같은 토양수분함유량을 가지고 있다는 가정 하에 계산되고, SPI의 경우 강수량만을 이용하여 산정한다. PDSI의 경우 과거의 가뭄의 정도를 판단하는데 매우유용하다고 알려져 있다. 하지만, 현재의 가뭄정도를 나타내는 데는 문제를 가지고 있고, SPI의 경우는 누적강수량을 가지고 시간단위로 계산한다는 점에서 다양한 가뭄의 정도를 예측할 수 있지만, 입력 자료로 강수량만 들어간다는 점에서 약점을 가진다. 이런 기후지수만을 이용한 가뭄정보 생산이 공간정보를 구현하는데 한계를 가지는 문제점을 개선하고자 가뭄에 직간접적으로 관련이 있는 보다 세밀한 공간정보를 가진 식생, 토지이용, 고도 등의 자료와 기후정보로부터 산정된 가뭄지수간의 관계를 분석하였다. 나아가 기존의 기후지수보다 고해상도를 가진 위성의 정규식생지수(NDVI; Normalized Difference Vegetation Index)와 같은 식생지수를 이용하여 기존보다 더 향상된 해상도의 가뭄지수를 산정하고자 하였다. 우리나라 지상관측소 76개 지점 중에 MODIS(Moderate Resolution Imaging Spectroradiometer) 정규식생지수 자료와의 관계를 분석하고자 자료의 보유기간이 짧은 지점과 섬지점 등을 제외한 57개 지점을 선정하고, 연구기간동안의 강수량과 기온자료를 이용하여 PDSI와 SPI를 산출하였다. PDSI와 SPI자료를 고해상도 가뭄지수 산정의 기본 변수로 사용하기 위하여 역거리가중평균법을 이용한 연구기간동안의 한반도 지역 PDSI와 SPI 가뭄지수 지도를 생산하였다. 각각의 가뭄지수와 식생 상태를 나타내는 NDVI와의 상관특성과 계절 변화에 따른 변화특성을 분석하고, CART(Classification and Regression Trees) 알고리즘을 이용하여, 지상 자료만을 사용한 가뭄지수가 가지는 시공간적 변화 특성 제시에 대한 문제점을 개선한 보다 해상도가 높은 조합가뭄지수를 제시하였다.

  • PDF

비대칭 오류비용을 고려한 분류기준값 최적화와 SVM에 기반한 지능형 침입탐지모형 (An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost)

  • 이현욱;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.157-173
    • /
    • 2011
  • 최근 인터넷 사용의 증가에 따라 네트워크에 연결된 시스템에 대한 악의적인 해킹과 침입이 빈번하게 발생하고 있으며, 각종 시스템을 운영하는 정부기관, 관공서, 기업 등에서는 이러한 해킹 및 침입에 의해 치명적인 타격을 입을 수 있는 상황에 놓여 있다. 이에 따라 인가되지 않았거나 비정상적인 활동들을 탐지, 식별하여 적절하게 대응하는 침입탐지 시스템에 대한 관심과 수요가 높아지고 있으며, 침입탐지 시스템의 예측성능을 개선하려는 연구 또한 활발하게 이루어지고 있다. 본 연구 역시 침입탐지 시스템의 예측성능을 개선하기 위한 새로운 지능형 침입탐지모형을 제안한다. 본 연구의 제안모형은 비교적 높은 예측력을 나타내면서 동시에 일반화 능력이 우수한 것으로 알려진 Support Vector Machine(SVM)을 기반으로, 비대칭 오류비용을 고려한 분류기준값 최적화를 함께 반영하여 침입을 효과적으로 차단할 수 있도록 설계되었다. 제안모형의 우수성을 확인하기 위해, 기존 기법인 로지스틱 회귀분석, 의사결정나무, 인공신경망과의 결과를 비교하였으며 그 결과 제안하는 SVM 모형이 다른 기법에 비해 상대적으로 우수한 성과를 보임을 확인할 수 있었다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

Support Vector Regression에서 분리학습을 이용한 고객의 구매액 예측모형 (The Prediction of Purchase Amount of Customers Using Support Vector Regression with Separated Learning Method)

  • 홍태호;김은미
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.213-225
    • /
    • 2010
  • 본 연구에서는 기업의 마케팅 프로모션에 따른 반응고객의 구매액 예측을 위한 방법을 제시하고 SVR의 효과적인 학습방법을 제시하였다. 프로모션에 의한 고객의 구매액을 기반으로 고객을 5등급으로 등급화하고 각 등급 내에서 SVR을 적용하여 고객의 구매액을 예측하였다. 본 연구에서 제안하는 예측된 고객의 등급 내에서 고객 구매액을 예측하는 분리데이터 학습법이 프로모션에 반응한 모든 고객을 대상으로 구매액을 예측하는 전체데이터 학습법보다 높은 예측성과를 보여주었다. 일반적으로 세분화된 고객집단을 하나의 집단으로 보고 동일한 마케팅 전략을 제시하나 본 연구를 통해 구매액에 따라 등급화 된 고객의 등급 내에서 다시 고객의 거래 구매액을 예측하여 동일한 집단 내에서도 차별화된 마케팅 전략을 제시할 수 있는 기반을 제시하였다. 즉 동일한 등급에서도 고객 구매액에 따라 고객의 우선순위를 정할 수 있으며, 이는 마케팅 담당자가 프로모션을 제시할 고객을 선정할 때 유용한 정보로 활용될 수 있다.