• 제목/요약/키워드: classification error

검색결과 826건 처리시간 0.023초

유전자 알고리즘을 이용한 분류자 앙상블의 최적 선택 (Optimal Selection of Classifier Ensemble Using Genetic Algorithms)

  • 김명종
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.99-112
    • /
    • 2010
  • 앙상블 학습은 분류 및 예측 알고리즘의 성과개선을 위하여 제안된 기계학습 기법이다. 그러나 앙상블 학습은 기저 분류자의 다양성이 부족한 경우 다중공선성 문제로 인하여 성과개선 효과가 미약하고 심지어는 성과가 악화될 수 있다는 문제점이 제기되었다. 본 연구에서는 기저 분류자의 다양성을 확보하고 앙상블 학습의 성과개선 효과를 제고하기 위하여 유전자 알고리즘 기반의 범위 최적화 기법을 제안하고자 한다. 본 연구에서 제안된 최적화 기법을 기업 부실예측 인공신경망 앙상블에 적용한 결과 기저 분류자의 다양성이 확보되고 인공신경망 앙상블의 성과가 유의적으로 개선되었음을 보여주었다.

건설업 산업안전보건관리비 예측 모델 개발 - 일반건설공사(갑)의 공사비 50억미만 공사를 대상으로 - (Development of a Safety and Health Expense Prediction Model in the Construction Industry)

  • 염동준;이미영;오세욱;한승우;김영석
    • 한국건설관리학회논문집
    • /
    • 제16권6호
    • /
    • pp.63-72
    • /
    • 2015
  • 최근 건설프로젝트가 고층화, 대형화, 복잡화됨에 따라 적정 수준의 건설업 산업안전보건관리비 확보 및 사용에 대한 중요성이 증가하고 있다. 그러나 현행 건설업 산업안전보건관리비 계상요율은 공사의 종류 및 규모로만 분류하여 일괄적으로 제시되어 있어 각각의 건설프로젝트가 지니고 있는 공사의 환경 및 특성을 반영하지 못한다는 한계점을 지니고 있다. 따라서 본 연구의 목적은 건설업 산업안전보건관리비 산정 시 건설프로젝트별 공사 환경 및 특성을 고려할 수 있도록 하는 건설업 산업안전보건관리비 예측 모델을 개발하는 것이다. 이를 위해 본 연구에서는 일반건설공사(갑) 50억 미만 공사현장에 대해 현장의 여건 및 건설업 산업안전보건관리비의 사용 실태를 조사하고, 이를 대상으로 통계적 기법인 다중회귀분석에 적용하였다. 분석 결과, 예측 모델은 검증군에 대해 기존 요율로써 산정할 때의 오차율(18.48%)보다 낮은 오차율(4.38%)을 보여, 기존의 방식보다 높은 예측정확도를 보이는 것으로 분석되었다. 개발된 예측 모델을 활용할 경우 각 건설프로젝트가 지닌 공사 환경과 특성이 반영된 보다 현실적인 건설업 산업안전보건관리비를 확보할 수 있을 것으로 예상되며, 이러한 적정 수준의 건설업 산업안전보건관리비 확보는 건설프로젝트에 양질의 안전관리를 제공함은 물론, 나아가 건설 안전사고 최소화 및 건설 재해율 감소에 기여할 것으로 기대된다. 본 연구는 건설업 산업안전보건관리비 예측 모델 개발을 위한 초기단계의 연구로 50억 미만의 일반건설공사(갑)으로 범위를 한정하였으나, 향후 추가적인 데이터 수집을 통해 건설업 전반에서 활용 가능한 건설업 산업안전보건관리비 예측 모델이 개발될 필요가 있다.

대화식 데이터 마이닝 기법을 활용한 자동차 보험사의 인입 콜량 예측 사례 (A Case Study on Forecasting Inbound Calls of Motor Insurance Company Using Interactive Data Mining Technique)

  • 백웅;김남규
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.99-120
    • /
    • 2010
  • 최근 고객들의 비대면 접점 서비스 이용도가 높아짐에 따라, 비대면 채널은 다양한 데이터의 분석을 통해 고객 만족도를 향상시킬 수 있는 유용한 창구로 인식되고 있다. 이러한 비대면 채널의 대표적 영역으로 콜센터를 들 수 있으며, 콜센터 운영에서 고객 만족도에 가장 큰 영향을 미치는 요소는 상담 인력의 규모인 것으로 알려져 있다. 즉, 일정수준 이상의 고객 만족도를 유지하기 위해서는 충분한 상담 인력을 확보하는 것이 관건이지만, 불필요하게 많은 인력을 확보하는 것은 인건비 측면에서 비용의 낭비를 초래할 수 있다. 따라서 부족하지도 않고 넘치지도 않을 정도의 적정 인력을 산출하는 능력은 콜센터 운영의 핵심 경쟁력으로 인식되고 있으며, 최근 콜센터에서는 적정 인력의 규모를 예측하기 위해 WFM(Work Force Management) 업무 전담 부서를 설치하고 콜량을 정확하게 예측하기 위한 노력을 기울이고 있다. 콜량 예측을 위해 현업에서 주로 사용되는 방법은 담당자의 직관에 의존하는 방법으로, 일정기간의 콜량 평균을 담당자가 주관적 판단에 의해 보정함으로써 이루어진다. 하지만 이러한 방식은 담당자의 주관적 성향에 크게 좌우된다는 한계를 갖고 있어서, 최근에는 다양한 예측 모형을 시스템화한 WFMS(Workforce Management System) 패키지가 널리 활용되고 있다. 하지만 이 시스템은 초기 도입 시 매우 고가의 구축비용이 발생하며, 신규 요인 발굴 시 이를 즉각적으로 시스템에 반영하기 어렵다는 한계점을 갖고 있다. 이를 극복하기 위해 본 연구에서는 데이터 마이닝의 대화식 의사결정나무 기법을 이용함으로써, 객관적이면서도 업무 배경 지식을 충분히 활용할 수 있는 예측 모형을 수립하고자 한다. 또한, 본 연구에서 수립한 모형의 정확성 평가를 위해, 국내 최대 규모의 한 자동차 보험사 콜센터의 4년 8개월 간의 실 데이터를 사용한 실험을 수행하고 그 결과를 제시하였다. 실험에서는 기존의 WFMS와 본 연구에서 제안하는 두 가지 모형인 대화식 의사결정나무 기반의 예측 모형, 일반 의사결정나무 기반의 예측 모형의 세 가지 모형에 대해, 다양한 오차 허용범위 하에서의 사고콜 및 고장콜에 대한 예측 적중률을 평가하였다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

전신 뼈 스캔의 오류 감소를 위한 프로세스 구축과 적용 효과 (Building the Process for Reducing Whole Body Bone Scan Errors and its Effect)

  • 김동석;박장원;최재민;심동오;김호성;이영희
    • 핵의학기술
    • /
    • 제21권1호
    • /
    • pp.76-82
    • /
    • 2017
  • 전신 뼈 스캔은 핵의학에서 가장 많은 비중을 차지하는 검사 중 하나이다. 기본적으로 전면상과 후면상을 동시에 획득하는데, 때때로 전면상과 후면상만으로는 병소를 분간하기 어려울 때가 있다. 이러한 경우 SPECT/CT나 추가 정적 영상을 통한 병소의 정확한 위치 확인이 중요하며, 추가 촬영 여부에 대한 최초 판단은 주로 방사선사에 의해 이루어진다. 이에 본원에서는 방사선사의 업무 능력 함양을 위한 다양한 개선활동이 이루어져 왔고, 본 연구에서는 방사선사의 교육 및 표준화된 업무 프로세스 적용이 전신 뼈 스캔 오류 감소에 어떠한 영향을 미치는지 확인하고자 한다. 새로운 프로세스 적용을 위해 몇 가지 시스템이 순차적으로 도입되었다. 첫 번째는 의국 교육 및 테스트의 시행, 두 번째는 추가 촬영이 예상되는 환자를 분류하여 촬영 전에 방사선사가 미리 확인할 수 있는 사전 여과 시스템 도입, 마지막으로 판독의가 방사선사에게 직접 촬영 영상에 대해 피드백 할 수 있는 NMQA라는 커뮤니케이션 시스템을 적용하였다. 결과 확인을 위해 2014년 1월부터 2016년 12월까지 서울아산병원 핵의학과를 내원한 전신 뼈 스캔 환자를 대상으로 조사하였다. 조사 기간 동안 전체 전신 뼈 스캔 대비 NMQA가 전송된 검사 건수를 백분율로 산출하였다. 연간 발생량은 2014년 141건, 2015년 88건, 2016년 86건으로 집계되었고 NMQA 발생률은 2014년 0.88%, 2015년 0.53%, 2016년 0.45%로 감소하였다. 새로운 프로세스가 적용된 2014년 이후 NMQA 발생률이 감소하는 경향을 보였다. 다만 통계적으로 유용성을 확인하기까지는 데이터가 부족하여 향후에도 지속적인 데이터 축적이 필요할 것으로 생각한다. 본 연구를 통해 전신 뼈 스캔 영상 질 향상을 위해 표준화된 업무와 교육의 필요성을 확인하였고 향후에도 지속적인 연구와 관심으로 업데이트가 필요하다고 사료된다.

  • PDF

한정된 O-D조사자료를 이용한 주 전체의 트럭교통예측방법 개발 (DEVELOPMENT OF STATEWIDE TRUCK TRAFFIC FORECASTING METHOD BY USING LIMITED O-D SURVEY DATA)

  • 박만배
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1995년도 제27회 학술발표회
    • /
    • pp.101-113
    • /
    • 1995
  • The objective of this research is to test the feasibility of developing a statewide truck traffic forecasting methodology for Wisconsin by using Origin-Destination surveys, traffic counts, classification counts, and other data that are routinely collected by the Wisconsin Department of Transportation (WisDOT). Development of a feasible model will permit estimation of future truck traffic for every major link in the network. This will provide the basis for improved estimation of future pavement deterioration. Pavement damage rises exponentially as axle weight increases, and trucks are responsible for most of the traffic-induced damage to pavement. Consequently, forecasts of truck traffic are critical to pavement management systems. The pavement Management Decision Supporting System (PMDSS) prepared by WisDOT in May 1990 combines pavement inventory and performance data with a knowledge base consisting of rules for evaluation, problem identification and rehabilitation recommendation. Without a r.easonable truck traffic forecasting methodology, PMDSS is not able to project pavement performance trends in order to make assessment and recommendations in the future years. However, none of WisDOT's existing forecasting methodologies has been designed specifically for predicting truck movements on a statewide highway network. For this research, the Origin-Destination survey data avaiiable from WisDOT, including two stateline areas, one county, and five cities, are analyzed and the zone-to'||'&'||'not;zone truck trip tables are developed. The resulting Origin-Destination Trip Length Frequency (00 TLF) distributions by trip type are applied to the Gravity Model (GM) for comparison with comparable TLFs from the GM. The gravity model is calibrated to obtain friction factor curves for the three trip types, Internal-Internal (I-I), Internal-External (I-E), and External-External (E-E). ~oth "macro-scale" calibration and "micro-scale" calibration are performed. The comparison of the statewide GM TLF with the 00 TLF for the macro-scale calibration does not provide suitable results because the available 00 survey data do not represent an unbiased sample of statewide truck trips. For the "micro-scale" calibration, "partial" GM trip tables that correspond to the 00 survey trip tables are extracted from the full statewide GM trip table. These "partial" GM trip tables are then merged and a partial GM TLF is created. The GM friction factor curves are adjusted until the partial GM TLF matches the 00 TLF. Three friction factor curves, one for each trip type, resulting from the micro-scale calibration produce a reasonable GM truck trip model. A key methodological issue for GM. calibration involves the use of multiple friction factor curves versus a single friction factor curve for each trip type in order to estimate truck trips with reasonable accuracy. A single friction factor curve for each of the three trip types was found to reproduce the 00 TLFs from the calibration data base. Given the very limited trip generation data available for this research, additional refinement of the gravity model using multiple mction factor curves for each trip type was not warranted. In the traditional urban transportation planning studies, the zonal trip productions and attractions and region-wide OD TLFs are available. However, for this research, the information available for the development .of the GM model is limited to Ground Counts (GC) and a limited set ofOD TLFs. The GM is calibrated using the limited OD data, but the OD data are not adequate to obtain good estimates of truck trip productions and attractions .. Consequently, zonal productions and attractions are estimated using zonal population as a first approximation. Then, Selected Link based (SELINK) analyses are used to adjust the productions and attractions and possibly recalibrate the GM. The SELINK adjustment process involves identifying the origins and destinations of all truck trips that are assigned to a specified "selected link" as the result of a standard traffic assignment. A link adjustment factor is computed as the ratio of the actual volume for the link (ground count) to the total assigned volume. This link adjustment factor is then applied to all of the origin and destination zones of the trips using that "selected link". Selected link based analyses are conducted by using both 16 selected links and 32 selected links. The result of SELINK analysis by u~ing 32 selected links provides the least %RMSE in the screenline volume analysis. In addition, the stability of the GM truck estimating model is preserved by using 32 selected links with three SELINK adjustments, that is, the GM remains calibrated despite substantial changes in the input productions and attractions. The coverage of zones provided by 32 selected links is satisfactory. Increasing the number of repetitions beyond four is not reasonable because the stability of GM model in reproducing the OD TLF reaches its limits. The total volume of truck traffic captured by 32 selected links is 107% of total trip productions. But more importantly, ~ELINK adjustment factors for all of the zones can be computed. Evaluation of the travel demand model resulting from the SELINK adjustments is conducted by using screenline volume analysis, functional class and route specific volume analysis, area specific volume analysis, production and attraction analysis, and Vehicle Miles of Travel (VMT) analysis. Screenline volume analysis by using four screenlines with 28 check points are used for evaluation of the adequacy of the overall model. The total trucks crossing the screenlines are compared to the ground count totals. L V/GC ratios of 0.958 by using 32 selected links and 1.001 by using 16 selected links are obtained. The %RM:SE for the four screenlines is inversely proportional to the average ground count totals by screenline .. The magnitude of %RM:SE for the four screenlines resulting from the fourth and last GM run by using 32 and 16 selected links is 22% and 31 % respectively. These results are similar to the overall %RMSE achieved for the 32 and 16 selected links themselves of 19% and 33% respectively. This implies that the SELINICanalysis results are reasonable for all sections of the state.Functional class and route specific volume analysis is possible by using the available 154 classification count check points. The truck traffic crossing the Interstate highways (ISH) with 37 check points, the US highways (USH) with 50 check points, and the State highways (STH) with 67 check points is compared to the actual ground count totals. The magnitude of the overall link volume to ground count ratio by route does not provide any specific pattern of over or underestimate. However, the %R11SE for the ISH shows the least value while that for the STH shows the largest value. This pattern is consistent with the screenline analysis and the overall relationship between %RMSE and ground count volume groups. Area specific volume analysis provides another broad statewide measure of the performance of the overall model. The truck traffic in the North area with 26 check points, the West area with 36 check points, the East area with 29 check points, and the South area with 64 check points are compared to the actual ground count totals. The four areas show similar results. No specific patterns in the L V/GC ratio by area are found. In addition, the %RMSE is computed for each of the four areas. The %RMSEs for the North, West, East, and South areas are 92%, 49%, 27%, and 35% respectively, whereas, the average ground counts are 481, 1383, 1532, and 3154 respectively. As for the screenline and volume range analyses, the %RMSE is inversely related to average link volume. 'The SELINK adjustments of productions and attractions resulted in a very substantial reduction in the total in-state zonal productions and attractions. The initial in-state zonal trip generation model can now be revised with a new trip production's trip rate (total adjusted productions/total population) and a new trip attraction's trip rate. Revised zonal production and attraction adjustment factors can then be developed that only reflect the impact of the SELINK adjustments that cause mcreases or , decreases from the revised zonal estimate of productions and attractions. Analysis of the revised production adjustment factors is conducted by plotting the factors on the state map. The east area of the state including the counties of Brown, Outagamie, Shawano, Wmnebago, Fond du Lac, Marathon shows comparatively large values of the revised adjustment factors. Overall, both small and large values of the revised adjustment factors are scattered around Wisconsin. This suggests that more independent variables beyond just 226; population are needed for the development of the heavy truck trip generation model. More independent variables including zonal employment data (office employees and manufacturing employees) by industry type, zonal private trucks 226; owned and zonal income data which are not available currently should be considered. A plot of frequency distribution of the in-state zones as a function of the revised production and attraction adjustment factors shows the overall " adjustment resulting from the SELINK analysis process. Overall, the revised SELINK adjustments show that the productions for many zones are reduced by, a factor of 0.5 to 0.8 while the productions for ~ relatively few zones are increased by factors from 1.1 to 4 with most of the factors in the 3.0 range. No obvious explanation for the frequency distribution could be found. The revised SELINK adjustments overall appear to be reasonable. The heavy truck VMT analysis is conducted by comparing the 1990 heavy truck VMT that is forecasted by the GM truck forecasting model, 2.975 billions, with the WisDOT computed data. This gives an estimate that is 18.3% less than the WisDOT computation of 3.642 billions of VMT. The WisDOT estimates are based on the sampling the link volumes for USH, 8TH, and CTH. This implies potential error in sampling the average link volume. The WisDOT estimate of heavy truck VMT cannot be tabulated by the three trip types, I-I, I-E ('||'&'||'pound;-I), and E-E. In contrast, the GM forecasting model shows that the proportion ofE-E VMT out of total VMT is 21.24%. In addition, tabulation of heavy truck VMT by route functional class shows that the proportion of truck traffic traversing the freeways and expressways is 76.5%. Only 14.1% of total freeway truck traffic is I-I trips, while 80% of total collector truck traffic is I-I trips. This implies that freeways are traversed mainly by I-E and E-E truck traffic while collectors are used mainly by I-I truck traffic. Other tabulations such as average heavy truck speed by trip type, average travel distance by trip type and the VMT distribution by trip type, route functional class and travel speed are useful information for highway planners to understand the characteristics of statewide heavy truck trip patternS. Heavy truck volumes for the target year 2010 are forecasted by using the GM truck forecasting model. Four scenarios are used. Fo~ better forecasting, ground count- based segment adjustment factors are developed and applied. ISH 90 '||'&'||' 94 and USH 41 are used as example routes. The forecasting results by using the ground count-based segment adjustment factors are satisfactory for long range planning purposes, but additional ground counts would be useful for USH 41. Sensitivity analysis provides estimates of the impacts of the alternative growth rates including information about changes in the trip types using key routes. The network'||'&'||'not;based GMcan easily model scenarios with different rates of growth in rural versus . . urban areas, small versus large cities, and in-state zones versus external stations. cities, and in-state zones versus external stations.

  • PDF