• 제목/요약/키워드: Input Variables

검색결과 1,764건 처리시간 0.024초

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

대청호의 시공간적 수질 변화 특성 및 호수내 유입지천의 영향 (Spatio-temporal Fluctuations with Influences of Inflowing Tributary Streams on Water Quality in Daecheong Reservoir)

  • 김경현;이재훈;안광국
    • 생태와환경
    • /
    • 제45권2호
    • /
    • pp.158-173
    • /
    • 2012
  • 본 연구는 대청호 본류유역 7개 지점과 대청호 유입지류 8개 지점을 선정하여 2001년부터 2010년까지 측정된 환경부 수질자료를 분석해 시 공간적 변이를 파악하고, 더불어 대청호 유입 지류에 의한 대청호 수질의 영향을 분석하였다. 본류 수역의 연평균 수질 자료 분석결과에 따르면, 질소(N) 및 인(P)의 농도는 호수대 내에서 상류역에서 댐(M7)으로 갈수록 거리에 따라 1차 함수적으로 감소하는 경향을 보였다. 호수내 유수대(M1~M3), 전이대(M4~M6) 및 정수대(M7)의 TN과 TP는 외국 인공호들과 마찬가지로 뚜렷한 Zonation 패턴을 보였다. 반면, 호수내 유기물 지표로서 엽록소(CHL)와 BOD는 TN과 TP의 구간별 연속적 감소 패턴과는 달리 전이대에서 최고치를 보였다. 유수대에서는 몬순 집중강우기인 8월에 TP가 377 ${\mu}gL^{-1}$로서 최대치를 보였으나, 정수대에서는 7월에 165 ${\mu}gL^{-1}$로서 최대치를 보였다. 한편, 유수대의 TN은 3월 최대치(8.52 $mg\;L^{-1}$)를 보였으며, 정수대의 TN은 본류에 비해 상대적으로 낮은 수치를 보였고, 최대치는 8월 (3.76 $mg\;L^{-1}$)에 관측되었다. 집중강우에 의한 이온희석현상은 9~10월에 극명하게 나타났다. 호수내 제한요인의 평가지표로서 이용되는 TN : TP 비는 88 이상으로서 이미 대청호는 질소가 과잉공급 상태인 것으로 사료되었다. 몬순강우에 따라 호수의 수질은 악화되는 경향을 보였으며, TP와 SS가 강우에 가장 민감하게 반응하였고, CHL은 정수대의 변이 폭이 높게 나타났다. 호수내로 유입되는 지천의 영향평가에 따르면, 도심형 하천이자 농공단지와 하수처리장의 영향을 받고 있는 T1, T2 및 호수내에 가장 큰 영향을 줄 것으로 사료되는 옥천천(T5)의 오염도가 가장 높게 나타났다. 호수의 경험적 모델 분석에 다르면, 호수내에서 CHL의 변이는 유수대($R_z$: $R_2$=0.044, p=0.264)와 전이대 ($T_z$: $R_2$=0.126, p=0.054)에서 TN에 의해 통계학적 유의성을 보이지 않았으나, 정수대($L_z$)에서 질소는 조류 생장에 억제효과($R_2$=0.458, p=0.032)를 가질 수 있는 것으로 나타났다. 한편, 유입 지천($I_w$)의 TN은 호수내($I_r$)의 CHL의 변이에 통계학적으로 유의성이 없는 것으로 나타났고($R_2$=0.258, p=0.110), 유입 지천($I_w$)의 TP는 호수내($I_r$)의 CHL의 변이에 통계학적으로 유의성이 있는 것으로 나타났다 ($R_2$=0.567, p=0.005). 즉, 지천의 TP 유입은 대청호의 조류 생장에 직접적으로 영향을 주는 것을 의미하였다. 한편, 대청호의 TN : TP 비는 지천의 TN보다는 TP에 의한 영향을 받는 것으로 나타나 결국 TN : TP 비는 직접적으로 인(P)의 농도에 의해 조절되는 것으로 나타났다. 따라서 호수내의 여름철 TP와 SS 유입을 최소화 시키고, 높은 인이 유입되는 도심형 하천(옥천천)의 수질 개선이 대청호의 수질 개선에 큰 도움을 줄 것으로 사료되었다.

스마트 전시 환경에서 프로모션 적용 사례 및 분석 (Case Analysis of the Promotion Methodologies in the Smart Exhibition Environment)

  • 문현실;김남희;김재경
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.171-183
    • /
    • 2012
  • 세계가 급변하고 시시각각 발전하는 기술 속에서 전시 산업은 국가와 기업의 중요한 홍보 수단으로 부각되고 있다. 특히, 전시회에 참여하는 참여업체는 상품 또는 서비스를 전시하고 메시지를 전달하기 위해 마련된 개별 전시공간을 통해 기업들과 소비자들에게 단기간에 신제품과 신기술에 대한 정보를 제공할 수 있으며 국내외 시장의 욕구와 추세변화 및 경쟁업체들에 대한 정보를 파악할 수 있다. 참여업체들은 이러한 참가 목적의 달성을 위해 다양한 프로모션을 계획하고 실행하며 프로모션 정보를 참관객에게 실시간으로 제공할 수 있는 스마트 전시 환경의 구축은 이전보다 다양한 프로모션 기법의 적용 및 실행을 가능하게 하였다. 하지만, 이러한 스마트 전시 환경의 발전에도 불구하고 현재 실행되고 있는 프로모션은 참관객의 욕구나 목표에 대한 이해가 부족한 상태에서 무차별적인 매스마케팅 형태로 진행되어 그 본래의 목적을 상실하고 있다. 따라서, 본 연구에서는 참여업체의 차별화된 프로모션의 계획과 실행을 위해 기존에 널리 사용되는 마케팅 기법인 STP 전략의 프로세스를 도입하여 스마트 전시 환경에서 프로모션에 적합한 참관객을 자동적으로 선정하여 프로모션 정보를 제공하는 시스템을 제안하였다. 특히, 본 연구에서는 다음과 같은 스마트 전시회의 특성을 고려한다. 먼저, 전시회는 전시업체가 관람객과 상호작용하기 위해 모인 일시적이고 시간에 민감한 시장이다. 따라서, 불충분한 기존 참관객의 정보를 이용하는 것이 아닌 신규 참관객 분석의 관점에서 서비스를 제공할 수 있어야 한다. 두 번째로, 스마트 전시 환경에서는 참관객의 정보를 실시간으로 획득할 수 있다는 장점이 있는 반면에 데이터의 분석 및 서비스의 제공이 실시간으로 이루어져야 한다. 마지막으로, 참관객이 스마트 전시 환경에서 만들어 내는 데이터를 활용하는 기법이 필요하다. 스마트 전시 환경에서는 유용한 데이터를 실시간으로 획득할 수 있어 참관객이 전시회 내에서 하는 활동을 분석하는 행위적 세분화에 근거한 접근방식이 필요하다. 이러한 특성을 고려하여 본 연구에서는 제안한 시스템을 실제 전시회에 파일럿 시스템 형태로 적용하여 참관객을 실시간으로 분류 및 분석하고 각 메시지에 대한 성과를 측정하는 실험을 진행하였다. 그 결과, 전시 참관객의 행동 패턴을 4가지로 분류하여 각 군집별 특성을 프로모션 메시지의 성과로 측정하여 그에 적합한 프로모션 전략을 도출하였다. 이러한 프로모션 전략은 실제 전시 참여업체의 프로모션 기획 및 실행에 중요한 전략적 도구로 사용되어 프로모션 성과를 높일 수 있을 것으로 기대된다.

한정된 O-D조사자료를 이용한 주 전체의 트럭교통예측방법 개발 (DEVELOPMENT OF STATEWIDE TRUCK TRAFFIC FORECASTING METHOD BY USING LIMITED O-D SURVEY DATA)

  • 박만배
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1995년도 제27회 학술발표회
    • /
    • pp.101-113
    • /
    • 1995
  • The objective of this research is to test the feasibility of developing a statewide truck traffic forecasting methodology for Wisconsin by using Origin-Destination surveys, traffic counts, classification counts, and other data that are routinely collected by the Wisconsin Department of Transportation (WisDOT). Development of a feasible model will permit estimation of future truck traffic for every major link in the network. This will provide the basis for improved estimation of future pavement deterioration. Pavement damage rises exponentially as axle weight increases, and trucks are responsible for most of the traffic-induced damage to pavement. Consequently, forecasts of truck traffic are critical to pavement management systems. The pavement Management Decision Supporting System (PMDSS) prepared by WisDOT in May 1990 combines pavement inventory and performance data with a knowledge base consisting of rules for evaluation, problem identification and rehabilitation recommendation. Without a r.easonable truck traffic forecasting methodology, PMDSS is not able to project pavement performance trends in order to make assessment and recommendations in the future years. However, none of WisDOT's existing forecasting methodologies has been designed specifically for predicting truck movements on a statewide highway network. For this research, the Origin-Destination survey data avaiiable from WisDOT, including two stateline areas, one county, and five cities, are analyzed and the zone-to'||'&'||'not;zone truck trip tables are developed. The resulting Origin-Destination Trip Length Frequency (00 TLF) distributions by trip type are applied to the Gravity Model (GM) for comparison with comparable TLFs from the GM. The gravity model is calibrated to obtain friction factor curves for the three trip types, Internal-Internal (I-I), Internal-External (I-E), and External-External (E-E). ~oth "macro-scale" calibration and "micro-scale" calibration are performed. The comparison of the statewide GM TLF with the 00 TLF for the macro-scale calibration does not provide suitable results because the available 00 survey data do not represent an unbiased sample of statewide truck trips. For the "micro-scale" calibration, "partial" GM trip tables that correspond to the 00 survey trip tables are extracted from the full statewide GM trip table. These "partial" GM trip tables are then merged and a partial GM TLF is created. The GM friction factor curves are adjusted until the partial GM TLF matches the 00 TLF. Three friction factor curves, one for each trip type, resulting from the micro-scale calibration produce a reasonable GM truck trip model. A key methodological issue for GM. calibration involves the use of multiple friction factor curves versus a single friction factor curve for each trip type in order to estimate truck trips with reasonable accuracy. A single friction factor curve for each of the three trip types was found to reproduce the 00 TLFs from the calibration data base. Given the very limited trip generation data available for this research, additional refinement of the gravity model using multiple mction factor curves for each trip type was not warranted. In the traditional urban transportation planning studies, the zonal trip productions and attractions and region-wide OD TLFs are available. However, for this research, the information available for the development .of the GM model is limited to Ground Counts (GC) and a limited set ofOD TLFs. The GM is calibrated using the limited OD data, but the OD data are not adequate to obtain good estimates of truck trip productions and attractions .. Consequently, zonal productions and attractions are estimated using zonal population as a first approximation. Then, Selected Link based (SELINK) analyses are used to adjust the productions and attractions and possibly recalibrate the GM. The SELINK adjustment process involves identifying the origins and destinations of all truck trips that are assigned to a specified "selected link" as the result of a standard traffic assignment. A link adjustment factor is computed as the ratio of the actual volume for the link (ground count) to the total assigned volume. This link adjustment factor is then applied to all of the origin and destination zones of the trips using that "selected link". Selected link based analyses are conducted by using both 16 selected links and 32 selected links. The result of SELINK analysis by u~ing 32 selected links provides the least %RMSE in the screenline volume analysis. In addition, the stability of the GM truck estimating model is preserved by using 32 selected links with three SELINK adjustments, that is, the GM remains calibrated despite substantial changes in the input productions and attractions. The coverage of zones provided by 32 selected links is satisfactory. Increasing the number of repetitions beyond four is not reasonable because the stability of GM model in reproducing the OD TLF reaches its limits. The total volume of truck traffic captured by 32 selected links is 107% of total trip productions. But more importantly, ~ELINK adjustment factors for all of the zones can be computed. Evaluation of the travel demand model resulting from the SELINK adjustments is conducted by using screenline volume analysis, functional class and route specific volume analysis, area specific volume analysis, production and attraction analysis, and Vehicle Miles of Travel (VMT) analysis. Screenline volume analysis by using four screenlines with 28 check points are used for evaluation of the adequacy of the overall model. The total trucks crossing the screenlines are compared to the ground count totals. L V/GC ratios of 0.958 by using 32 selected links and 1.001 by using 16 selected links are obtained. The %RM:SE for the four screenlines is inversely proportional to the average ground count totals by screenline .. The magnitude of %RM:SE for the four screenlines resulting from the fourth and last GM run by using 32 and 16 selected links is 22% and 31 % respectively. These results are similar to the overall %RMSE achieved for the 32 and 16 selected links themselves of 19% and 33% respectively. This implies that the SELINICanalysis results are reasonable for all sections of the state.Functional class and route specific volume analysis is possible by using the available 154 classification count check points. The truck traffic crossing the Interstate highways (ISH) with 37 check points, the US highways (USH) with 50 check points, and the State highways (STH) with 67 check points is compared to the actual ground count totals. The magnitude of the overall link volume to ground count ratio by route does not provide any specific pattern of over or underestimate. However, the %R11SE for the ISH shows the least value while that for the STH shows the largest value. This pattern is consistent with the screenline analysis and the overall relationship between %RMSE and ground count volume groups. Area specific volume analysis provides another broad statewide measure of the performance of the overall model. The truck traffic in the North area with 26 check points, the West area with 36 check points, the East area with 29 check points, and the South area with 64 check points are compared to the actual ground count totals. The four areas show similar results. No specific patterns in the L V/GC ratio by area are found. In addition, the %RMSE is computed for each of the four areas. The %RMSEs for the North, West, East, and South areas are 92%, 49%, 27%, and 35% respectively, whereas, the average ground counts are 481, 1383, 1532, and 3154 respectively. As for the screenline and volume range analyses, the %RMSE is inversely related to average link volume. 'The SELINK adjustments of productions and attractions resulted in a very substantial reduction in the total in-state zonal productions and attractions. The initial in-state zonal trip generation model can now be revised with a new trip production's trip rate (total adjusted productions/total population) and a new trip attraction's trip rate. Revised zonal production and attraction adjustment factors can then be developed that only reflect the impact of the SELINK adjustments that cause mcreases or , decreases from the revised zonal estimate of productions and attractions. Analysis of the revised production adjustment factors is conducted by plotting the factors on the state map. The east area of the state including the counties of Brown, Outagamie, Shawano, Wmnebago, Fond du Lac, Marathon shows comparatively large values of the revised adjustment factors. Overall, both small and large values of the revised adjustment factors are scattered around Wisconsin. This suggests that more independent variables beyond just 226; population are needed for the development of the heavy truck trip generation model. More independent variables including zonal employment data (office employees and manufacturing employees) by industry type, zonal private trucks 226; owned and zonal income data which are not available currently should be considered. A plot of frequency distribution of the in-state zones as a function of the revised production and attraction adjustment factors shows the overall " adjustment resulting from the SELINK analysis process. Overall, the revised SELINK adjustments show that the productions for many zones are reduced by, a factor of 0.5 to 0.8 while the productions for ~ relatively few zones are increased by factors from 1.1 to 4 with most of the factors in the 3.0 range. No obvious explanation for the frequency distribution could be found. The revised SELINK adjustments overall appear to be reasonable. The heavy truck VMT analysis is conducted by comparing the 1990 heavy truck VMT that is forecasted by the GM truck forecasting model, 2.975 billions, with the WisDOT computed data. This gives an estimate that is 18.3% less than the WisDOT computation of 3.642 billions of VMT. The WisDOT estimates are based on the sampling the link volumes for USH, 8TH, and CTH. This implies potential error in sampling the average link volume. The WisDOT estimate of heavy truck VMT cannot be tabulated by the three trip types, I-I, I-E ('||'&'||'pound;-I), and E-E. In contrast, the GM forecasting model shows that the proportion ofE-E VMT out of total VMT is 21.24%. In addition, tabulation of heavy truck VMT by route functional class shows that the proportion of truck traffic traversing the freeways and expressways is 76.5%. Only 14.1% of total freeway truck traffic is I-I trips, while 80% of total collector truck traffic is I-I trips. This implies that freeways are traversed mainly by I-E and E-E truck traffic while collectors are used mainly by I-I truck traffic. Other tabulations such as average heavy truck speed by trip type, average travel distance by trip type and the VMT distribution by trip type, route functional class and travel speed are useful information for highway planners to understand the characteristics of statewide heavy truck trip patternS. Heavy truck volumes for the target year 2010 are forecasted by using the GM truck forecasting model. Four scenarios are used. Fo~ better forecasting, ground count- based segment adjustment factors are developed and applied. ISH 90 '||'&'||' 94 and USH 41 are used as example routes. The forecasting results by using the ground count-based segment adjustment factors are satisfactory for long range planning purposes, but additional ground counts would be useful for USH 41. Sensitivity analysis provides estimates of the impacts of the alternative growth rates including information about changes in the trip types using key routes. The network'||'&'||'not;based GMcan easily model scenarios with different rates of growth in rural versus . . urban areas, small versus large cities, and in-state zones versus external stations. cities, and in-state zones versus external stations.

  • PDF