• 제목/요약/키워드: Multiple input

검색결과 2,077건 처리시간 0.031초

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

함희토류 탄층: 비전통적 희토류 광체로서의 가능성에 대한 고찰 (Rare Earth Elements (REE)-bearing Coal Deposits: Potential of Coal Beds as an Unconventional REE Source)

  • 최우현;박창윤
    • 자원환경지질
    • /
    • 제55권3호
    • /
    • pp.241-259
    • /
    • 2022
  • 희토류 원소 (Rare Earth Elements; REE)는 전통적으로 카보나타이트나 풍화잔류광상에서 채광이 이루어졌다. 하지만, 최근 각종 첨단산업에 활용되는 희토류 원소의 수요증가로 인해, 추가적인 희토류 부존량 확보를 위한 비전통적인 희토류 광상으로서 함희토류 탄층이 주목받고 있다. 함희토류 탄층은 일반적인 탄층보다 높은 농도 (> 300 ppm)의 희토류 원소를 함유하는 탄층을 의미한다. 이는 크게 3가지 성인유형으로 분류되며, 두가지 이상 성인의 복합작용으로 형성되기도 한다. 우선, 육성형 (terrigenous) 함희토류 탄층은 주로 보크사이트 광상 기원 광물들의 이동 및 재퇴적에 의해 형성되며, 주로 LREE (Light REE)가 부화된다. 응회질형 (tuffaceous) 함희토류 탄층은 화산 분출에 기인한 화산재가 석탄 분지에 유입이 되어 형성된다. 이 유형은 주로 화산재기원의 함희토류 광물들과 자생기원의 인산염 광물들이 탄층과 톤스테인층의 경계부에 얇은 층상으로 농집되며, 희토류가 균질하게 분포하는 수평형 REE 패턴을 갖는다. 마지막으로, 열수형 (hydrothermal) 함희토류 탄층은 화성암기원 열수에 의해 희토류가 유입되어 형성된다. 이러한 탄층에서는 함할로겐 인산염 광물들과 함수광물들이 세립질의 자생형으로 존재하며, 주로 HREE (Heavy REE)가 부화된다. 미국은 이미 켄터키주 파이어 클레이 탄층을 대상으로 탐사로부터 선별 및 공정개발을 통해 고순도 산화 희토류의 생산에 성공하였으며, 연간 희토류 소비량의 약 7% 공급을 목표로 연구를 확장하고 있다. 한국의 경우, 경주-영일 탄전의 갈탄층이 응회암층과 함탄층이 협재하는 특징을 보이고, 압밀작용의 영향이 상대적으로 적은 신생대 제3기의 연대를 갖는 것으로 보아 응회질형 함희토류 탄층으로서의 개발 가능성이 기대된다. 따라서, 국내 희토류 공급망 다각화를 위해 함희토류 탄층 대상의 광물, 광상 및 퇴적학적 연구를 통한 개발 가능성 평가가 우선적으로 요구된다.

단변량 기후반응함수를 이용한 금강수계 이수안전도 평가: 하천유지유량 관리 변화를 고려한 사례연구 (Assessment of water supply reliability in the Geum River Basin using univariate climate response functions: a case study for changing instreamflow managements)

  • 김대하;최시중;장수형;강대후
    • 한국수자원학회논문집
    • /
    • 제56권12호
    • /
    • pp.993-1003
    • /
    • 2023
  • 대기온실가스 증가로 전지구 평균기온은 산업화 이전 대비 1.1℃ 상승했고 수자원시스템의 공급능력에 상당한 변화가 예상된다. 본 연구에서는 금강수계 내 여러 중권역의 이수안전도와 기후조건의 관계(기후반응함수)를 단변량 함수로 나타내 기후민감도를 동시에 평가할 수 있는 방법을 제안하였다. 사례연구를 위해 GR6J 모형으로 중권역별 자연유출을 모의했고 이를 Water Evaluation And Planning (WEAP) 최적모형에 입력해 2030년 수요전망에 대한 공급신뢰도를 평가하였다. 여러 중권역의 이수안전도를 동시에 비교하기 위해 평균 강수량과 잠재증발산량의 비율을 독립변수 사용하여 단변량 기후민감도 함수를 개발하였다. 사례연구 결과, 1991-2020 자연유출을 이용해 수계전체 물부족을 최소화시키는 운영을 가정했을 때 공급신뢰도는 19개 중권역 중 보청천유역에서 가장 낮았다. 하천유지유량의 우선순위를 농업용수와 생공용수과 동일하게 조정한 시나리오에서는 보청천유역, 초강유역, 논산천유역의 이수안전도가 크게 감소하는 것으로 나타났다. 보청천유역, 초강유역, 논산천유역의 이수안전도는 모든 기후스트레스 테스테에서 크게 감소한 반면, 미호강유역, 금강공주유역, 금강하구유역은 아주 건조한 기후조건에서만 이수안전도가 감소했다. 대규모 인프라에서의 공급이 원활한 중권역의 기후민감도는 크게 변하지 않았다. 2021-2050 기후전망을 민감도함수에 적용했을 때 금강수계의 공급신뢰도는 대체로 좋아질 가능성이 높지만 하천유지유량 우선순위를 높이게 되면 지형적, 인위적으로 고립된 중권역에서 물부족은 심해질 것으로 분석되었다. 2021-2050기간 금강수계의 이수안전도는 기후스트레스 보다 하천관리정책의 변화에 더 큰 영향을 받을 것으로 판단된다.

감정예측모형의 성과개선을 위한 Support Vector Regression 응용 (Application of Support Vector Regression for Improving the Performance of the Emotion Prediction Model)

  • 김성진;유은정;정민규;김재경;안현철
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.185-202
    • /
    • 2012
  • 오늘날 정보사회에서는 정보에 대한 가치를 인식하고, 이를 위한 정보의 활용과 수집이 중요해지고 있다. 얼굴 표정은 그림 하나가 수천개의 단어를 표현할 수 있듯이 수천 개의 정보를 지니고 있다. 이에 주목하여 최근 얼굴 표정을 통해 사람의 감정을 판단하여 지능형 서비스를 제공하기 위한 시도가 MIT Media Lab을 필두로 활발하게 이루어지고 있다. 전통적으로 기존 연구에서는 인공신경망, 중회귀분석 등의 기법을 통해 사람의 감정을 판단하는 연구가 이루어져 왔다. 하지만 중회귀모형은 예측 정확도가 떨어지고, 인공신경망은 성능은 뛰어나지만 기법 자체가 지닌 과적합화 문제로 인해 한계를 지닌다. 본 연구는 사람들의 자극에 대한 반응으로서 나타나는 얼굴 표정을 통해 감정을 추론해내는 지능형 모형을 개발하는 것을 목표로 한다. 기존 얼굴 표정을 통한 지능형 감정판단모형을 개선하기 위하여, Support Vector Regression(이하 SVR) 기법을 적용하는 새로운 모형을 제시한다. SVR은 기존 Support Vector Machine이 가진 뛰어난 예측 능력을 바탕으로, 회귀문제 영역을 해결하기 위해 확장된 것이다. 본 연구의 제안 모형의 목적은 사람의 얼굴 표정으로부터 쾌/불쾌 수준 그리고 몰입도를 판단할 수 있도록 설계되는 것이다. 모형 구축을 위해 사람들에게 적절한 자극영상을 제공했을 때 나타나는 얼굴 반응들을 수집했고, 이를 기반으로 얼굴 특징점을 도출 및 보정하였다. 이후 전처리 과정을 통해 통계적 유의변수를 추출 후 학습용과 검증용 데이터로 구분하여 SVR 모형을 통해 학습시키고, 평가되도록 하였다. 다수의 일반인들을 대상으로 수집된 실제 데이터셋을 기반으로 제안모형을 적용해 본 결과, 매우 우수한 예측 정확도를 보임을 확인할 수 있었다. 아울러, 중회귀분석이나 인공신경망 기법과 비교했을 때에도 본 연구에서 제안한 SVR 모형이 쾌/불쾌 수준 및 몰입도 모두에서 더 우수한 예측성과를 보임을 확인할 수 있었다. 이는 얼굴 표정에 기반한 감정판단모형으로서 SVR이 상당히 효과적인 수단이 될 수 있다는 점을 알 수 있었다.

창산 김정기의 유적조사와 한국고고학 (Excavation of Kim Jeong-gi and Korean Archeology)

  • 이주헌
    • 헤리티지:역사와 과학
    • /
    • 제50권4호
    • /
    • pp.4-19
    • /
    • 2017
  • 창산 김정기(昌山 金正基, 1930.3.3~2015.8.26)는 우리나라 문화재 발굴사에 있어서 큰 획을 그으신 분이다. 1959년 국립박물관 직원으로 문화재와 인연을 맺으신 이후, 1987년 문화재연구소를 퇴직할 때까지 약 30년에 가까운 세월동안 유적과 유물을 발굴하고 자료를 정리하며 2015년 영면하기 전까지 대학과 발굴 전문기관에서 우리 문화재의 가치와 의미를 밝히려고 노력하였다. 창산은 국내의 기념비적인 고고학 발굴조사를 모두 진두지휘하고 초창기 한국 고고학을 대표하는 학자로 국내외에 알려져 있으며, 한국 고고학에 적지 않은 영향을 남겼다. 그의 활동과 역할은 고고학사적으로 의미가 있으나 나름의 한계 또한 찾아 볼 수 있다. 다양한 성격의 유적이 활발히 조사되어 한국 고고학에 있어 매우 중요한 의미를 가지는 시기로 평가되고 있는 국립박물관의 덕수궁시기(1955~1972년)에 창산은 선사시대 패총유적이나 주거지와 같은 고고학 조사에 적극 참가하여 유적측량과 유구 실측을 비롯하여 사진촬영과 유물 제도 등을 맡아서 하였다. 그는 일본에서 익힌 발굴기술을 마음껏 발휘하였고, 전국을 무대로 종횡무진 이루어진 그의 고고학조사는 학사적으로도 높게 평가되고 있다. 특히, 창산의 견해 가운데 고고학적으로 주목되는 것은 고분에 있어 수릉의 가능성을 지적한 것과 청동기시대 문화의 이해에 "해미문화"라는 지역문화론을 처음으로 언급한 것은 탁견이었다. 1969년 문화재연구실이 설치됨에 따라 그 책임을 맡은 창산은 미약한 규모인 연구실의 운영과 총체적인 책임을 맡아 찬란한 우리문화를 지켜내고자 조사와 연구에 고심하였다. 그는 불국사 복원공사와 경주 천마총, 황남대총의 발굴 등을 성공적으로 수행하였고, 이후 황룡사지, 분황사, 미륵사지 등을 조사하며 삼국시대 불교문화와 가람의 구조를 체계적으로 파악해 보고자 노력하였다. 당시 창산이 기획하여 진행한 대형 발굴조사는 한국 고고학의 기틀을 다짐과 동시에 관련분야의 연구를 활성화시키는데 크게 이바지한 것으로 평가할 수 있다. 무엇보다도 한국 고고학의 계기적인 발전과정 상에서 볼 때, 다양한 발굴조사법의 시도와 체계화, 고고학 전문 인력의 양성과 발굴조사의 대중화, 조사기록의 정형화 및 자료공개 활성화 등은 이 시기 창산의 열정으로 이루어진 성과로 손꼽을 수 있다. 한편, 유적조사에 있어서 정확한 기록과 세심한 주의를 기울이며 열정적으로 발굴에 심혈을 기울인 발굴왕 창산도 유적의 성격을 밝히고 유구를 해석하는 과정에 있어서는 시대적 한계를 벗어나지 못하였는데, 황남대총 주인공 논쟁의 불씨를 남겨둔 것은 그의 역할을 재음미해볼 때 매우 아쉬운 한부분이다.

한정된 O-D조사자료를 이용한 주 전체의 트럭교통예측방법 개발 (DEVELOPMENT OF STATEWIDE TRUCK TRAFFIC FORECASTING METHOD BY USING LIMITED O-D SURVEY DATA)

  • 박만배
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1995년도 제27회 학술발표회
    • /
    • pp.101-113
    • /
    • 1995
  • The objective of this research is to test the feasibility of developing a statewide truck traffic forecasting methodology for Wisconsin by using Origin-Destination surveys, traffic counts, classification counts, and other data that are routinely collected by the Wisconsin Department of Transportation (WisDOT). Development of a feasible model will permit estimation of future truck traffic for every major link in the network. This will provide the basis for improved estimation of future pavement deterioration. Pavement damage rises exponentially as axle weight increases, and trucks are responsible for most of the traffic-induced damage to pavement. Consequently, forecasts of truck traffic are critical to pavement management systems. The pavement Management Decision Supporting System (PMDSS) prepared by WisDOT in May 1990 combines pavement inventory and performance data with a knowledge base consisting of rules for evaluation, problem identification and rehabilitation recommendation. Without a r.easonable truck traffic forecasting methodology, PMDSS is not able to project pavement performance trends in order to make assessment and recommendations in the future years. However, none of WisDOT's existing forecasting methodologies has been designed specifically for predicting truck movements on a statewide highway network. For this research, the Origin-Destination survey data avaiiable from WisDOT, including two stateline areas, one county, and five cities, are analyzed and the zone-to'||'&'||'not;zone truck trip tables are developed. The resulting Origin-Destination Trip Length Frequency (00 TLF) distributions by trip type are applied to the Gravity Model (GM) for comparison with comparable TLFs from the GM. The gravity model is calibrated to obtain friction factor curves for the three trip types, Internal-Internal (I-I), Internal-External (I-E), and External-External (E-E). ~oth "macro-scale" calibration and "micro-scale" calibration are performed. The comparison of the statewide GM TLF with the 00 TLF for the macro-scale calibration does not provide suitable results because the available 00 survey data do not represent an unbiased sample of statewide truck trips. For the "micro-scale" calibration, "partial" GM trip tables that correspond to the 00 survey trip tables are extracted from the full statewide GM trip table. These "partial" GM trip tables are then merged and a partial GM TLF is created. The GM friction factor curves are adjusted until the partial GM TLF matches the 00 TLF. Three friction factor curves, one for each trip type, resulting from the micro-scale calibration produce a reasonable GM truck trip model. A key methodological issue for GM. calibration involves the use of multiple friction factor curves versus a single friction factor curve for each trip type in order to estimate truck trips with reasonable accuracy. A single friction factor curve for each of the three trip types was found to reproduce the 00 TLFs from the calibration data base. Given the very limited trip generation data available for this research, additional refinement of the gravity model using multiple mction factor curves for each trip type was not warranted. In the traditional urban transportation planning studies, the zonal trip productions and attractions and region-wide OD TLFs are available. However, for this research, the information available for the development .of the GM model is limited to Ground Counts (GC) and a limited set ofOD TLFs. The GM is calibrated using the limited OD data, but the OD data are not adequate to obtain good estimates of truck trip productions and attractions .. Consequently, zonal productions and attractions are estimated using zonal population as a first approximation. Then, Selected Link based (SELINK) analyses are used to adjust the productions and attractions and possibly recalibrate the GM. The SELINK adjustment process involves identifying the origins and destinations of all truck trips that are assigned to a specified "selected link" as the result of a standard traffic assignment. A link adjustment factor is computed as the ratio of the actual volume for the link (ground count) to the total assigned volume. This link adjustment factor is then applied to all of the origin and destination zones of the trips using that "selected link". Selected link based analyses are conducted by using both 16 selected links and 32 selected links. The result of SELINK analysis by u~ing 32 selected links provides the least %RMSE in the screenline volume analysis. In addition, the stability of the GM truck estimating model is preserved by using 32 selected links with three SELINK adjustments, that is, the GM remains calibrated despite substantial changes in the input productions and attractions. The coverage of zones provided by 32 selected links is satisfactory. Increasing the number of repetitions beyond four is not reasonable because the stability of GM model in reproducing the OD TLF reaches its limits. The total volume of truck traffic captured by 32 selected links is 107% of total trip productions. But more importantly, ~ELINK adjustment factors for all of the zones can be computed. Evaluation of the travel demand model resulting from the SELINK adjustments is conducted by using screenline volume analysis, functional class and route specific volume analysis, area specific volume analysis, production and attraction analysis, and Vehicle Miles of Travel (VMT) analysis. Screenline volume analysis by using four screenlines with 28 check points are used for evaluation of the adequacy of the overall model. The total trucks crossing the screenlines are compared to the ground count totals. L V/GC ratios of 0.958 by using 32 selected links and 1.001 by using 16 selected links are obtained. The %RM:SE for the four screenlines is inversely proportional to the average ground count totals by screenline .. The magnitude of %RM:SE for the four screenlines resulting from the fourth and last GM run by using 32 and 16 selected links is 22% and 31 % respectively. These results are similar to the overall %RMSE achieved for the 32 and 16 selected links themselves of 19% and 33% respectively. This implies that the SELINICanalysis results are reasonable for all sections of the state.Functional class and route specific volume analysis is possible by using the available 154 classification count check points. The truck traffic crossing the Interstate highways (ISH) with 37 check points, the US highways (USH) with 50 check points, and the State highways (STH) with 67 check points is compared to the actual ground count totals. The magnitude of the overall link volume to ground count ratio by route does not provide any specific pattern of over or underestimate. However, the %R11SE for the ISH shows the least value while that for the STH shows the largest value. This pattern is consistent with the screenline analysis and the overall relationship between %RMSE and ground count volume groups. Area specific volume analysis provides another broad statewide measure of the performance of the overall model. The truck traffic in the North area with 26 check points, the West area with 36 check points, the East area with 29 check points, and the South area with 64 check points are compared to the actual ground count totals. The four areas show similar results. No specific patterns in the L V/GC ratio by area are found. In addition, the %RMSE is computed for each of the four areas. The %RMSEs for the North, West, East, and South areas are 92%, 49%, 27%, and 35% respectively, whereas, the average ground counts are 481, 1383, 1532, and 3154 respectively. As for the screenline and volume range analyses, the %RMSE is inversely related to average link volume. 'The SELINK adjustments of productions and attractions resulted in a very substantial reduction in the total in-state zonal productions and attractions. The initial in-state zonal trip generation model can now be revised with a new trip production's trip rate (total adjusted productions/total population) and a new trip attraction's trip rate. Revised zonal production and attraction adjustment factors can then be developed that only reflect the impact of the SELINK adjustments that cause mcreases or , decreases from the revised zonal estimate of productions and attractions. Analysis of the revised production adjustment factors is conducted by plotting the factors on the state map. The east area of the state including the counties of Brown, Outagamie, Shawano, Wmnebago, Fond du Lac, Marathon shows comparatively large values of the revised adjustment factors. Overall, both small and large values of the revised adjustment factors are scattered around Wisconsin. This suggests that more independent variables beyond just 226; population are needed for the development of the heavy truck trip generation model. More independent variables including zonal employment data (office employees and manufacturing employees) by industry type, zonal private trucks 226; owned and zonal income data which are not available currently should be considered. A plot of frequency distribution of the in-state zones as a function of the revised production and attraction adjustment factors shows the overall " adjustment resulting from the SELINK analysis process. Overall, the revised SELINK adjustments show that the productions for many zones are reduced by, a factor of 0.5 to 0.8 while the productions for ~ relatively few zones are increased by factors from 1.1 to 4 with most of the factors in the 3.0 range. No obvious explanation for the frequency distribution could be found. The revised SELINK adjustments overall appear to be reasonable. The heavy truck VMT analysis is conducted by comparing the 1990 heavy truck VMT that is forecasted by the GM truck forecasting model, 2.975 billions, with the WisDOT computed data. This gives an estimate that is 18.3% less than the WisDOT computation of 3.642 billions of VMT. The WisDOT estimates are based on the sampling the link volumes for USH, 8TH, and CTH. This implies potential error in sampling the average link volume. The WisDOT estimate of heavy truck VMT cannot be tabulated by the three trip types, I-I, I-E ('||'&'||'pound;-I), and E-E. In contrast, the GM forecasting model shows that the proportion ofE-E VMT out of total VMT is 21.24%. In addition, tabulation of heavy truck VMT by route functional class shows that the proportion of truck traffic traversing the freeways and expressways is 76.5%. Only 14.1% of total freeway truck traffic is I-I trips, while 80% of total collector truck traffic is I-I trips. This implies that freeways are traversed mainly by I-E and E-E truck traffic while collectors are used mainly by I-I truck traffic. Other tabulations such as average heavy truck speed by trip type, average travel distance by trip type and the VMT distribution by trip type, route functional class and travel speed are useful information for highway planners to understand the characteristics of statewide heavy truck trip patternS. Heavy truck volumes for the target year 2010 are forecasted by using the GM truck forecasting model. Four scenarios are used. Fo~ better forecasting, ground count- based segment adjustment factors are developed and applied. ISH 90 '||'&'||' 94 and USH 41 are used as example routes. The forecasting results by using the ground count-based segment adjustment factors are satisfactory for long range planning purposes, but additional ground counts would be useful for USH 41. Sensitivity analysis provides estimates of the impacts of the alternative growth rates including information about changes in the trip types using key routes. The network'||'&'||'not;based GMcan easily model scenarios with different rates of growth in rural versus . . urban areas, small versus large cities, and in-state zones versus external stations. cities, and in-state zones versus external stations.

  • PDF

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.