• 제목/요약/키워드: 빅데이터시각화

검색결과 231건 처리시간 0.024초

프로세스 마이닝을 이용한 군수품 계약업무 분석 : 공군 군수사 계약업무를 중심으로 (Analysis of Munitions Contract Work Using Process Mining)

  • 주용선;김수환
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.41-59
    • /
    • 2022
  • 군수물자의 적기 조달은 군의 작전능력 유지를 위해서 필수적이며, 계약업무는 적기 조달을 위한 첫 단추라고 할 수 있다. 또한 신속한 계약체결은 수요자의 여유로운 납기설정을 가능케 하며, 예산 집행의 가능성을 높여주기 때문에 예산의 조기집행과 이·불용 방지를 위해서도 계약 프로세스 개선이 필수적이다. 최근 빅데이터를 이용한 연구가 여러 분야에서 활발히 진행되고 있으며, 빅데이터를 이용한 프로세스 분석 및 개선 기법인 프로세스 마이닝 역시 민간에서 널리 활용되고 있다. 하지만 군 내 계약업무에 대한 분석은 업무 담당자의 경험과 단편적인 정보를 활용한 이·불용 문제사례별 원인 파악 및 대응적 모색과 같은 개별적 분석수준에 그치고 있다. 본 연구는 계약 프로세스 개선을 위해 공군 군수사령부 재정처가 2019년 11월부터 약 1년간 직접 계약한 총 560건의 계약업무에 관한 데이터를 가지고 프로세스 마이닝 기법을 이용하여 분석하였다. 분산된 데이터를 종합하여 프로세스 맵을 도출하고, 프로세스의 흐름, 수행시간 분석, 병목 분석 및 추가 세부분석을 실시했다. 분석결과 다수 계약 건에서 의뢰 후 재검토/수정이 반복 발생하고 있음을 발견할 수 있었다. 반복적인 재검토/수정은 원가계산 완료까지의 소요일수 지연에 크게 영향을 미치고 있으며, 이는 병목 지점 시각화를 통해서도 명확하게 드러났다. 재검토/수정은 계약의뢰가 많은 상위 5개 부서에서 60% 이상 발생하고, 의뢰가 집중되는 상반기에 주로 발생하는데 이는 소요부서의 계약의뢰 전 면밀한 사전검토가 필요함을 의미한다. 그리고 재정처의 계약업무는 법령에 따른 절차대로 수행되고 있었으나, 일부 업무의 순서조정이 필요함을 알 수 있었다. 본 연구는 군 내 계약업무 분석에 프로세스 마이닝을 이용한 첫 사례이다. 이를 기반으로 프로세스 마이닝을 군대 내 다양한 업무에 적용하기 위한 연구가 더욱 수행된다면, 각종 업무의 효율화를 이끌어 낼 수 있을 것으로 기대한다.

국가핵심기술 관계망 구축을 통한 연관정보 분석연구: 디스플레이 기술을 중심으로 (A Study on the Analysis of Related Information through the Establishment of the National Core Technology Network: Focused on Display Technology)

  • 박세희;윤원석;장항배
    • 한국전자거래학회지
    • /
    • 제26권2호
    • /
    • pp.123-141
    • /
    • 2021
  • 경제 구조의 기술 의존성이 강해져 국가핵심기술의 중요성은 더욱 대두되고 있다. 하지만 기술 자체적 특성으로 인해 연관 범위가 추상적이고 국가핵심기술 고유의 특성상 정보공개가 제한적이기 때문에 보호대상이 될 기술의 범위를 정하는 것에 어려움이 있다. 이를 해결하기 위해 국가핵심기술과 연관성이 높은 중요 기술을 판별하는 데에 최적화 된 문헌 종류와 분석 기법을 제안하였다. 디스플레이 분야 국가핵심기술 키워드로 수집한 네 개 문헌종류(뉴스, 논문, 보고서, 특허) 데이터에 빅데이터 분석의 텍스트 마이닝 분석기법인 TF-IDF와 LDA 토픽 모델링을 적용하는 파일럿 테스트를 진행하였다. 그 결과로 특허 데이터에 LDA 토픽 모델링을 적용한 결과가 국가핵심기술과 연관성이 높은 중요기술을 추출하였다. OLED, 마이크로LED를 포함하여 디스플레이 전후방산업에 관련된 중요 기술을 판별 할 수 있었으며 이 결과를 관계망으로 시각화하여 국가핵심기술과 연관된 중요 기술의 범위를 명확히 하였다. 본 연구를 통해 기술이 가지는 연관범위의 모호성을 보다 명확히 하였으며, 국가핵심기술이 가지는 제한적인 정보공개 특성을 극복할 수 있다.

뉴스기사 빅데이터의 키워드분석을 활용한 창업 트렌드 분석:2013~2022 (Analysis entrepreneurship trends using keyword analysis of news article Big Data :2013~2022)

  • 김재억;전병훈
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.83-97
    • /
    • 2023
  • 본 연구는 시멘틱 네트워크 분석을 통해 방대한 뉴스 기사를 분석하여 창업 트렌드를 파악하고자 하였다. 한국언론진흥재단에서 제공하는 빅카인즈 기사 분석 서비스를 이용해 2013년 1월부터 2022년 12월까지 19개 신문사의 뉴스 기사 330,628건을 종합적으로 분석하였다. 이 연구는 사회적 환경과 글로벌 경제 트렌드가 창업에 미치는 영향을 고려하여 최근 10년 동안 주요 이슈의 변화를 탐구하는 데 중점을 두었다. 또한 코로나-19 팬데믹 전후의 뉴스 기사 수와 이슈 변화를 비교하여 빈도 분석, 관계 분석, 연관어 분석을 통해 창업 트렌드를 시각화 하여 제시하였다. 연구 결과, 창업 연관어의 상위 키워드는 창업의 활성화, 사업화 등이고, 코로나-19와 창업 키워드 간의 상관관계는 선형적인 의미에서 거의 무시할 수 있는 수준이었으나, 팬데믹 기간동안 뉴스 기사 수는 감소하여 영향을 미치는 것으로 나타났다. 특히 가장 많이 언급된 키워드는 중소벤처기업부, 장소는 미국, 인물은 한정화. 기관은 중소벤처기업부로 나타났으며 창업분야는 어떤 분야보다 사회적 이슈에 다각적인 영향을 받고,시기적 접근 빈도가 증가하는 중요한 특징이 나타났다. 본 연구결과는 창업 관련 이슈 및 사건에 대한 이해와 탐구에 필수적인 기초자료를 제공하여 향후 해당 분야 연구주제를 제안할 연구로서의 의미가 있다.

  • PDF

영어 위키피디아 페이지뷰를 통한 한중일 국가 인지도 비교 (A study on the nation images of the big three exporting countries in East Asia shown in Wikipedia English-Edition)

  • 이영환;전희주;송영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1071-1085
    • /
    • 2015
  • 본 연구에서 우리는 인터넷 상에서 경쟁국과의 경쟁력을 제고 할 수 있는 국가정책 수립이나 국가정책 수행 평가 등에 사용할 수 있는 실시간으로 국가이미지를 추출하고자 하였다. 이를 위하여 여러 선행연구와 위키피디아에 정의된 카테고리를 참고하여 온라인 특성을 고려한 국가이미지에 대한 온톨로지 구축하였다. 이렇게 구축된 온톨로지는 국가이미지를 위한 소셜미디어를 장단점을 고려하여 선택된 영어판 위키피디아 상에서 최근 6년간 한중일 삼국의 국가이미지를 추출하는데 적용되었다. 추출된 삼국의 국가이미지의 차이를 시각화하여 분석하기 위하여 대응분석 (correspondence analysis)으로 한 중 일 3국 간의 정치, 사회, 문화, 경제 인지도 간의 상대적인 관련성을 표현하고 분석하였다. 삼국의 이미지 분석 결과는 다음과 같다. 대응분석을 이용한 삼국의 이미지 분석 결과 각 나라를 대표하는 이미지가 합리적으로 도출되었음이 확인되었다. 또한 과거 정책의 변화와 이미지 변화를 검증한 결과 정책의 변화의 성공과 실패를 검증할 수 있음을 확인하였다. 따라서 국가정책 수립이나 수행평가 등에 사용할 수 있음을 확인하였다.

ICT기반의 물정보 통합관리시스템 개발 연구 (The Development Study on the Integrated Management System for Water Information based on ICT)

  • 홍석민;장암
    • 대한환경공학회지
    • /
    • 제39권12호
    • /
    • pp.723-732
    • /
    • 2017
  • ICT 기술의 발전으로 분산된 물정보의 활용성 문제를 해결하기 위해 '04년 국토부 주도의 물관리정보유통시스템(WINS)이 구축, 운영 중에 있으나, 수자원 분야에 특화 및 일부 제한된 정보만 제공하는 점과 각 기관의 정보제공 강제성이 없어 적극적인 정보공유가 미흡하다는 단점이 있어 왔다. 본 논문은 이러한 문제들을 해결하기 위한 일환으로 ICT기반의 물정보 통합관리 시스템 개발을 위한 국내 물정보 현황을 조사하고, 국내외 관련 시스템들을 비교, 분석하였다. 콘텐츠를 화면으로 구현하기 위해 최신의 ICT기술과 GIS, 실시간 데이터를 결합하여 시각화를 극대화하고 시공간 통합정보 제공을 통해 통합물관리의 롤 모델을 제시할 수 있도록 화면정의서를 작성하였다. 연구결과 및 향후 기대효과는 다음과 같다. 첫째, 기확보된 정부부처, 물기관의 물정보를 활용하여 전국의 수자원, 수도, 지하수 시설물의 위치와 실시간 운영정보를 한 눈에 볼 수 있도록 함으로써 정보기반의 통합물관리 모델을 제시한다. 둘째, 모든 공공기관의 수문 관측 정보와 생활, 농업, 공업용수수용가 정보를 통합할 경우 이를 홍수, 가뭄 분석에 활용하여 예경보 정확도를 향상시킬 수 있고, 사후 복구 및 지원방향에 대한 의사결정에도 활용할 수 있을 것이다. 셋째, 댐 방류량, 각 수위국 수위 정보, 각 지자체 하천 취수장 및 정수처리시설 운영현황, 용수공급구역 정보 및 화학단지, 공업단지 등 점오염원 배출지역 정보를 통합하면 수원에 오염원 유입시 신속한 대응 및 의사결정이 가능해질 것이다. 이러한 선행연구를 바탕으로 K-water는 ICT기반의 물정보 통합관리 시스템을 개발하였고, 이를 물정보포털인 "MyWater"에 탑재하여 일반 국민들에게 서비스 중에 있다.

동시출현단어 분석을 활용한 비탈면 붕괴 예측 및 분석 연구에 관한 지적구조 분석 (Domain Analysis of Research on Prediction and Analysis of Slope Failure by Co-Word Analysis)

  • 김선겸;김승현
    • 지질공학
    • /
    • 제31권3호
    • /
    • pp.307-319
    • /
    • 2021
  • 최근 드론 및 빅데이터, 인공지능 등 디지털 기술을 활용한 비탈면 연구를 수행하고 있으나 다소 미흡한 실정이며, 여전히 비탈면 붕괴 대비에 취약하다. 이러한 이유로 비탈면 붕괴에 효과적으로 대처하기 위해 디지털 기술을 활용한 비탈면 붕괴 예측 및 분석 연구에 대한 발전방향을 제시하는 것이 필연적이며, 이를 위해 비탈면 붕괴 예측 및 분석에 관한 이해가 선제되어야 한다. 본 연구는 비탈면 붕괴 예측 및 분석 연구의 지적구조를 규명하여 연구방향을 제시하기 위해 2016년 1월 1일부터 2020년 12월 31일까지의 5년간의 Web of Science 기반으로 문헌 데이터를 수집하고 이를 동시출현단어를 활용하여 분석하였다. 네트워크 분석을 통하여 세부 주제 영역을 밝히고, 키워드 간의 지적 관계를 시각화하여 관계, 중심성 분석을 통한 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하여 형성된 군집을 다차원축적지도에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 비탈면 붕괴 분석 및 예측 연구의 지적구조를 밝히고, 향후 연구 방향을 찾는데 도움이 될 것으로 기대한다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

'미술'과 '언어' 활동 융합형의 아동 발달지원 교육 프레임워크 개발을 위한 탐색적 연구: 텍스트 마이닝을 중심으로 (An exploratory study for the development of a education framework for supporting children's development in the convergence of "art activity" and "language activity": Focused on Text mining method)

  • 박윤미;김시정
    • 한국융합학회논문지
    • /
    • 제12권3호
    • /
    • pp.297-304
    • /
    • 2021
  • 이 연구는 학령기 아동의 발달지원을 위하여 기존의 미술 치료 및 교육에서 시행되어 온 시각적 사고 중심의 접근에 더하여, 언어 교육 및 치료적 접근을 융합하고자 한 것이다. 이에 언어와 미술의 서로 다른 영역의 융합 가능 영역을 탐색하기 위하여 텍스트 마이닝 기법을 적용하였다. 이에 따라 이 연구는 기초 연구, 예비 DB구축, 텍스트 선별, DB 전 처리 및 확정, 불용어 처리, 텍스트 마이닝 분석 및 융합 가능 역 도출'의 절차에 따라 연구를 진행하였다. 연구 결과, 미술 치료 및 교육과 언어 치료 및 교육 분야에서 나타나는 문헌상의 각 군집을 연계하여 의사소통 및 학습 기능, 문제해결 및 감각 기관, 예술 및 지능, 정보와 의사소통, 가정 및 장애, 주제와 개념화 및 또래, 통합과 재구성 및 태도 등과 관련된 융합역을 도출할 수 있었다. 결론적으로 본 연구를 통하여 향후 미술과 언어의 활동 중심 융합형 프로그램을 설계할 수 있는 프레임워크를 마련하고 아동발달 지원을 위한 총체적 접근을 시도하였다는 점에서 연구의 의의가 있다.

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.