• 제목/요약/키워드: Keyword Analysis

검색결과 1,162건 처리시간 0.033초

문화콘텐츠 빅데이터를 이용한 주가 변수 선행성 분석 (Analysis of the Precedence of Stock Price Variables Using Cultural Content Big Data)

  • 유재필;이지영;정정영
    • 한국콘텐츠학회논문지
    • /
    • 제22권4호
    • /
    • pp.222-230
    • /
    • 2022
  • 최근 한국의 문화콘텐츠 산업이 발전하고 있는 가운데 전 세계적으로 인지도가 높아질 수 있는 배경에는 과학 기술의 발전으로 글로벌 네트워크 사용자들의 실시간 공유 서비스가 있다. 특히 유튜브의 경우에는 한정적인 사용자가 아닌 모든 사람이 잠재적인 영상 제공자가 될 수 있다는 점에서 그 전파력은 빠르고 강력하다. 국내에도 휴대폰 사용자의 약 80% 이상이 유튜브를 이용하고 있는 것으로 나타난 만큼 유튜브의 정보는 사용자의 심리적 요인이 반영되고 있다는 것을 의미한다. 예컨대 특정 성격을 갖고 있는 채널의 영상 조회 수, 좋아요 수 그리고 댓글 수와 같은 정보는 그 채널이 갖는 성격의 관심도에 대한 척도를 보여준다. 이는 포털 사이트의 키워드 검색 빈도와 같은 정보가 경제 심리학적으로 주가 시장과 밀접한 연관이 있다는 것과 관련성이 높다. 따라서 본 연구에서는 대표 엔터테이먼트 사의 유튜브 정보를 크롤링 알고리즘을 통해 수집하고 이를 주가와 관련된 주요 변수와 인과 관계에 대해서 분석한다. 그 결과 유튜브의 관심도는 주가, 주가 변동성 그리고 거래량에 선행적 인과 관계를 보인다는 것을 입증했다. 본 연구는 4차 산업 시대에 맞게 문화콘텐츠, IT 그리고 금융 분야를 접목해서 연구를 진행했다는 점에서 의의가 있다고 사료된다.

빅데이터 분석을 통한 인터넷 뉴스 포털에서의 탈세 논란이 기업 가치에 미치는 영향 연구 (A study on the effect of tax evasion controversy on corporate values in internet news portals through big data analysis)

  • 이상민;박명호;김병준;박대근
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.51-57
    • /
    • 2021
  • 기업의 세금을 절약 혹은 회피하는 행동은 과세관청에 의해 합법적 절세가 아닌 탈세로 판단될 경우 기업은 조세적 비용뿐 아니라 일련의 탈세관련 보도 기사로 인해 기업이미지 손상 및 주가하락과 같은 비조세적 비용까지 부담하게 된다. 이에 본 연구는 인터넷 뉴스 포털에 나타난 탈세 논란 키워드들의 출현빈도를 해당 사건의 심각성을 측정하는 요인으로 정하고 이러한 출현빈도가 기업가치에 미치는 영향을 분석한다. 우리나라 유가증권시장에서 시가총액기준 상위 업체들을 대상으로 탈세 논란 키워드들을 활용하여 인터넷 뉴스 포털로부터 관련 기사를 크롤링하고, 기업별로 탈세 논란 키워드들의 출현빈도에 대한 시계열을 생성하여 출현빈도가 장부가 대비 시가총액에 미치는 영향을 분석한다. 패널회귀분석과 충격반응분석을 통해 분석한 결과 출현빈도는 기업가치에 부정적인 영향을 미치며 12개월까지 점진적으로 효과가 감소되는 것으로 분석된다. 이 연구는 한국기업들을 대상으로 탈세 논란 사안이 기업가치에 영향을 미치는지를 실증적으로 분석한 연구로서, 경영자는 절세전략을 수립 시 이러한 영향력을 고려하는 것이 필요하다는 것을 시사한다.

Archives and Records 학술지 수록 논문을 통한 영국 기록관리학 연구 동향 분석 (A study on the research trends of records management in the UK through articles published in Archives and Records)

  • 김현정
    • 한국기록관리학회지
    • /
    • 제23권3호
    • /
    • pp.63-87
    • /
    • 2023
  • 본 연구는 영국의 대표적인 기록관리학 학술지인 Archives and Records에 수록된 연구 논문을 분석하여 국외 기록관리학 연구의 동향을 살펴보고 국내의 기록관리학 연구 동향과 비교하기 위해 수행되었다. 2013년부터 최근까지 10년 동안 「기록학연구」에 수록된 318편의 논문과 「Archives and Records」에 수록된 142편의 논문을 대상으로 정량분석을 통해 저자 분포와 공동연구의 비율, 소속기관의 유형별 분포, 주제분야별 분포를 파악하고, 「기록학연구」에서 1,251개, 「Archives and Records」에서 508개의 저자키워드를 추출하여 네트워크 분석을 수행한 결과 「기록학연구」에는 (1) 아카이브, 기록, 기록관리, 기록정보 서비스 등 기록관리 일반에 관한 연구, (2) 공공기록물 관련 연구, (3) 민간기록물 관련 연구, 그리고 (4) 기록의 평가·선별, 폐기 등 기록관리의 기술에 관한 연구 등이 군집을 이루고 있고, 「Archives and Records」에는 (1) 커뮤니티 아카이브나 지역 아카이브와 관련한 다양한 실제 사례를 다루는 연구가 많고, (2) 기록의 기술이나 선별, 접근, 보존, 서비스 등 기록관리의 기술과 관련된 연구가 꾸준히 이루어지고 있으며, (3) 구술기록이나 시청각기록 등의 디지털화에 관한 연구도 주요 주제 중 하나라는 점을 알 수 있었다.

학술논문 빅데이터 분석을 활용한 백두대간에 관한 연구동향(2001~2020) 분석 (Study on Research Trends (2001~2020) of the Baekdudaegan Mountains with Big Data Analyses of Academic Journals)

  • 이진규;심형석;이창배
    • 한국산림과학회지
    • /
    • 제111권1호
    • /
    • pp.36-49
    • /
    • 2022
  • 본 연구는 지난 20년(2001-2020)간 백두대간에 관한 전반적인 연구동향과 주요 연구 주제 분석을 통해 향후 연구의 방향성을 제시하고자 하였다. 이를 위해 한국교육학술정보원으로부터 국내 산림생태 관련 총 551편의 논문 제목 및 키워드 데이터를 수집하여 빅데이터 분석프로그램 Textom과 UCINET을 활용하여 분석을 실시하였다. 분석 결과, 백두대간 관련 연구논문은 총 177개의 학회지에 게재되었으며 2011-2015년 사이에 총 229편(41.6%)으로 가장 많은 논문이 게재된 것으로 나타났다. 단어빈도와 N-gram 분석결과, 지난 20년간 백두대간 관련 주요 연구주제는 종다양성으로 도출되었으며, CONCOR 분석을 통해 분류된 15개의 주요 연구영역 그룹 가운데, 종다양성, 식생복원 및 관리, 문화 관련 연구분야에서 활발한 연구가 진행되었음을 알 수 있었다. 백두대간의 생태 관련 연구영역은 그룹 수 12개, 빈도 비율 78.8%였으며, 인문·사회 관련 연구영역은 그룹 수 2개, 빈도 비율 15.6%로 나타나 양적 그리고 다양성 측면에서 큰 차이를 보였다. 본 연구에서 도출된 세부 연구영역과 정량적인 수치는 향후 백두대간 관련 정책 추진 시 기초자료로 유용하게 활용될 수 있을 것으로 판단된다.

여가 스포츠 참여동기 척도 분석에 관한 연구 (A Study on Scale of Participation Motive for Leisure Sports)

  • 김지영;김승현
    • 한국체육학회지인문사회과학편
    • /
    • 제54권3호
    • /
    • pp.439-452
    • /
    • 2015
  • 본 연구는 여가 스포츠 참여동기에 대한 척도 탐색을 통해, 향후 여가활동으로서의 스포츠 활동 참여동기의 세분화를 통해 이용자의 심리적 반응들을 토대로 하여 지속적으로 스포츠 활동에 참여할 수 있도록 하고, 여가스포츠에 참여의 활성화를 위한 기초적인 자료를 제시하는데 그 목적이 있다. 이러한 목적을 달성하기 위하여 국내 주요 검색사이트를 이용하여 스포츠 참여동기가 연구되어진 1997년부터 2012년까지 석, 박사학위논문, 학술지논문 자료를 수집하였다. 우선 '동기'의 키워드를 먼저 검색하고, 여가 스포츠 참여동기를 수행한 연구들을 수합하였다. 수합된 각 동기의 키워드 검색을 통해 검색어들을 적절하게 조합하고, 띄어쓰기를 체크하여 검색하여 문헌분석을 실시하였다. 그 결과 여가스포츠 참여동기는 참여동기, 내적동기, 외적동기, 여가동기, 기타동기로 구분되어 각각 참여동기는 23개의 요인으로, 내적동기는 17개의 요인, 외적동기 17개 요인, 여가동기 8개 요인, 기타동기는 57개의 요인으로 사용되고 있음이 파악되었다. 각각의 요인들을 토대로 하여 그 의미가 비슷하거나 중복되는 요인들을 제외한 76개의 요인을 여가스포츠 참여동기 연구를 위한 요인으로 사용되고 있음이 파악되었다.

텍스트 마이닝을 활용한 Youtube 광고에 대한 소비자 인식 분석 (A Study on Analysis of consumer perception of YouTube advertising using text mining)

  • 엄성원
    • 경영과정보연구
    • /
    • 제39권2호
    • /
    • pp.181-193
    • /
    • 2020
  • 본 연구는 최근에 이슈가 되고 있는 텍스트마이닝을 활용하여 소비자 인식을 분석한 연구이다. 이를 위해 삼성갤럭시 Youtube 광고에 대한 소비자 리뷰 분석을 통해 소비자들이 가지고 있는 삼성 갤럭시에 대한 인식을 분석하였다. 분석을 위해 Youtube 광고의 소비자 리뷰 1,819개를 추출하였다. 이를 데이터 전처리 과정을 거쳐 광고와 관련된 키워드를 명사, 형용사, 부사로 분류하여 추출하였다. 이후 빈도 분석 및 감성 분석을 실시하였으며 마지막으로 구조적 등위성 분석을 통한 군집화를 실시하였다. 본 연구 결과를 간략히 요약하면 다음과 같다. 첫 번째 가장 많이 언급된 단어는 갤럭시 노트(n=217), 좋음(n=135), 펜(n=40), 기능(n=29) 등으로 나타났다. 이는 소비자들이 광고를 통해 "갤럭시 노트", "좋음", "펜", "기능"은 삼성 핸드폰 제품에 대해 기능적인 면이 좋고, 노트 펜에 대해서 긍정적으로 높게 인식한다고 판단할 수 있다. 추가적으로 "삼성페이", "혁신", "디자인", "아이폰" 등에 대한 인식은 삼성 핸드폰에 대해 혁신적인 디자인과 삼성페이의 기능적인 면에서 상당히 좋은 평가를 하는 것을 알 수 있다. 두 번째, Youtube 광고에 대한 감성분석 결과이다. 감성 분석 결과 감성강도 비율이 긍정(75.95%)로 부정(24.05%)보다 높게 나타났다. 이는 소비자들이 삼성 갤럭시 모바일폰에 대해 긍정적으로 인식하고 있음을 의미한다. 감성 키워드 분석 결과 긍정키워드의 경우는 "좋다", "후하다", "혁신적", "최고다", "빠르다", "예쁘다" 등으로 나타났으며, 부정키워드의 경우는 "겁난다", "울고싶다", "불편", "아쉽다", "싫다" 등이 추출되었다. 본 연구이 시사점은 기존 광고에 대한 소비자 인식 연구를 살펴보면 대부분 정량적 분석 방법에 의한 연구가 대부분이었다. 본 연구에서는 광고에 대한 정량적 연구 방법에서 탈피하여 정성적 연구를 통해 소비자 인식분석을 시도하였다. 이는 향후 연구에도 많은 영향을 미칠 것으로 판단되며, 정성적 연구를 통해 소비자 인식 연구의 출발점이 될 것으로 확신한다.

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (2) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (2))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권2호
    • /
    • pp.99-114
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 자소서에 서술된 학생들의 다양한 교내외 활동, 대학 지원 동기, 학업계획 및 향후 영농·영어계획 등의 텍스트 데이터를 대상으로 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 텍스트 마이닝 결과에서 문항 3의 동아리 활동을 비롯한 다양한 활동 사례와 그 과정에서 배우고 느낀 점에 대한 키워드는 '친구' 빈도가 압도적으로 높았으며, '생각', '시간', '의견', '활동', '사람', '학교', '선생님', '학생', '동아리' 등의 키워드 순으로 많이 사용되었다. 문항 4의 대학 지원동기 및 졸업 후 진로계획에 대한 서술 데이터에는 '생각', '농업', '한농대', '농장', '지식', '공부', '사람', '관심', '전문', '아버지' 등의 키워드 빈도가 높게 나타났으며, 이 가운데 '아버지', '한농대', '전문', '농장' 등의 키워드는 다른 질문에 비하여 상위에 나타나는 특징을 보였다. 연관규칙 분석 결과에서 키워드 간 규칙의 발생 빈도이자 중요성을 나타내는 지지도는 문항 3에서 {친구} <=> {생각}, 문항 4에서 {생각} <=> {한국농수산대학} 규칙에서 가장 높게 나타났다. 두 단어 사이 연관성을 나타내는 신뢰도는 문항 3에서 {선생님} => {친구}, 문항 4에서 {농업, 한국농수산대학} => {생각}에서 높게 나타났다. 두 단어 간 밀접성을 나타내는 향상도는 문항 3에서 {친구} <=> {선생님}, 문항 4에서 {지식} <=> {전문}에서 높게 나타났다. 즉 두 단어는 우연히 함께 사용되지 않고 한 단어가 나타나면 뒤에 반드시 나머지 단어가 사용되었다는 것을 의미한다. 또한 키워드 간의 매개체 역할의 분석, 즉 키워드들 사이에 최단 경로를 파악하는 관계 중심성 분석과 연결 edge 수를 평가하는 연결 중심성 분석에서 문항 3은 '친구', '생각', '학교', '시간' 및 '사람', 문항 4는 '생각', '한국농수산대학', '지식' 및 '지원' 등의 키워드의 중심성이 매우 높은 결과를 나타냈다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

토픽 모델링을 활용한 한국의 창업생태계 트렌드 변화 분석 (Analysis on Dynamics of Korea Startup Ecosystems Based on Topic Modeling)

  • 손희영;이명종;변영조
    • 지식경영연구
    • /
    • 제23권4호
    • /
    • pp.315-338
    • /
    • 2022
  • 1986년, 한국은 국가발전의 주축인 중소기업 창업지원을 위한 법 제도를 마련하였다. 이를 기반으로 지난 30여년간 창업정책의 수립 및 발전을 거듭하여 매년 100만 개가 넘는 신규 창업기업이 설립되는 역동적인 창업생태계를 구축하였다. 국가의 정책 방향과 사회, 경제, 문화 등의 외부환경 영향, 그리고 창업지원의 역사를 주요 이슈별로 분석하여 도출된 핵심문장 또는 키워드는 시대별 지원의 특징과 국가지원의 중심내용 등을 확인하는 데 매우 유용하다. 본 연구는 한국의 창업생태계 트렌드 변화를 분석하기 위해 1991년부터 2020년 12월까지 30년간의 언론기사에서 '창업', '벤처', '스타트업' 키워드가 포함된 118만여 건을 추출하고 네트워크 분석과 토픽 모델링을 활용하였다. 분석결과, 한국의 창업생태계 트렌드는 기업 및 산업육성, 확산 그리고 규제 완화, 활황 등, 정부 중심으로 스타트업 생태계의 변화와 발전이 이루어졌음을 파악할 수 있었으며, 다빈도 키워드 분석결과, 생태계 구성요인 간의 연계 활동을 통하여 기업가적인 생산성이 창출되었다. 생산성 창출의 주요 요인으로 한국은 대기업의 휴대폰 산업 발전과 이와 관련된 콘텐츠 스타트업의 성장, 인터넷과 쇼핑몰 중심의 플랫폼 기업의 발전, 그리고 청년창업과 글로벌 진출, 모바일과 인터넷 인프라 중심의 창업기업육성 노력 등으로 파악할 수 있었다. 본 연구는 30년간의 언론기사를 텍스트마이닝과 토픽 모델링을 활용하여 트렌드를 도출하였다. 이는 선행연구가 기존 정부와 정책의 변경 시기를 기준으로 트렌드 변화를 분석한 것과 달리, 언론기사의 키워드와 토픽 변화를 기준으로 창업생태계의 트렌드 변화를 분석하였다는 점에서 학술적 의의뿐만 아니라, 30년 간의 창업생태계 변화 및 주요이슈를 조명해 봄으로써 향후 창업지원의 방향성을 예측할 수 있는 실무적 시사점을 제공하였다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.