• 제목/요약/키워드: search keyword prediction

검색결과 11건 처리시간 0.021초

인공지능의 사회적 수용도에 따른 키워드 검색량 기반 주가예측모형 비교연구 (Comparison of Models for Stock Price Prediction Based on Keyword Search Volume According to the Social Acceptance of Artificial Intelligence)

  • 조유정;손권상;권오병
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.103-128
    • /
    • 2021
  • 최근 주식의 수익률과 거래량을 설명하는 주요 요인으로서 투자자의 관심도와 주식 관련 정보 전파의 영향력이 부각되고 있다. 또한 인공지능과 같은 혁신 신기술을 개발보급하거나 활용하려는 기업의 경우 거시환경 및 시장 불확실성 때문에 기업의 미래 주식 수익률과 주식 변동성을 예측하기 어렵다는 문제를 가지고 있다. 이는 인공지능 활성화의 장애요인으로 인식되고 있다. 따라서 본 연구의 목적은 인공지능 관련 기술 키워드의 인터넷 검색량을 투자자의 관심 척도로 사용하여, 기업의 주가 변동성을 예측하는 기계학습 모형을 제안하는 것이다. 이를 위해 심층신경망 LSTM(Long Short-Term Memory)과 벡터자기회귀(Vector Autoregression)를 통해 주식시장을 예측하고, 기술의 사회적 수용 단계에 따라 키워드 검색량을 활용한 주가예측 성능 비교를 통해 기업의 투자수익 예측이나 투자자들의 투자전략 의사결정을 지원하는 주가 예측 모형을 구축하였다. 또한 인공지능 기술의 세부 하위 기술에 대한 분석도 실시하여 기술 수용 단계에 따른 세부 기술 키워드 검색량의 변화를 살펴보고 세부기술에 대한 관심도가 주식시장 예측에 미치는 영향을 살펴보았다. 이를 위해 본 연구에서는 인공지능, 딥러닝, 머신러닝 키워드를 선정하여, 2015년 1월 1일부터 2019년 12월 31일까지 5년간의 인터넷 주별 검색량 데이터와 코스닥 상장 기업의 주가 및 거래량 데이터를 수집하여 분석에 활용하였다. 분석 결과 인공지능 기술에 대한 키워드 검색량은 사회적 수용 단계가 진행될수록 증가하는 것으로 나타났고, 기술 키워드를 기반으로 주가예측을 하였을 경우 인식(Awareness)단계에서 가장 높은 정확도를 보였으며, 키워드별로 가장 좋은 예측 성능을 보이는 수용 단계가 다르게 나타남을 확인하였다. 따라서 기술 키워드를 활용한 주가 예측 모델 구축을 위해서는 해당 기술의 하위 기술 분류를 고려할 필요가 있다. 본 연구의 결과는 혁신기술을 기반으로 기업의 투자수익률을 예측하기 위해서는 기술에 대한 대중의 관심이 급증하는 인식 단계를 포착하는 것이 중요하다는 점을 시사한다. 또한 최근 금융권에서 선보이고 있는 빅데이터 기반 로보어드바이저(Robo-advisor) 등 투자 의사 결정 지원 시스템 개발 시 기술의 사회적 수용도를 세분화하여 키워드 검색량 변화를 통해 예측 모델의 정확도를 개선할 수 있다는 점을 시사하고 있다.

인기 검색어의 순위 변화 예측 ('Hot Search Keyword' Rank-Change Prediction)

  • 김도형;강병호;이승룡
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.782-790
    • /
    • 2017
  • 인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.

소셜데이터 및 ARIMA 분석을 활용한 소비자 관점의 헬스케어 기술수요 예측 연구 (A Study on the Demand Forecasting of Healthcare Technology from a Consumer Perspective : Using Social Data and ARIMA Model Approach)

  • 양동원;이준기
    • 한국IT서비스학회지
    • /
    • 제19권4호
    • /
    • pp.49-61
    • /
    • 2020
  • Prior studies on technology predictions attempted to predict the emergence and spread of emerging technologies through the analysis of correlations and changes between data using objective data such as patents and research papers. Most of the previous studies predicted future technologies only from the viewpoint of technology development. Therefore, this study intends to conduct technical forecasting from the perspective of the consumer by using keyword search frequency of search portals such as NAVER before and after the introduction of emerging technologies. In this study, we analyzed healthcare technologies into three types : measurement technology, platform technology, and remote service technology. And for the keyword analysis on the healthcare, we converted the classification of technology perspective into the keyword classification of consumer perspective. (Blood pressure and blood sugar, healthcare diagnosis, appointment and prescription, and remote diagnosis and prescription) Naver Trend is used to analyze keyword trends from a consumer perspective. We also used the ARIMA model as a technology prediction model. Analyzing the search frequency (Naver trend) over 44 months, the final ARIMA models that can predict three types of healthcare technology keyword trends were estimated as "ARIMA (1,2,1) (1,0,0)", "ARIMA (0,1,0) (1,0,0)", "ARIMA (1,1,0) (0,0,0)". In addition, it was confirmed that the values predicted by the time series prediction model and the actual values for 44 months were moving in almost similar patterns in all intervals. Therefore, we can confirm that this time series prediction model for healthcare technology is very suitable.

도시의 검색키워드 유형이 페이스북 페이지 팬 수 및 관광객 수에 미치는 영향에 관한 연구: 서울시를 중심으로 (The Effects of City's Search Keyword Type on Facebook Page Fans and Inbound Tourists : Focusing on Seoul City)

  • 최지혜;이효복
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.93-101
    • /
    • 2017
  • 본 연구는 도시에 대한 키워드 검색량을 관심의 지표로 보고 검색키워드를 유형화하여 각 유형별 검색량이 페이스북 팬 수 및 관광객 수에 미치는 영향을 고찰하고자 하였다. 위계적 커뮤니케이션 효과 모형에 따르면 커뮤니케이션의 효과는 인지-태도-행동의 순차성을 띄는 것으로 나타난다. 이에 따라 검색행동을 통해 특정 도시에 대한 관여 및 지식이 높아진 관광 소비자가 호감을 느끼게 되면 페이스북 팬페이지 가입을 통해 보다 적극적인 정보탐색을 할 것이며, 직접적인 관광행동으로 이어질 것이라고 예측하였다. 이를 위해 구글 트렌드에 나타난 서울시 관련 검색 키워드의 유형 별 검색량과 서울시 해외 공식 계정인 'Seoul Korea'의 팬 수, 마지막으로 서울시 외국인 관광객 수 간의 영향 관계를 검증하였다. 분석결과, 서울시의 검색 키워드 유형은 관광매력 키워드, 자연환경 키워드, 상징적 키워드, 접근적 키워드로 도출되었으며 그 중 페이스북 팬 수에 영향을 미치는 요인은 관광매력 키워드과 상징적 키워드인 것으로 나타났다. 또, 관광매력 키워드와 상징적 키워드는 서울시 페이스북 팬 수를 매개로 서울시 관광객 수에 영향을 미친다는 결과가 도출되었다. 이러한 결과에 따라, 앞으로의 서울시의 외국인 관광 소비자를 대상으로는 관광매력적인 요소와 한국적인 요소를 강조한 메시지를 소구하는 것이 유효할 것이라는 실무적 함의를 제공할 수 있다.

여행자 관심 기반 스마트 여행 수요 예측 모형 개발: 웹검색 트래픽 정보를 중심으로 (The Development of Travel Demand Nowcasting Model Based on Travelers' Attention: Focusing on Web Search Traffic Information)

  • 박도형
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권3호
    • /
    • pp.171-185
    • /
    • 2017
  • Purpose Recently, there has been an increase in attempts to analyze social phenomena, consumption trends, and consumption behavior through a vast amount of customer data such as web search traffic information and social buzz information in various fields such as flu prediction and real estate price prediction. Internet portal service providers such as google and naver are disclosing web search traffic information of online users as services such as google trends and naver trends. Academic and industry are paying attention to research on information search behavior and utilization of online users based on the web search traffic information. Although there are many studies predicting social phenomena, consumption trends, political polls, etc. based on web search traffic information, it is hard to find the research to explain and predict tourism demand and establish tourism policy using it. In this study, we try to use web search traffic information to explain the tourism demand for major cities in Gangwon-do, the representative tourist area in Korea, and to develop a nowcasting model for the demand. Design/methodology/approach In the first step, the literature review on travel demand and web search traffic was conducted in parallel in two directions. In the second stage, we conducted a qualitative research to confirm the information retrieval behavior of the traveler. In the next step, we extracted the representative tourist cities of Gangwon-do and confirmed which keywords were used for the search. In the fourth step, we collected tourist demand data to be used as a dependent variable and collected web search traffic information of each keyword to be used as an independent variable. In the fifth step, we set up a time series benchmark model, and added the web search traffic information to this model to confirm whether the prediction model improved. In the last stage, we analyze the prediction models that are finally selected as optimal and confirm whether the influence of the keywords on the prediction of travel demand. Findings This study has developed a tourism demand forecasting model of Gangwon-do, a representative tourist destination in Korea, by expanding and applying web search traffic information to tourism demand forecasting. We compared the existing time series model with the benchmarking model and confirmed the superiority of the proposed model. In addition, this study also confirms that web search traffic information has a positive correlation with travel demand and precedes it by one or two months, thereby asserting its suitability as a prediction model. Furthermore, by deriving search keywords that have a significant effect on tourism demand forecast for each city, representative characteristics of each region can be selected.

A Study on Change in Perception of Community Service and Demand Prediction based on Big Data

  • Chun-Ok, Jang
    • International Journal of Advanced Culture Technology
    • /
    • 제10권4호
    • /
    • pp.230-237
    • /
    • 2022
  • The Community Social Service Investment project started as a state subsidy project in 2007 and has grown very rapidly in quantitative terms in a short period of time. It is a bottom-up project that discovers the welfare needs of people and plans and provides services suitable for them. The purpose of this study is to analyze using big data to determine the social response to local community service investment projects. For this, data was collected and analyzed by crawling with a specific keyword of community service investment project on Google and Naver sites. As for the analysis contents, monthly search volume, related keywords, monthly search volume, search rate by age, and gender search rate were conducted. As a result, 10 items were found as related keywords in Google, and 3 items were found in Naver. The overall results of Google and Naver sites were slightly different, but they increased and decreased at almost the same time. Therefore, it can be seen that the community service investment project continues to attract users' interest.

키워드 네트워크의 클릭 분석을 이용한 특허 데이터 분석 (Patent data analysis using clique analysis in a keyword network)

  • 김현;김동건;조진남
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1273-1284
    • /
    • 2016
  • 본 연구에서는 기계 학습 분야의 특허를 수집하여 키워드 네트워크를 구축하고 클릭 분석을 실시하였다. 먼저 텍스트 마이닝 기법을 적용하여 핵심 키워드들을 선정한 다음, 이 키워드를 기반으로 키워드 네트워크를 구축하였다. 다음으로 네트워크 구조 분석, 중요 키워드 분석 및 클릭 분석을 시행하여 2005년도와 2015년도에 출원된 기계 학습 특허의 동향을 파악하였을 뿐만 아니라 양해년도의 분석 결과를 통해 특허 경향을 파악하였다. 분석 결과 기계 학습 특허의 키워드 네트워크는 밀도와 군집 계수가 낮은 것으로 드러났으며 기계 학습 기법 자체에 대한 특허보다는 다양한 응용 영역에서 기계학습을 적용한 특허들이 다수이기 때문으로 판단된다. 클릭 분석 결과 2005년도 클릭 분석에 의해 발견된 주제는 뉴스메이커 검증, 상품 소비 예측, 바이러스 공격 예방, 바이오마커, 그리고 워크플로우 관리였으며, 2015년도 기계 학습 특허 주제는 디지털 이미지 편집, 직불카드, 수신자 인라이닝 시스템, 유방 촬영 시스템, 재고 관리 시스템, 이미지 편집 시스템, 비행기 티켓 가격 예측, 그리고 문제 예측 시스템으로 나타났다. 2005년도에 비하여 2015년도의 근접 중앙성은 낮아지고 매개 중심성은 높아진 것으로 보아 최근의 특허 경향은 보다 다양한 분야에서 출원되고 있으며 이들 간의 연결이 활발해지고 있음을 알 수 있다. 클릭 분석은 클릭을 형성하는 키워드 집합을 해석하여 주제를 파악하는데 활용될 수 있을 뿐만 아니라 추출된 공유 멤버쉽 키워드 집합은 특허 검색 시스템과 같이 키워드 검색 기반의 시스템에서 검색 키워드로 활용될 수 있을 것으로 기대된다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

최근 10년간 한국인 대상 대사증후군 예측 모델에 대한 체계적 문헌고찰 (Metabolic Syndrome Prediction Model for Koreans in Recent 20 Years: A Systematic review)

  • 성대경;정경식;이시우;백영화
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.662-674
    • /
    • 2021
  • 대사증후군은 심혈관질환과 밀접한 연관성을 가지며, 최근 대사증후군의 예측을 통한 예방에 관심이 증가하고 있다. 본 연구의 목적은 최근 한국인을 대상으로 한 대사증후군의 발병을 예측하는 논문을 수집, 분석, 종합하여 체계적 문헌고찰을 위한 것이다. 체계적 문헌고찰을 위해 자료검색은 Pubmed, WOS의 해외DB와 DBPia, KISS의 국내DB에서 검색하였으며, 'Metabolic Syndrome', 'predict', 'Korea' 세개의 키워드를 AND 조건으로 2011~2020년에 게재된 논문을 대상으로 검색하였다. 총 560편의 논문이 검색되었고 자료선정기준에 따라 최종 22편의 논문이 선별되었다. 대사증후군 예측에 가장 활용도가 높은 변수는 WHtR(AUC=0.897)이고, 가장 많이 사용된 분석방법은 로지스틱 회귀분석(63.6%), 가장 높은 정확도를 보이는 분석방법은 XGBOOST(AUC=0.879)였다. 또한 한의학적 체질 분류를 적용하는 경우 예측 정확도가 약간 향상되었다. 본 연구 결과를 토대로 한국인의 최적의 대사증후군 예측과 관리를 위한 대규모의 지속적 연구가 수반되어야 할 것으로 생각된다.

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.