• Title/Summary/Keyword: 검색어 빈도 데이터

Search Result 45, Processing Time 0.039 seconds

A Insight Study on Keyword of 4th Industrial Revolution Utilizing Big Data (빅데이터 분석을 활용한 4차 산업혁명 키워드에 대한 통찰)

  • Nam, Soo-Tai;Jin, Chan-Yong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.153-155
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터를 2011년 이래로 최근 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 가치 창출을 위한 노력을 기하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석도구인 소셜 매트릭스를 활용하여 2017년 5월, 1개월 시점을 설정하고 "4차 산업혁명" 키워드에 대한 소비자들의 인식들을 살펴보았다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 4차 산업혁명 키워드에 대한 연관 검색어 1위는 "후보"가 빈도수(7,613)인 것으로 나타났다. 둘째, 연관 검색어 2위는 "안철수"가 빈도수(7,297), 3위는 "문재인"이 빈도수(5,183)로 각각 나타났다. 다음으로 "4차 산업혁명" 키워드에 대한 검색어 긍정적 여론 빈도수 1위는 새로운(895)으로 나타났고, 부정적 여론 빈도수 1위는 위기(516)가 차지하였다. 이러한 결과 분석결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

Predicting the Number of Confirmed COVID-19 Cases Using Deep Learning Models with Search Term Frequency Data (검색어 빈도 데이터를 반영한 코로나 19 확진자수 예측 딥러닝 모델)

  • Sungwook Jung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.9
    • /
    • pp.387-398
    • /
    • 2023
  • The COVID-19 outbreak has significantly impacted human lifestyles and patterns. It was recommended to avoid face-to-face contact and over-crowded indoor places as much as possible as COVID-19 spreads through air, as well as through droplets or aerosols. Therefore, if a person who has contacted a COVID-19 patient or was at the place where the COVID-19 patient occurred is concerned that he/she may have been infected with COVID-19, it can be fully expected that he/she will search for COVID-19 symptoms on Google. In this study, an exploratory data analysis using deep learning models(DNN & LSTM) was conducted to see if we could predict the number of confirmed COVID-19 cases by summoning Google Trends, which played a major role in surveillance and management of influenza, again and combining it with data on the number of confirmed COVID-19 cases. In particular, search term frequency data used in this study are available publicly and do not invade privacy. When the deep neural network model was applied, Seoul (9.6 million) with the largest population in South Korea and Busan (3.4 million) with the second largest population recorded lower error rates when forecasting including search term frequency data. These analysis results demonstrate that search term frequency data plays an important role in cities with a population above a certain size. We also hope that these predictions can be used as evidentiary materials to decide policies, such as the deregulation or implementation of stronger preventive measures.

A Comparative Study on Effectiveness of Boole logic retrieval, Fuzzy retrieval and Probabilistic retrieval (불논리검색, 퍼지검색, 확률검색의 효율 비교연구)

  • 이젬마;사공철
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.15-18
    • /
    • 1994
  • 본 연구에서는 불논리검색의 단점을 보완하기 위한 가장 강력한 검색 모형인 퍼지검색과 확률검색의 효율을 불논리검색과 상호비교하였다. 실험데이터로 정보학 분야의 한국어 test collection인 KT Test Set을 이용하였고 색인어와 색인어의 문헌내 출현빈도를 바탕으로 퍼지시소러스를 생성하여 시소러스의 NT, BT로 탐색식을 확장한 다음 각각에 대해 3가지 검색을 행하고 검색효율을 평균재현율과 평균정확률로 측정하였다. 실험결과 검색효율은 재현율에서는 확률검색, 불논리검색, 퍼지검색 순으로. 정확률에서는 퍼지검색, 확률검색, 불논리검색 순으로 나타났다.

  • PDF

Learning-based Automatic Keyphrase Indexing from Korean Scientific LIS Articles (자동색인을 위한 학습기반 주요 단어(핵심어) 추출에 관한 연구)

  • Kim, Hea-Jin;Jeoung, Yoo-Kyung
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2017.08a
    • /
    • pp.15-18
    • /
    • 2017
  • 학술 데이터베이스를 통해 방대한 양의 텍스트 데이터에 대한 접근이 가능해지면서, 많은 데이터로부터 중요한 정보를 자동으로 추출하는 것에 대한 필요성 또한 증가하였다. 특히, 텍스트 데이터로부터 중요한 단어나 단어구를 선별하여 자동으로 추출하는 기법은 자료의 효과적인 관리와 정보검색 등 다양한 응용분야에 적용될 수 있는 핵심적인 기술임에도, 한글 텍스트를 대상으로 한 연구는 많이 이루어지지 않고 있다. 기존의 한글 텍스트를 대상으로 한 핵심어 또는 핵심어구 추출 연구들은 단어의 빈도나 동시출현 빈도, 이를 변형한 단어 가중치 등에 근거하여 핵심어(구)를 식별하는 수준에 그쳐있다. 이에 본 연구는 한글 학술논문의 초록으로부터 추출한 다양한 자질 요소들을 학습하여 핵심어(구)를 추출하는 모델을 제안하였고 그 성능을 평가하였다.

  • PDF

Evaluating real-time search query variation for intelligent information retrieval service (지능 정보검색 서비스를 위한 실시간검색어 변화량 평가)

  • Chong, Min-Young
    • Journal of Digital Convergence
    • /
    • v.16 no.12
    • /
    • pp.335-342
    • /
    • 2018
  • The search service, which is a core service of the portal site, presents search queries that are rapidly increasing among the inputted search queries based on the highest instantaneous search frequency, so it is difficult to immediately notify a search query having a high degree of interest for a certain period. Therefore, it is necessary to overcome the above problems and to provide more intelligent information retrieval service by bringing improved analysis results on the change of the search queries. In this paper, we present the criteria for measuring the interest, continuity, and attention of real-time search queries. In addition, according to the criteria, we measure and summarize changes in real-time search queries in hours, days, weeks, and months over a period of time to assess the issues that are of high interest, long-lasting issues of interest, and issues that need attention in the future.

Topical Clustering of Documents using Helmholtz Machines with Competitive Units (Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링)

  • 장정호;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF

Personalized Search Technique using Users' Personal Profiles (사용자 개인 프로파일을 이용한 개인화 검색 기법)

  • Yoon, Sung-Hee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.14 no.3
    • /
    • pp.587-594
    • /
    • 2019
  • This paper proposes a personalized web search technique that produces ranked results reflecting user's query intents and individual interests. The performance of personalized search relies on an effective users' profiling strategy to accurately capture their interests and preferences. User profile is a data set of words and customized weights based on recent user queries and the topic words of web documents from their click history. Personal profile is used to expand a user query to the personalized query before the web search. To determine the exact meaning of ambiguous queries and topic words, this strategy uses WordNet to calculate semantic similarities to words in the user personal profile. Experimental results with query expansion and re-ranking modules installed on general search systems shows enhanced performance with this personalized search technique in terms of precision and recall.

Mining Search Keywords for Improving the Accuracy of Entity Search (엔터티 검색의 정확성을 높이기 위한 검색 키워드 마이닝)

  • Lee, Sun Ku;On, Byung-Won;Jung, Soo-Mok
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.9
    • /
    • pp.451-464
    • /
    • 2016
  • Nowadays, entity search such as Google Product Search and Yahoo Pipes has been in the spotlight. The entity search engines have been used to retrieve web pages relevant with a particular entity. However, if an entity (e.g., Chinatown movie) has various meanings (e.g., Chinatown movies, Chinatown restaurants, and Incheon Chinatown), then the accuracy of the search result will be decreased significantly. To address this problem, in this article, we propose a novel method that quantifies the importance of search queries and then offers the best query for the entity search, based on Frequent Pattern (FP)-Tree, considering the correlation between the entity relevance and the frequency of web pages. According to the experimental results presented in this paper, the proposed method (59% in the average precision) improved the accuracy five times, compared to the traditional query terms (less than 10% in the average precision).

Analysis of interest in implant using a big data: A web-based study (빅 데이터를 이용한 임플란트에 대한 관심도 분석: 웹 기반 연구)

  • Kong, Hyun-Jun
    • The Journal of Korean Academy of Prosthodontics
    • /
    • v.59 no.2
    • /
    • pp.164-172
    • /
    • 2021
  • Purpose: The purpose of this study was to analyze the level of interest that common Internet users have in dental implant using a Google Trends, and to compare the level of interest with big data from National Health Insurance Service. Materials and methods: Google Trends provides a relative search volume for search keywords, which is the average data that visualizes the frequency of searches for those keywords over a specific period of time. Implant was selected as the search keyword to evaluate changes in time flows of general Internet users' interest from 2015 to 2019 with trend line and 6 month moving average. Relative search volume for implant was analyzed with the number of patients who received National Health Insurance coverage for implant. Interest in implant and conventional denture was compared and popular related search keywords were analyzed. Results: Relative search volume for implant has increased gradually and showed a significant positive correlation with the total number of patients (P<.01). Interest in implant was higher than denture for most of the time. Keywords related to implant cost were most frequently observed in all years and related search on implant procedure was increasing. Conclusion: Within the limitations of this study, the public interest in dental implant was gradually increasing and specific areas of interest were changing. Web-based Google Trends data was also compared with traditional data and significant correlation was confirmed.

Multi-class Support Vector Machines Model Based Clustering for Hierarchical Document Categorization in Big Data Environment (빅 데이터 환경에서 계층적 문서 유형 분류를 위한 클러스터링 기반 다중 SVM 모델)

  • Kim, Young Soo;Lee, Byoung Yup
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.11
    • /
    • pp.600-608
    • /
    • 2017
  • Recently data growth rates are growing exponentially according to the rapid expansion of internet. Since users need some of all the information, they carry a heavy workload for examination and discovery of the necessary contents. Therefore information retrieval must provide hierarchical class information and the priority of examination through the evaluation of similarity on query and documents. In this paper we propose an Multi-class support vector machines model based clustering for hierarchical document categorization that make semantic search possible considering the word co-occurrence measures. A combination of hierarchical document categorization and SVM classifier gives high performance for analytical classification of web documents that increase exponentially according to extension of document hierarchy. More information retrieval systems are expected to use our proposed model in their developments and can perform a accurate and rapid information retrieval service.