• 제목/요약/키워드: Web Search Engines

검색결과 209건 처리시간 0.029초

엔터티 검색의 정확성을 높이기 위한 검색 키워드 마이닝 (Mining Search Keywords for Improving the Accuracy of Entity Search)

  • 이선구;온병원;정수목
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.451-464
    • /
    • 2016
  • 최근 Google Product Search와 Yahoo Pipes와 같은 엔터티 검색이 각광을 받고 있다. 특정 엔터티와 관련 있는 웹 페이지를 검색하기 위해 엔터티 검색이 사용된다. 그러나 엔터티(예를 들면, 차이나타운 영화)가 다양한 의미(예를 들면, 차이나타운 영화, 차이나타운 음식점, 인천 차이나타운 등)을 포함하고 있다면 엔터티 검색의 정확성은 크게 떨어진다. 이러한 문제를 해결하기 위해, 본 논문에서는 웹 페이지의 빈도수와 엔터티 관련성 간의 상관관계를 고려하여, Frequent Pattern (FP)-Tree에 기반을 둔 질의어의 중요도를 측정하고 베스트 질의어를 제안하는 새로운 방안을 제안한다. 본 논문의 실험 결과에 의하면, 기존 방안의 정확도가 10% 미만인데 비해, 제안 방안의 평균 정확도는 59%로, 약 5배 향상시킨다.

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

다중 검색엔진을 활용한 보안관제 모델 개선방안 (Improvement Mechanism of Security Monitoring and Control Model Using Multiple Search Engines)

  • 이제국;조인준
    • 한국콘텐츠학회논문지
    • /
    • 제21권1호
    • /
    • pp.284-291
    • /
    • 2021
  • 현재 보안관제 시스템은 공격자의 공격 후 대응만을 위한 수동적인 시스템으로 운용됨에 따라 공격 발생 이후 침해사고 대응이 일반적이다. 특히, 신규 자산 추가 및 실제 서비스가 이루어지는 경우 실제 해커의 관점에서 취약점 테스트 및 사전 방어에 한계가 있다. 본 논문에서는 해킹 관련 다중 검색엔진을 활용하여 보호 자산의 사전 취약점 대응 기능을 추가한 보안관제 모델을 새롭게 제안하였다. 즉, 범용 또는 특수한 목적을 지닌 다중의 검색엔진을 이용하여 보호 대상 자산의 특수한 취약점을 사전에 점검하고, 점검결과로 나타난 자산의 취약점을 사전에 제거하도록 하였다. 그리고 실제 해커의 입장에서 인지되는 보호 자산의 객관적인 공격 취약점을 미리 점검하는 기능, IP 대역에 위치한 광범위한 시스템 관련 취약점을 사전에 발굴하여 제거하는 기능 등을 추가로 제시하였다.

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

인터넷 육아정보 제공 사이트에 대한 평가 (The Evaluation of the Child-Care Web Sites on the Internet)

  • 한경자;김정수;김숙영
    • Child Health Nursing Research
    • /
    • 제12권1호
    • /
    • pp.57-64
    • /
    • 2006
  • Purpose: This study was conducted to analyze web sites that provide child-care information and to provide a proper model for child-care web sites. Method: The evaluation tool with 23 items including purpose, contents, timeliness and reliability, interaction, and function was developed and modified. Quantitative analyses of 48 web sites, which were selected using popular search engines, were done. Result: 1) The aim of the web site was clearly shown for 24 sites (63.2%) and 17 sites (44.7%) provided the information for judging whether the informant was an expert. 2) Most web sites provided information on feeding, nutrition, and common health problems, and 11 sites provided information on care of problem behavior, but only 6 sites provided information on mother-infant interaction. 3) Timely information was provided on 21 sites, however none of the sites provided information sources. 4) Methods for contact the authors were found for 31 sites (81.6%) and 19 sites (50%) had active bulletin boards to receive opinions from users. 5) There were 32 sites where information could be found by clicking less than 3 times. Conclusion: We suggest that the evaluation criteria for child-care web sites used in this study is a tool that can be used to evaluate web sites with consistency, but there is a need for further study to develop standardization of the evaluating tool.

  • PDF

An analysis of user behaviors on the search engine results pages based on the demographic characteristics

  • Bitirim, Yiltan;Ertugrul, Duygu Celik
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.2840-2861
    • /
    • 2020
  • The purpose of this survey-based study is to make an analysis of search engine users' behaviors on the Search Engine Results Pages (SERPs) based on the three demographic characteristics gender, age, and program studying. In this study, a questionnaire was designed with 12 closed-ended questions. Remaining questions other than the demographic characteristic related ones were about "tab", "advertisement", "spelling suggestion", "related query suggestion", "instant search suggestion", "video result", "image result", "pagination" and the amount of clicking results. The questionnaire was used and the data collected were analyzed with the descriptive statistics as well as the inferential statistics. 84.2% of the study population was reached. Some of the major results are as follows: Most of each demographic characteristic category (i.e. female, male, under-20, 20-24, above-24, English computer engineering, Turkish computer engineering, software engineering) have rarely or more click for tab, spelling suggestion, related query suggestion, instant search suggestion, video result, image result, and pagination. More than 50.0% of female category click advertisement rarely; however, for the others, 50.0% or more never click advertisement. For every demographic characteristic category, between 78.0% and 85.4% click 10 or fewer results. This study would be the first attempt with its complete content and design. Search engine providers and researchers would gain knowledge to user behaviors about the usage of the SERPs based on the demographic characteristics.

User Perceptions of Uncertainty in the Selection of Information Retrieval System: Implications for System and Service Improvement

  • Kim, Yang-Woo
    • International Journal of Contents
    • /
    • 제5권3호
    • /
    • pp.40-49
    • /
    • 2009
  • While numerous studies have suggested the significance of uncertainty during the process of information-seeking, less research has investigated user uncertainty in the actual search process using a real system. This study investigated user perceptions of uncertainty in the process of the selection of information retrieval system in the real information-seeking process. Considering the role of commercial Web search engines as supplementary tools for traditional bibliographic databases in academic research environments, this study analyzed the selection behavior of scholarly researchers, who use such search tools for their academic study. The researchers were limited to the discipline of science in order to understand user perceptions in this field. The findings revealed various dimensions, types, and incidents of uncertainty. Variations appeared in different incidents of uncertainty relating to the unique characteristics of the subjects' information-seeking context. The identification of three principal origins of uncertainty based on the different types of uncertainty generated implications to improve information systems and services.

Main Content Extraction from Web Pages Based on Node Characteristics

  • Liu, Qingtang;Shao, Mingbo;Wu, Linjing;Zhao, Gang;Fan, Guilin;Li, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.39-48
    • /
    • 2017
  • Main content extraction of web pages is widely used in search engines, web content aggregation and mobile Internet browsing. However, a mass of irrelevant information such as advertisement, irrelevant navigation and trash information is included in web pages. Such irrelevant information reduces the efficiency of web content processing in content-based applications. The purpose of this paper is to propose an automatic main content extraction method of web pages. In this method, we use two indicators to describe characteristics of web pages: text density and hyperlink density. According to continuous distribution of similar content on a page, we use an estimation algorithm to judge if a node is a content node or a noisy node based on characteristics of the node and neighboring nodes. This algorithm enables us to filter advertisement nodes and irrelevant navigation. Experimental results on 10 news websites revealed that our algorithm could achieve a 96.34% average acceptable rate.

레시피 관련 웹 사이트 중 한국음식 레시피의 자료 분석 및 검토 (Analysis of Recipes for Korean Foods in Web Sites)

  • 윤미옥;문현경
    • 대한영양사협회학술지
    • /
    • 제10권4호
    • /
    • pp.390-400
    • /
    • 2004
  • Food and nutrition sites are the major portion of the health information sites. For the point of public health it is very important to secure validity and reliability of information on those web sites. Therefore, in this study we would like to identify problems when acquiring recipes in web sites by analyzing and reviewing recipes in web sites. To investigate Korean food recipes provided in web sites, domestic search engines such as Simmani, Naver, Hanmir, and Empas and foreign search engines such as Yahoo Korea, Lycos and Altabista Korea were used. Searchs were done using 'recipe' and 'Joribeob (cooking method)' from March 20, 2002 to June 20, 2002. Informations in each sites were reviewed and analyzed Results are as follow; When classifying 46sites searched with 'Joribeob' by the information provider, 24sites were individual, 16sites were corporate and 6sites were others. When searching 'recipe', total 12,654recipes were returned. Out of them, individual provided 2,581sites(20.4%), corporate provided 7,249sites(57.3%), and others provided 2,824sites(22.3%). 9,979(78.9%) recipes out of 12,654recipes were proved to be appropriate as Korean food. Classifying recipes by dish group, vegetables 11.7%, soups and hot soups 9.7%, stew and casseroles 8.2%, pan cakes 8.0%, stir fried foods and skewers 7.8%, rice 7.2%, hard boiled food 7.1%, steam 6.4%, noodles and mandu 5.3%, Kimchi 4.5%, fried 4.1%, and porridge 3.7% in order. 21.1% of recipes were not appropriate as Korean food but provided as Korean Food. The proportion of individual as the information provider were higher than that of enterprises. Recipes from enterprises were based on food and nutrient information and more reliable. However, there were some cases that they provided the same amount of ingredients with different calories or provided the same calories with different ingredients. Additionally, depending on sites, they provided different calories even for the same recipe. There were some cases that the calories provided on the site were too high or too low, for the suggested amount of ingredients and serving size. Recipes those provide amount of calories were evaluated using the nutrient analysis program. Calculated calories and provided calories on the Web were compared together. There are difference between two valus. With these results, it may lead misuse of recipe by those who need accuracy in diet such as patients or who are interested in recipe information for academic purposes. These results could be used as basic materials to improve quantity and quality of recipes in the future. Also, to improve the accuracy of recipies for Korean foods in the web sites, there should be some systems to monitor and let internet users know monitoring results.

  • PDF

시맨틱 웹 기반 와인 지식 검색을 위한 웹 서비스 설계 (Framework Design for Wine Knowledge-based Semantic Web Services)

  • 전현주;윤호창;최광웅
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.237-243
    • /
    • 2005
  • Well-Being과 관련해서 삶의 질과 관련된 관심이 증가하면서 와인의 관심과 수요가 증가하고 있다. 이와 같은 시기에 와인의 종류 또는 와인과 어울리는 음식과 같은 여러 가지 지식에 관한 서비스를 온톨로지를 이용하여 사용자가 와인에 관한 정보를 보다 효율적으로 얻도록 하는 것이 필요 된다. 본 연구에서는 와인 온톨로지를 기반으로 시멘틱웹 기술을 활용한 와인 지식 검색 서비스 설계를 제안한다.

  • PDF