• 제목/요약/키워드: web search engine

검색결과 247건 처리시간 0.022초

네트워크 및 웹 서버의 부하를 고려한 지능적인 검색시스템의 설계 및 구현 (Intelligential Search Engine Considering the Load of Web Servers and Networks)

  • 김창근;탁한호
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권8호
    • /
    • pp.1035-1044
    • /
    • 2001
  • 기존의 검색엔진은 분산된 불특정 다수의 웹 서버에 대해 웹 서버 부하, 네트워크 부하를 고려하지 않고 로봇을 동작시키므로 웹서버 및 네트워크의 과부하를 초래한다. 또한 정보의 갱신 기간도 3∼4주 간격으로 필요한 시기에 정보가 갱신되지 않는 경우가 많으며, 웹서버의 내용 변경이 없음에도 불구하고 무조건 웹서버의 내용을 수집하여 갱신한다. 본 논문에서는 네트워크 및 웹서버 부하를 고려한 지능적인 검색시스템을 제안하고, 이 시스템에 필요한 실시간 제어 검색엔진 및 분산되어 있는 정보를 모아서 갱신해 주는 지능적인 로봇을 설계 및 구현하였으며, 네트워크 부하 및 웹 서버의 부하를 모니터링하여 전체 시스템의 성능을 향상시킬 수 있는 로봇 제어 정책을 수립하였다.

  • PDF

온톨로지 기반의 사용자 의도를 고려한 맞춤형 검색 서비스 (Ontology-based User Customized Search Service Considering User Intention)

  • 김수경;김건우
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.129-143
    • /
    • 2012
  • 웹 기술의 급속한 발전은 기업들이 관리해야 하는 정보량의 폭발적인 증가를 초래하였다. 이와 더불어 보다 정확한 정보를 찾기 위한 검색 엔진 솔루션 시장의 규모도 더불어 크게 증가하였다. 하지만 대부분의 검색엔진들은 사용자의 검색 의도를 고려하지 않고 사용자가 입력한 특정 키워드를 포함하는 문서들을 반환하는 방법을 채택하고 있어, 실제 사용자가 원하는 정보를 찾는데 까지는 부가적인 시간과 노력이 요구된다. 본 연구에서는 이러한 문제를 해결 하기 위한 중요 기술인 적합성을 만족시키기 위해 재현율과 정확율을 높일 수 있는 방법을 제안하였다. 우선 검색어의 재현율을 높일 수 있도록 유사어 관계 확장을 위한 온톨로지 스키마 모델을 제안하고 이를 기반으로 한 추론을 통해 검색어의 확장을 제시하였다. 확장된 검색어들을 이용하여 문서 검색을 하기 위한 다단계 유사도 검색 순위화 알고리즘을 제안하였다. 설계된 온톨로지 스키마와 온톨로지 저장소의 데이터를 기반으로 추론과 유사도 검색 순위화 엔진이 포함된 웹사이트 형식의 사용자 의도 적응형 검색 솔루션을 구현하였다. 구현된 검색 솔루션을 통해 다양한 검색어를 입력하여 제안 방법의 타당성을 입증하였고 사용자 의도를 고려한 맞춤형 검색 솔루션의 필요성을 설명하였다.

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;권희용;황호영
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.469-478
    • /
    • 2003
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 이용해서 인터넷에 연결되어 있는 수 많은 웹 서버들을 주기적 또는 비주기적으로 방무나여 자체적인 인텍싱 방법에 따라 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축하고 변겨아는 작업을 계속하고 있다. 이런 일련의 작업은 인터넷 상에 분산되어 있는 막대한 정보를 쉽고 정확하게 찾을 수 있는 게이트 사이트로서의 역할을 담당하기 위한 전략적인 목적으로 진행되고 있다. 수천만 이상의 웹 사이트들을 상대로 하는 정보 수집은 검색 엔진 사이트 중심으로 기존 데이터의 수정과 삭제 등과 같은 데이터 베이스 유지 관리와 신규 사이트들에 대한 자료 수집 작업이 이루어지고 있다. 이러한 작업은 웹 서버에 대한 사전 지식 없이 정보 추출을 위해 웹 로봇을 실행하므로 인터넷 상에 수많은 요구가 전송되고 이는 인터넷 트래픽을 증가 시키는 원인이 되고 있다. 따라서 웹 서버가 사전에 자신이 공개할 문서에 대한 변경 정보를 웹 로봇에게 통보하고 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 한다면 불필요한 인터넷 트래픽을 감소시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 해당 문서에 대한 정보수집 작업을 한다면 불필요한 인터넷 트래픽을 감소 시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 시스템 부하와 검색 엔진의 시스템 부하를 줄일 수 있는 효과를 가질 수 있을 것이다. 본 논문에서는 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동 사항들을 종합 정리해서 변경 문서에 대한 정보를 통보 받기 원하는 등록된 각 웹 로봇에게 전송하는 검사 통보 시스템을 설계 구현하였다. 웹 로봇을 운영하는 검색 엔진에서는 통보된 요약 정보를 이용해서 웹 서버로부터 해당 문서를 전송 받아 필요로 하는 인덱스 정보를 추출해서 데이터베이스를 구축하는 효율적인 웹 로봇을 설계 구현하였다.

검색 효과성에 영향을 미치는 시맨틱웹 검색시스템 품질요인에 관한 연구 (Quality Dimensions Affecting the Effectiveness of a Semantic-Web Search Engine)

  • 한동일;홍일유
    • Asia pacific journal of information systems
    • /
    • 제19권1호
    • /
    • pp.1-31
    • /
    • 2009
  • This paper empirically examines factors that potentially influence the success of a Web-based semantic search engine. A research model has been proposed that shows the impact of quality-related factors upon the effectiveness of a semantic search engine, based on DeLone and McLean's(2003) information systems success model. An empirical study has been conducted to test hypotheses formulated around the research model, and statistical methods were applied to analyze gathered data and draw conclusions. Implications for academics and practitioners are offered based on the findings of the study. The proposed model includes three quality dimensions of a Web-based semantic search engine-namely, information quality, system quality and service quality. These three dimensions each have measures designed to collectively assess the respective dimension. The model is intended to examine the relationship between measures of these quality dimensions and measures of two dependent constructs, including individuals' net benefit and user satisfaction. Individuals' net benefit was measured by the extent to which the user's information needs were adequately met, whereas user satisfaction was measured by a combination of the perceived satisfaction with search results and the perceived satisfaction with the overall system. A total of 23 hypotheses have been formulated around the model, and a questionnaire survey has been conducted using a functional semantic search website created by KT and Hakia, so as to collect data to validate the model. Copies of a questionnaire form were handed out in person to 160 research associates and employees working in the area of designing and developing semantic search engines. Those who received the form, 148 respondents returned valid responses. The survey form asked respondents to use the given website to answer questions concerning the system. The results of the empirical study have indicated that, of the three quality dimensions, information quality was found to have the strongest association with the effectiveness of a Web-based semantic search engine. This finding is consistent with the observation in the literature that the aspects of the information quality should serve as a basis for evaluating the search outcomes from a semantic search engine. Measures under the information quality dimension that have a positive effect on informational gratification and user satisfaction were found to be recall and currency. Under the system quality dimension, response time and interactivity, were positively related to informational gratification. On the other hand, only one measure under the service quality dimension, reliability was found to have a positive relationship with user satisfaction. The results were based on the seven hypotheses that have been accepted. One may wonder why 15 out of the 23 hypotheses have been rejected and question the theoretical soundness of the model. However, the correlations between independent variables and dependent variables came out to be fairly high. This suggests that the structural equation model yielded results inconsistent with those of coefficient analysis, because the structural equation model intends to examine the relationship among independent variables as well as the relationship between independent variables and dependent variables. The findings offer some useful implications for owners of a semantic search engine, as far as the design and maintenance of the website is concerned. First, the system should be designed to respond to the user's query as fast as possible. Also it should be designed to support the search process by recommending, revising, and choosing a search query, so as to maximize users' interactions with the system. Second, the system should present search results with maximum recall and currency to effectively meet the users' expectations. Third, it should be capable of providing online services in a reliable and trustworthy manner. Finally, effective increase in user satisfaction requires the improvement of quality factors associated with a semantic search engine, which would in turn help increase the informational gratification for users. The proposed model can serve as a useful framework for measuring the success of a Web-based semantic search engine. Applying the search engine success framework to the measurement of search engine effectiveness has the potential to provide an outline of what areas of a semantic search engine needs improvement, in order to better meet information needs of users. Further research will be needed to make this idea a reality.

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

아파치 스파크 기반 검색엔진의 설계 및 구현 (Design and Implementation of a Search Engine based on Apache Spark)

  • 박기성;최재현;김종배;박제원
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.17-28
    • /
    • 2017
  • 최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.

웹 이용자의 검색엔진 활용 및 탐색 행위와 성향 분석 (Analysis of Search Engine Use, Search Behaviors and Aptitude by Web Users)

  • 이해영
    • 한국문헌정보학회지
    • /
    • 제36권3호
    • /
    • pp.69-91
    • /
    • 2002
  • 본 연구는 웹 이용자들이 검색엔진을 어떻게 선택하여. 어떠한 기능들을 활용하며, 검색결과는 어떻게 평가하는지 그리고 어떤 어려움을 겪고 있는지를 밝혀 보고자 하였다. 28명의 대학의 교수와 대학원생으로 구성된 이용자들을 대상으로 한 인터뷰결과를 분석한다. 연구 결과에 따르면, 본 연구의 참가자들은 검색결과에 대한 평가보다는 특정한 기능이나 익숙함에 근거하여 엔진을 선택하였다. 이들은 통합검색에 대해서는 의견이 양분되어 있었으며, 연산자의 사용이 결과에 미치는 영향이 거의 없다고 보고 있었다. 검색엔진에 대한 평가를 내릴 때에도 검색결과의 정확성외에 결과를 보여주는 인터페이스 디자인에도 상당한 관심을 가지고 있는 것으로 나타났다.

Study on the improvement of Search Engine Optimization

  • Sunhee Yoon
    • International Journal of Advanced Culture Technology
    • /
    • 제11권2호
    • /
    • pp.358-365
    • /
    • 2023
  • As the Internet is used as a major channel for marketing and sales, the top ranking of search engine results is becoming a key competitor among websites. Various methods exist to maintain the top ranking of websites in search engines, typically investing heavily in organic coding or search engine optimization. The purpose of this paper, we present the ranking by recognizing factors that should be removed as negative factors when designing a web page in consideration of website visibility (SEO) because if website visibility is not met, the ranking may fall behind or be completely removed from the search engine index. The experiments that recognized and ranked the negative factors of website visibility proposed in this paper were provided through theory and experiments based on the existing website visibility analysis model. The models analyzed in this paper, we expressed or quantified as scores based on the methodology of each model, and 10 items were selected as negative factors through experiments and ranked as high scores. Therefore, when designing a website, it should be considered that the website is not removed from the search engine index as it is designed by excluding high-ranking items, which are negative factors.

Java를 이용한 정보 검색 최적화 알고리즘에 관한 연구 (A Study on Optimized Information Search Algorithm Using lava)

  • 김용호;정종근;이윤배
    • 한국정보통신학회논문지
    • /
    • 제6권6호
    • /
    • pp.797-804
    • /
    • 2002
  • 최근 멀티미디어 기반의 WWW(World Wide Web) 서비스를 중심으로 하는 인터넷의 사용이 일반화되면서 전 세계의 컴퓨터망에 존재하는 수많은 정보들을 취득할 수 있게 되었다. 따라서, 인터넷이 보편화되기 이전에는 정보의 습득이 중요한 문제가 되었지만 인터넷의 사용이 일반화되고 있는 현대의 사회에서는 정확한 정보를 신속하게 취득하는 것이 중요한 문제로 대두되고 있다. 본 논문에서는 객체 기반의 언어인 Java를 사용하여 인터넷 검색엔진을 설계하고 최적화된 URL을 추출함으로써 인터넷 검색엔진의 구조를 이해하고, 구현 기술을 확보하였다. 논문에서 제안한 검색엔진은 키워드 검색을 제공하며, 사용자인터페이스를 단순화함으로써 사용자의 편의성을 도모하였다. 그리고 기존의 국내 제작 검색엔진들과 비교서 검색된 정보사이트의 양이 적은 대신 검색결과의 배드 링크율은 개선됨을 보였다.

Invisible Web 탐색도구의 성능 비교 및 분석 (The Effectiveness of the Invisible Web Search Tools)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.203-225
    • /
    • 2004
  • 본 연구는 표준 웹 탐색엔진에 색인되지 않는 Invisible Web에 대한 특성과 Invisible Web 탐색도구들을 파악하고, 이들 도구에서 Invisible Web 탐색의 성능을 비교 평가하기 위해 수행되었다. 표준 웹 탐색엔진이 Google과 Invisible Web 탐색엔진인 Incy Wincy, Invisible Web 메타탐색엔진인 Profusion과 Search. com 에서 11개의 탐색질문이 탐색되었다. Profusion과 Search. com, Incy Wincy에서의 Invisible Web(메타) 탐색 기능은 이 세 엔진에서 제공하는 웹 메타탐색기능과도 비교되었다. 탐색결과 Google이 Invisible Web 탐색에서 Invisible Web 탐색엔진보다 .15 -.35 높은 적합성순위정확률을 보였지만 통계적으로 유의한 차이는 아니었다. (${\alpha}$=.055). Invisible Web 탐색엔진에서 웹 메타탐색은 Invisible Web(메타)탐색보다 통계적으로 유의한 수준에서 더 우수한 것으로 나타났다. 성능평가에 사용된 적합성순위정확률은 검색된 문헌의 질 (적합성)과 적합문헌의 순위를 반영하는 정확률 척도로 사용될 수 있음을 보여주었다.