• 제목/요약/키워드: Web search

검색결과 1,646건 처리시간 0.03초

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;권희용;황호영
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.469-478
    • /
    • 2003
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 이용해서 인터넷에 연결되어 있는 수 많은 웹 서버들을 주기적 또는 비주기적으로 방무나여 자체적인 인텍싱 방법에 따라 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축하고 변겨아는 작업을 계속하고 있다. 이런 일련의 작업은 인터넷 상에 분산되어 있는 막대한 정보를 쉽고 정확하게 찾을 수 있는 게이트 사이트로서의 역할을 담당하기 위한 전략적인 목적으로 진행되고 있다. 수천만 이상의 웹 사이트들을 상대로 하는 정보 수집은 검색 엔진 사이트 중심으로 기존 데이터의 수정과 삭제 등과 같은 데이터 베이스 유지 관리와 신규 사이트들에 대한 자료 수집 작업이 이루어지고 있다. 이러한 작업은 웹 서버에 대한 사전 지식 없이 정보 추출을 위해 웹 로봇을 실행하므로 인터넷 상에 수많은 요구가 전송되고 이는 인터넷 트래픽을 증가 시키는 원인이 되고 있다. 따라서 웹 서버가 사전에 자신이 공개할 문서에 대한 변경 정보를 웹 로봇에게 통보하고 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 한다면 불필요한 인터넷 트래픽을 감소시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 해당 문서에 대한 정보수집 작업을 한다면 불필요한 인터넷 트래픽을 감소 시킬 수 있을 뿐만 아니라 검색 엔진의 정보의 신뢰도도 높아지고 웹 서버의 시스템 부하와 검색 엔진의 시스템 부하를 줄일 수 있는 효과를 가질 수 있을 것이다. 본 논문에서는 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동 사항들을 종합 정리해서 변경 문서에 대한 정보를 통보 받기 원하는 등록된 각 웹 로봇에게 전송하는 검사 통보 시스템을 설계 구현하였다. 웹 로봇을 운영하는 검색 엔진에서는 통보된 요약 정보를 이용해서 웹 서버로부터 해당 문서를 전송 받아 필요로 하는 인덱스 정보를 추출해서 데이터베이스를 구축하는 효율적인 웹 로봇을 설계 구현하였다.

검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 - (A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern)

  • 변제연
    • 한국문헌정보학회지
    • /
    • 제52권3호
    • /
    • pp.289-334
    • /
    • 2018
  • 웹상에서 영어 이외의 언어들로 이루어진 정보가 빠르게 증가하고 있지만, 여전히 영어 정보가 가장 큰 비중을 차지함에 따라 공통어(lingua franca)로서의 지배적인 영향을 미치고 있다. 따라서 영어가 비모어인 이용자들이 보다 다양하고 풍부한 정보를 획득할 수 있도록 하기 위해서는 비영어권 화자의 모어 정보검색행위와 영어 정보검색행위에 대한 조사를 통해 주요 특징 및 차이점을 살펴볼 필요가 있다. 본 연구에서는 국내 한 사립대학의 대학생 24명을 대상으로 동시적 사고구술 기법을 적용한 정보검색 실험을 실시해 한글 정보검색행위 및 영어 정보검색행위와 인지과정을 조사하였다. 관찰데이터 및 사고구술데이터의 정성적 데이터를 기반으로, 검색 언어에 따른 웹 정보검색행위의 양상 차이에 대한 빈도분석을 실시하였다. 연구 결과, 한글 검색에서 능동적이고 적극적이며 독립적인 특성의 양상이, 영어 검색에서 수동적이고 소극적이며 의존적인 특성의 양상이 나타났다. 한글 검색에서는 이용자, 태스크, 시스템 등 다양한 출처에서 용어를 추출 조합한 검색어 구성, 여러 수준에서의 검색범위 조정, 검색엔진 검색결과페이지 내 탐색대상 아이템의 선택과 관련한 원활한 필터링, 다수 아이템의 탐색 및 비교, 웹 페이지의 전체 내용 브라우징 등이 주요 특징으로 확인되었다. 반면, 영어 검색에서는 주로 태스크 추출 용어 중심 검색어 구성, 제한된 검색범위 선호, 카테고리나 링크 등 아이템과 아이템 간 관련성에 의존한 탐색 대상 아이템 선택, 동일 아이템의 반복적 탐색, 웹 페이지의 일부 내용 브라우징, 그리고 사전 및 번역기와 같은 언어지원도구의 빈번한 사용 등이 두드러진 특징으로 파악되었다.

질의어 패턴 자동분석을 통한 커뮤니티 기반 개인화 검색 (Personalized Search based on Community through Automatic Analysis of Query Patterns)

  • 박건우;이상훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.321-326
    • /
    • 2009
  • 기존의 웹 검색 엔진들은 사용자의 검색 의도를 충분히 반영하지 못하기 때문에 사용자가 원하는 정확한 정보를 찾기가 어렵다. 따라서 최근에는 개인의 검색 패턴을 분석하여 검색에 반영함으로써 검색 결과에 대한 만족도를 높이기 위한 많은 연구들이 진행되고 있다. 이러한 개인화 검색을 통해 사용자는 방대한 웹상의 정보들 중 자신의 검색 의도에 보다 적합하고 정확한 정보를 획득할 수 있다. 본 논문에서는 웹 사용자들의 질의어 사용 빈도수(Frequency)에 대한 랭킹 정보를 통해 최근 주요 관심사(Interest)를 파악하고, 주요 관심사 별로 형성된 커뮤니티(Community)를 기반으로 수행되는 개인화 검색 방안을 제안한다. 실험결과 질의어 빈도수, 관심사 및 커뮤니티를 검색에 반영할 경우 개인의 검색 의도에 보다 적합한 검색 결과가 제공되는 것을 확인할 수 있다.

시맨틱 검색 시스템의 구현과 평가에 관한 연구 (A Study on the Implementation and Evaluation of a Semantic Search System)

  • 한동일;권혁인;최호준
    • 한국IT서비스학회지
    • /
    • 제7권3호
    • /
    • pp.253-269
    • /
    • 2008
  • In this paper, we present an application called Semantic Search which is built on different supporting technologies and is designed to improve traditional web searching. The Semantic Search is becoming crucial challenges on semantic web. The assessment and the implementation of the research on Semantic Search is not full-fledged whereas its research is highly interested. Also there exists only little research that offers a commercial use Semantic Search System that should be taken into the account in measuring the effectiveness of a Semantic Search System. This paper proposes an implementation and evaluation for the Semantic Search System. Firstly, we built Semantic Search System which includes a case of development and it's procedure. Secondly, We presented the measurement of our Semantic Search System's effectiveness. Finally, the evaluation offers useful implications to the researchers and practitioners to improve the research level to the commercial use.

웹 문서 중요도 평가를 위한 적합도 향상 HITS 알고리즘 설계 (Design of Advanced HITS Algorithm by Suitability for Importance-Evaluation of Web-Documents)

  • 김분희;한상용;김영찬
    • 한국전자거래학회지
    • /
    • 제8권2호
    • /
    • pp.23-31
    • /
    • 2003
  • 링크 기반 검색엔진은사용자의 질의어와 관련된 웹 문서들의 링크 정보를 이용하여 순위를 생성한다. 이러한 링크기반 웹 문서의 특성을 이용한 대표적인 순위 평가 알고리즘. HITS는 웹 페이지들 간의 상호 연결된 링크 정보로부터 웹 문서들의 중요도를 평가하고, 순위 정보에 따른 결과를 제시한다. 이러한 HITS 알고리즘의 문제점은 문서 내의 링크 빈도 수만을 고려하고, 입력 값으로 주어지는 웹 문서 집합의 특성에 의존적이라는 것이다. 본 논문에서는 링크기반 웹 검색 엔진들로부터 얻어진 문서 집합에 대해 질의와 검색결과 간의 적합도를 향상시킨 HITS 알고리즘을 수행하는 검색 에이전트를 설계하였다. 이로써 향상된 검객 성능과 결과의 지역성을 보완한다.

  • PDF

질의유형에 기반한 웹 검색의 성능 향상 (Improving the Performance of Web Search using Query Types)

  • 강인호;안동언
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.537-544
    • /
    • 2004
  • 인터넷의 발달로 인해 웹에서 얻을 수 있는 정보의 종류와 수는 급진적으로 증가하고 있다. 이에 따라 사용자가 요구하는 정보는 문서뿐만 아니라 사이트 그리고 서비스 단위로 확장되고 있다. 기존의 연구에서 웹 검색을 위해 사용되었던 정보들과 이들의 일률적인 결합형태는 다양한 사용자의 요구를 만족시키기 어렵다. 보다 좋은 결과를 얻기 위해서는 검색에 사용하는 정보의 특성을 분석하고, 질의에 따른 알맞은 정보의 사용이 필요하다. 본 연구에서는 사용자 질의유형에 따른 정보들의 유용성을 살펴보고 적절한 사용법을 분석한다. 그리고 차츰 대두되고 있는 서비스 검색을 위한 서비스 링크정보를 제안한다.

An Improved Combined Content-similarity Approach for Optimizing Web Query Disambiguation

  • Kamal, Shahid;Ibrahim, Roliana;Ghani, Imran
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.79-88
    • /
    • 2015
  • The web search engines are exposed to the issue of uncertainty because of ambiguous queries, being input for retrieving the accurate results. Ambiguous queries constitute a significant fraction of such instances and pose real challenges to web search engines. Moreover, web search has created an interest for the researchers to deal with search by considering context in terms of location perspective. Our proposed disambiguation approach is designed to improve user experience by using context in terms of location relevance with the document relevance. The aim is that providing the user a comprehensive location perspective of a topic is informative than retrieving a result that only contains temporal or context information. The capacity to use this information in a location manner can be, from a user perspective, potentially useful for several tasks, including user query understanding or clustering based on location. In order to carry out the approach, we developed a Java based prototype to derive the contextual information from the web results based on the queries from the well-known datasets. Among those results, queries are further classified in order to perform search in a broad way. After the result provision to users and the selection made by them, feedback is recorded implicitly to improve the web search based on contextual information. The experiment results demonstrate the outstanding performance of our approach in terms of precision 75%, accuracy 73%; recall 81% and f-measure 78% when compared with generic temporal evaluation approach and furthermore achieved precision 86%, accuracy 71%; recall 67% and f-measure 75% when compared with web document clustering approach.

시멘틱 웹 기반 DQL 검색 시스템 설계 (Semantic Web based DQL Search System)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.91-100
    • /
    • 2005
  • 인터넷의 등장 이후 폭발적으로 증대되는 웹 정보를 효율적으로 사용하기 위한 방안이 연구 되고 있다. 현재, 웹 서비스에서 사용하고 있는 키워드 기반 검색은 syntactic 정보만을 제공하므로 자신이 원하는 서비스를 받고자하는 사용자의 의도와는 상관없는 정보를 검색하여 제공하는 경우가 많다. 웹 서비스의 이러한 단점을 보완 하고자 시멘틱 웹(semantic web)기술이 제안되고 있는데, 시멘틱 웹을 이용하면 사용자가 원하는 의미와 일치하는 정보를 찾아줄 수 있다. 시멘틱 웹을 기반으로 만들어진 시스템은 BQL (Daml Query Language)을 이용한 시멘틱 검색(Semantic search)기법을 이용하고 있다. 시멘틱 검색은 사용자가 입력한 질의들을 해석하여 사용자의 원하는 정보와 의미가 같은 해답을 얻어내는 것이다. 이에 본 논문에서는 효율적인 정보 검색을 위해 시멘틱 엘 기반의 검색 시스템을 설계하는데 목적을 가지며, 효과적인 검색 시스템을 설계하기위해 사용자 중심의 키워드 형태 질의론 시스템 중심의 DQL로 변환하는 RDQL 변환기와 추론엔진을 불러내어 추론을 실행하는 RDQL 엔진을 제안한다.

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

스타이너트리 기반의 효과적인 모바일 웹 오브젝트 네비게이션 (An Effective Mobile Web Object Navigation Based on the Steiner Tree Approach)

  • 이우기;송종수;이정훈
    • 경영과학
    • /
    • 제28권1호
    • /
    • pp.1-10
    • /
    • 2011
  • One of the fundamental roles of web object navigation is to support what the user wants precisely and efficiently from the enormous web database to the web browser. As long as the web search results are a set of individual lists, it is all right to display each and every web result for the web browser to display a web object one by one. However, in case the search results are a collection of multiple interrelated web objects, then there is a need to represent for a new mechanism for linked web objects at a time. We define a unit of web objects derived from a Steiner tree where the web objects include a set of specific keywords calculated by the weight from which the solutions are extracted. Even if a web object does not include all the keywords, then the related hypertext linked web objects are derived and displayed onto the mobile web browser with meta data in one shot. In this paper, it is applied for the mobile browser that the web contents can dynamically be displayed with Steiner trees until each renewal of the navigation request may be issued. In this paper, a new synchronized mobile browsing method is developed so that the navigating time can drastically be reduced and the web navigating efficiency can be dramatically enhanced without sacrificing memory consumption.