• 제목/요약/키워드: 웹검색

검색결과 2,247건 처리시간 0.04초

균등한 웹 문서 샘플링을 이용한 웹 검색 서비스들의 커버리지 측정 (Estimating Coverage of the Web Search Services Using Near-Uniform Sampling of Web Documents)

  • 장성수;김광현;이준호
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.305-312
    • /
    • 2008
  • 인터넷에는 유익한 정보들이 포함된 웹 문서들이 공개되고 있으며, 이러한 웹 문서들은 웹 검색 서비스를 통하여 접근할 수 있다. 따라서 웹 검색 서비스들은 보다 많은 웹 문서들을 수집하기 위하여 노력하고 있으나, 이들은 수집된 웹 문서들의 커버리지를 파악하는데 많은 어려움을 겪고 있다. 따라서 본 논문에서는 기존의 커버리지 측정 방법들을 분석하고, 효과적인 커버리지 측정 방법을 제안한다. 즉, 인터넷에서 웹 문서를 균등하게 샘플링하고, 이 웹 문서들이 웹 검색 서비스에 색인되어 있는지를 조사함으로써 웹 검색 서비스들의 절대 및 상대 커버리지를 측정한다. 그리고 본 논문에서는 제안한 방법으로 국내 웹 검색 서비스들의 커버리지를 측정하여 비교하였으며, 그 결과 구글, 네이버, 엠파스 순으로 절대 및 상대 커버리지가 높게 나타났다. 이러한 본 논문의 결과는 웹 검색 서비스들의 커버리지를 측정하는데 도움이 될 것으로 기대된다.

시멘틱 웹 환경에서의 개인화 검색 (Personalized Search Service in Semantic Web)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.533-540
    • /
    • 2006
  • 웹에 분산된 모든 윈 페이지는 구조가 서로 다르다. 시멘틱 웹 환경은 이형적인 구조를 갖는 웹 페이지들의 메타데이터 바탕으로 시멘틱 검색이 가능하다. 그러나 일반적으로 사용자의 요구에 따른 시멘틱 김색은 상황에 따라 엄청난 수의 검색 결과를 내놓는다. 따라서 검색 결과에 대해 각 사용자에 맞는 검색 결과 순위를 적용할 필요가 있다. Culture Finder는 시멘틱 웹 검색 에이전트들이 개인화 된 문화 정보를 검색할 수 있도록 도움을 준다. Culture Finder는 웹에 존재하는 각 웹 페이지에 대한 메타 데이터를 작성하고, 시멘틱 검색을 이행하며 사용자 프로파일을 기반으로 삼아 검색 결과에 대한 순위 점수를 계산한다. Culture Finder에는 개인화 된 시멘틱 검색을 효율적으로 실행하기 위해 중요한 5가지 기법이 적용되었다. 사용자의 검색 행위로부터 사용자 프로파일을 생성하기 위한 기계 학습기법, 시멘틱 웹 검색 에이전트를 위한 효율적인 시멘틱 검색 기법, 사용자 질의의 효과적인 파악을 위한 질의 분석 기법, 각 사용자에게 적합한 검색 결과를 제공하기 위한 순위 적용 기술, 메타데이터를 생성하기 위한 상위 온톨로지 표현 방법, 본 논문에서는 Culture Finder의 구조를 통해서 시멘틱 개인화 검색에 대한 기법을 제안한다.

전문가 검색 엔진에서 개념 그래프를 이용한 Web 정보 획득 (Information acquision of WEB using the conceptual graph in expert search engine)

  • 박사준;김상경;황수철;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.295-297
    • /
    • 2000
  • 전문가 검색 엔진은 전문가 시스템과 같은 목적에서 특정 전문 분야에 대한 특수한 정보를 수집 검색하기 위한 검색 엔진을 내용이다. 본 논문은 전문가 검색 엔진을 만드는 과정에서 초기 작업에 해당하는 웹 정보 수집에 대한 논문이다. 본 논문은 웹 페이지에서 하이퍼링크와 참조되는 웹 페이지에 대한 표면 지식을 이용하여, 홈페이지 그래프를 작성한다. 그리고 나서 홈페이지 그래프와 사전에 미리 준비된 개념 그래프를 이용하여, 웹 페이지 수집 중 특정 전문 분야에 해당하는 웹 페이지인지를 판별하여 사용자가 수집하고자 하는 분야에 대한 웹 페이지만을 수집한다. 본 논문은 이에 대한 개념, 설계 및 구현과 앞으로의 개선 상황을 제안한다.

  • PDF

이미지 검색시스템을 위한 메타데이터 구축에 관한 연구 (A Study on Metadata for an Image Retrieval System)

  • 남승희;문성빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.105-110
    • /
    • 2001
  • 웹 상에서의 이미지 정보검색은 주로 표준화되지 않은 이미지의 서지정보로부터의 검색이 이루어지고 있어 그 정확성과 효율성이 그리 높지 않은 실정이다. 따라서 이미지 검색을 위한 효과적인 메타데이터 표준의 선정은 일반인들이 신속하고 효과적으로 웹 상의 이미지를 검색할 수 있게 해주는 기초적인 단계일 것이다. 이 연구에서는 기존의 이미지 메타데이터에 대해 살펴보고 이를 토대로 하여 웹 상에서의 빠르고 효과적인 이미지 정보의 교환을 위한 핵심 메타데이터를 선정하고 XML DTD 및 스키마를 완성하였다. 그리고 선정된 메타데이터를 대상으로 이미지 검색이 이루어질 수 있도록 메타데이터 데이터베이스를 구축하고 이를 검색할 수 있는 웹기반 이미지 검색시스템을 설계하여 구현해보았다.

  • PDF

오디세우스 객체관계형 DBMS를 사용한 웹 검색 시스템에서의 사이트, 도메인, 커뮤니티 제한 검색 및 홈서치 (Site-, Domain-, Community- Limited Search, and Home Search in a Web Search System Using the ODYSSEUS Object-Relational DBMS)

  • 김민수;이재길;김민수;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.175-177
    • /
    • 2005
  • 인터넷이 널리 활용되면서 웹 사이트의 수가 기하급수적으로 증가하는 동시에, 각각의 웹 사이트에 저장된 정보의 양도 급속히 증가하고 있다. 사용자가 이러한 웹 환경에서 원하는 정보를 효과적으로 찾을 수 있도록 하기 위해서는 크게 두 가지 요소가 중요한데, 첫 번째는 웹 검색 사이트에서 다양한 제한 검색 기능들을 제공하는 것이고 두 번째는 일반적인 웹 사이트에서 홈서치 서비스를 제공하는 것이다. 제한 검색은 각 웹 사이트의 정보를 중앙 데이타베이스에 저장하고, 검색 범위를 특정 범위로 한정시켜 검색 결과를 제공하는 방법으로, 이를 활용하면 일반적인 웹 사이트들도 저렴한 비용으로 방문자들에게 홈서치 서비스를 제공할 수 있다. 본 논문에서는 이러한 제한 검색 기능들과 홈서치 기능을 오디세우스 정보검색용 객체관계형 DBMS를 사용하여 실제로 어떻게 구현할 수 있는지에 대해 SQL 및 HTML 레벨에서 설명한다. 따라서, 본 논문에서 제안하는 구현 방법은 Oracle, MySQL등의 정보검색 기능이 제공되는 관계형 DBMS들에 대해 모두 적용될 수 있다.

  • PDF

키워드를 이용한 효율적인 웹서비스 및 openAPI 검색 엔진 개발 (Development of Efficient Search Engine for Web services and openAPIs by Keyword)

  • 천동석;차승준;김경옥;이규철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.159-164
    • /
    • 2008
  • 최근 많이 주목을 받고 있는 웹 2.0은 사용자의 참여, 개방, 네트워크 효과에 기반하여 누구나 데이터를 생산하고 공유할 수 있는 사용자 중심의 인터넷 환경이다. openAPI는 웹 2.0의 근본 개념인 데이터의 개방 및 공유를 구현할 수 있는 핵심 기술로 포털은 자신의 서비스를 공개한다. 하지만 기존의 웹서비스와 openAPI 검색은 효율적인 검색 방법을 제공하지 않았다. 본 논문에서는 Lee[1]의 논문에서 제공하는 효율적인 웹서비스 검색 방법을 이용하여 검색 엔진을 개발하였다. 하지만 이 연구는 웹서비스와 유사한 구조를 가지는 openAPI를 수용하지 못한다. 따라서 본 논문에서는 openAPI의 정의 및 사용법이 웹서비스와 유사하다는 점을 활용하여 openAPI의 효과적인 검색을 위한 검색기법을 개발하였다. 이러한 검색기법은 사용자가 키워드를 입력하여 키워드 기반 검색을 통해 원하는 서비스를 찾아주고, 매쉬업 서비스나 다른 openAPI와의 조합(Composition)을 위해 템플릿 기반 검색을 통해 효과적인 검색을 제공해준다.

  • PDF

Web 문서의 효율적인 실시간 검색을 위한 잡음 제거와 패턴 정합 기법 (Noise Removal and Pattern Matching for Efficient Meta-Search of Web Documents)

  • 강대기;이제선;함호상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.132-134
    • /
    • 1998
  • 웹 상의 메타 검색 엔진, Push 프로그램 그리고 에이전트와 같은 웹 기반 응용 프로그램들은 웹 문서의 취득과 자동 필터링에 대한 능력을 필요로 한다. 이를 위한 인터페이스의 지식들은 대부분 코드 내에서 ad-hoc으로 구현되어 왔다. 본 논문에서는 취득된 웹 문서를 전처리하고 원하는 정보를 추출하기 위한 방법을 제시하고, 웹 상위 신문 기사에 대한 검색으로 실험해 보았다. 검색 시스템은 웹 문서의 전처리 과정을 통해 필요한 정보에만 집중할 수 있고, 아주 적은 양의 일반화된 지식을 토대로 원하는 정보를 용이하게 찾을 수 있었으며, 또한 웹 문서의 형식이 바뀌더라도 크게 영향을 받지 않으며, 새로운 웹사이트의 추가도 용이하였다. 본 논문의 방법으로 구현된 신문 기사 검색 시스템은, URL과 아주 적은 양의 지식만으로도, 10 개의 신문 웹사이트에서 문서를 가져와 효과적으로 해석할 수 있었다. 본 논문의 방법은 메타 검색 엔진이나, 잡지나 신문 기사 정보의 푸쉬(Push) 솔루션, 또는 상품 정보 검색 시스템 등의 설계에 활용될 수 있다.

  • PDF

웹 정보 검색 엔진을 위한 저장구조의 설계 및 실험 (Design and Study on Structure of Storage for Web Search Engine)

  • 이동광;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.539-542
    • /
    • 2002
  • 인터넷의 발달은 월드 와이드 웹을 탄생 시켰고 그로 인한 인터넷의 폭발적 성장은 인터넷을 하나의 생활로 만들었다. 인터넷의 엄청난 자료의 양과 친숙해진 인터넷으로 인해 인터넷은 하나의 정보창구의 역할을 하게 되었고, 그에 따라 정보검색이 발전하게 되었다. 초기의 월드 와이드 웹은 많은 웹 문서가 아니었지만, 구글이 현재 20억 페이지를 색인할 만큼 엄청난 규모가 되었다. 또한 앞으로의 검색 엔진은 정보나, 웹상의 링크 정보를 통한 그 문서의 중요도를 분석하여 문서의 중요도를 판단하게 될 것이며, 지금까지의 검색엔진의 저장구조와는 다른 구조를 가지게 될 것이다. 그에 따라 웹 정보검색엔진의 저장구조는 효율적 저장과 속도 향상을 위해 중요한 구조가 되어가고 있다. 본 논문에서는 검색엔진의 저장구조에 따른 용량의 변화와 앞으로의 웹 검색엔진에서 등장할 기능인 문서의 정보나, 문서간의 링크 정보를 통한 문서의 중요도 분석 등을 수행할 수 있는 저장구조를 만들어보고 실험해 보았다.

  • PDF

마크업 패턴을 이용한 웹 검색 (Web Information Retrieval Exploiting Markup Pattern)

  • 김민수;김민구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.407-411
    • /
    • 2007
  • HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.

웹문서분류체계의 설계 (Design for the System of Web Document Classification)

  • 남영준
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.183-188
    • /
    • 1998
  • 인터넷에 존재하는 웹 문서와 사이트들은 충분히 학술적 가치를 갖고 있기 때문에 중요한 정보원으로 간주된다. 도서관은 이 새로운 정보원을 대상으로 도서관 이용자를 위한 새로운 검색기법과 관리기법을 개발할 필요가 증대되었다. 왜냐하면 현재 웹 검색 엔진에서 제공하는 분류체계는 도서관학적 관점에서 개발되지도 않았으며 또한 웹 검색엔진간 분류체계의 설계원칙도 없기 때문이다. 본 논문에서는 이점에 착안하여 웹문서를 효율적으로 검색할 수 있는 실험적인 새로운 웹 문서분류체계를 설계하였다. 설계는 해당 분류항목과 연관된 웹 문서의 수와 접속비율에 근거하였으며, 설계의 수준은 1차적으로 류·강 항목까지 제한하였다.

  • PDF