• 제목/요약/키워드: 웹 검색

검색결과 2,248건 처리시간 0.028초

개념 그래프를 이용한 개념 기반 검색시 검색 질의어의 문맥 확장 (Context Extension In Concept-based Searching Using the Conceptual Graph)

  • 배환국;전성진;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.331-333
    • /
    • 2002
  • 웹그래프는 웹문서 간의 하이퍼링크를 각 웹문서의 핵심어간의 링크관계로 추상화하대 이 관계를 이용하여 핵심어의 개념 그래프를 구축하고 질의의 확장이나 영역지식을 제공하는 개념 기반 검색이 가능한 검색 시스템이다 본 논문에서는 웹그래프에서 가능했던 질의어에 대한 한 단계의 질의 확장에 그치지 않고. 최초의 질의어와 이후 확장어들에 대한 문맥을 유지하대 추가적인 다단계의 확장이 가능하도록 하는 방법을 계시한다. 검색 시스템 사용자는 최초 질의어가 속하는 해당 분야에 대한 지식이 부족한 경우, 문맥을 유지한 확장을 통하여 자신이 찾고자 하는 바를 명확히 해 나가며 세부 질의를 구축할 수 있고 해당 분야에 대한 지식을 얻는 것이 가능하다

  • PDF

웹 이미지 내용 기반 검색을 위한 XML DTD 설계 (Design of XML DTDs for Content-based Retrieval of Web Image)

  • 김형근;홍성용;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.232-234
    • /
    • 2001
  • 인터넷의 발달과 사용의 확산에 따라 멀티미디어 데이터의 양이 급격히 증가하고 있다. 특히 멀티미디어 정보 가운데에서도 이미지 양은 대규모이므로 사용자가 원하는 이미지를 찾기가 쉽지 않았으며, 이에 따라 이미지 데이타를 검색하기 위한 여러 가지 방법들이 계속해서 제안되고 있다. 본 논문에서는 XML을 활용하여 웹상의 이미지 데이터에 대한 특징 정보를 구조적으로 표현해 웹 이미지에 대한 내용 기반 검색 능력을 개선한다. 관계 테이터베이스에 저장된 색상, 질감, 키워드 등 이미지 데이터에 대한 특징 정보들을 XML 문서로 자동 변환하기 위하여 이들 각각의 대한 DTD를 설계하고, 이들을 통합하여 검색할 수 있도록 통합 DTD를 설계한다. 통합 DTD를 XML 데이터 서버를 이용하여 구현에 실제 웹 상의 상품이미지를 검색하는데 적용함으로써 제안한 결과의 유용성을 보인다.

  • PDF

계층적 캐시 기법을 이용한 대용량 웹 검색 질의 처리 시스템의 구현 (Implementation of a Large-scale Web Query Processing System Using the Multi-level Cache Scheme)

  • 임성채
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권7호
    • /
    • pp.669-679
    • /
    • 2008
  • 웹을 이용한 정보 공개 및 검색이 확대됨에 따라 웹 검색 엔진도 지속적인 주목을 받고 있다. 이에 따라 웹 검색 엔진의 다양한 기술적 문제를 해결하고자 하는 연구가 있었음에도 웹 검색 엔진의 질의 처리 시스템에 대한 기술적 내용은 잘 다뤄지지 않았다. 질의 처리 시스템의 경우 소프트웨어 아키텍처나 운영 기법을 고안하기 어렵기 때문에 본 논문에서는 구현된 상용 시스템을 바탕으로 관련 기술을 소개하고자 한다. 구현된 질의 처리 시스템은 6,500 만개 웹 문서를 색인하여 일 500만개 이상의 사용자 질의 요청을 수행하는 큰 규모의 시스템이다. 구현한 시스템은 질의 처리 결과를 재사용하기 위해 계층적 캐시 기법을 적용했으며, 저장된 캐시 데이타는 4계층으로 구성된 데이타 저장소에 분산 저장되는 것이 특징이다. 계층적 캐시 기법을 통해 질의 처리 용량을 400% 정도로 향상 시킬 수 있었으며 이를 통해 서버 구축비용을 70% 정도 절감할 수 있었다.

소셜 북마킹 시스템에서의 북마크와 태그 정보를 활용한 웹 콘텐츠 랭킹 알고리즘 (A Web Contents Ranking Algorithm using Bookmarks and Tag Information on Social Bookmarking System)

  • 박수진;이시화;황대훈
    • 한국멀티미디어학회논문지
    • /
    • 제13권8호
    • /
    • pp.1245-1255
    • /
    • 2010
  • 현재 웹 2.0 환경에서의 핵심 기술 중 하나는 사용자가 관심 있는 웹페이지를 태깅 및 북마킹 하는 소셜 북마킹 기술이다. 소셜 북마킹은 웹 콘텐츠에 태깅된 북마크 정보 및 태깅 결과를 기반으로 검색, 분류, 공유를 통해 효율적인 정보 제공을 주목적으로 하고 있다. 그러나 현재 소셜 북마킹 시스템들은 웹 콘텐츠의 사용자들의 관심 정도를 측정할 수 있는 북마크 수 및 검색과 분류를 목적으로 하는 태그 정보를 각각 독립적으로 검색에 활용하는 방식을 사용하고 있다. 이는 소셜 북마킹 시스템에서 중요한 특징을 가지는 북마크와 태깅 기술을 효율적으로 활용하지 못하는 결과가 된다. 이에 본 연구에서는 태그 클러스터링을 통한 연관 태그 추출에 관한 선행연구를 기반으로, 북마크 정보와 혼합하기 위한 웹 콘텐츠 랭킹 알고리즘을 제안하였다. 또한 제안 알고리즘의 효율성 분석을 위해 기존 검색 방법론들과의 비교평가를 시행하였으며, 그 결과 본 연구의 핵심적인 특징인 북마크와 태그 정보를 함께 활용한 소셜 북마크 시스템이 기존 시스템보다 효율적인 검색결과를 도출하였다.

Web 소프트웨어 컴포넌트 재사용을 위한 라이브러리 관리와 서비스 (Library Management and Services for Software Component Reuse on the Web)

  • 이성구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.10-19
    • /
    • 2002
  • 사용자들은 웹브라우저를 통해 웹에 존재하는 소프트웨어 컴포넌트 라이브러리를 탐색한다. 그러나, 웹 라이브러리에 포함된 컴포넌트들의 수가 빠르게 증가하는 상황에서 우리는 이러한 라이브러리들을 효과적으로 구성하고 관리하기 위한 방법을 필요로 한다. 전통적인 웹 라이브러리 검색 시스템들은 컴포넌트들을 저장하고 검색하기 위해 다양한 분류방법을 이용한 검색 서비스를 제공한다. 이러한 전통적인 시스템들은 사용자들이 검색 초기 단계에서 라이브러리의 전체적인 내용의 이해를 바탕으로 한 다양한 검색 서비스를 준비하지 못한다. 본 논문은 전통적인 시스템들의 단순한 컴포넌트 저장과 검색이상의 다양한 서비스와 객체지향 컴포넌트들의 효율적인 관리를 제공하는 웹 라이브러리 시스템에 대해 토론한다. 이러한 서비스들은 역공학 프로세스를 통한 컴포넌트 이해서비스, 라이브러리 요약내용 자동생성서비스, 이해기반 검색서비스이다. 또한, 본 논문에서 적용된 자동화된 클러스터 기반 분류체계 방법의 성능은 전통적인 분류방법을 이용하는 2개의 다른 시스템들의 성능과 비교, 평가된다.

질의기반 사용자 프로파일을 이용하는 개인화 웹 검색 (Personalized Web Search using Query based User Profile)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제17권2호
    • /
    • pp.690-696
    • /
    • 2016
  • 사용자 입력 질의와 웹 문서에 포함된 단어들의 형태적 일치를 검사하여 관련 문서를 검색하는 검색엔진은 사용자의 개인별 관심 분야를 반영하는 검색 결과를 생성하기 어렵다. 본 논문에서는 개인별 관심사를 파악하여 질의 의도에 적합한 내용의 문서를 검색하는 개인화된 웹 검색 방법을 제안한다. 개인화 검색의 성능은 사용자의 개인적 관심사를 정확하게 표현하는 우수한 사용자 프로파일을 생성하는 전략에 좌우된다. 본 연구에서 개인 프로파일은 사용자가 최근 입력한 질의어들과 검색에서 클릭했던 문서들에 나타나는 주제어들이 출현 빈도를 반영한 가중치와 함께 등록된 데이터베이스이다. 특히 중의적 질의어의 정확한 의미를 결정하기 위해 워드넷을 기반으로 프로파일에 등록된 단어들과 의미 유사도를 계산한다. 기존 웹 검색 시스템의 사용자 측에 질의확장 모듈과 순위재계산 모듈을 추가하는 확장모듈을 구축하여 비교 실험하였으며, 본 연구의 방법을 적용한 개인화 웹 검색의 결과는 특히 10위 이내 상위의 결과 문서들에 대해 92%의 정확률과 82%의 재현율을 보여 향상된 성능을 검증하였다.

온톨로지를 이용한 인터넷웹 검색에 관한 실험적 연구 (An Experimental Study on the Internet Web Retrieval Using Ontologies)

  • 김현희;안태경
    • 정보관리학회지
    • /
    • 제20권1호
    • /
    • pp.417-455
    • /
    • 2003
  • 온톨로지는 웹자원을 지식화함으로써 정보의 효율적 검색. 통합, 재사용을 도모할 수 있는 새로운 기술인 시맨틱 웹의 구현을 위한 가장 핵심적인 요소 기술로 알려지고 있다. 온톨로지는 사람간에 그리고 서로 다른 응용 시스템간에 지식을 공유하고 재이용하는 방법을 제공하는 기술로서 특정 주제에 관한 지식 용어들의 집합으로서 이들 용어뿐만 아니라 용어간의 의미적 연결 관계와 간단한 추론규칙을 포함한다. 본 연구에서는 인터넷 웹상에서 국제기구에 관한 정보를 체계적으로 관리하고 검색하기 위해서 국제기구 온톨로지를 설계하고 이 온톨로지에 기반 하여 검색 시스템을 구현해 보고 이시스템을 20개의 탐색 질문들을 이용하여 기존의 인터넷 검색엔진과 적합성과 탐색 시간이라는 두가지 요인을 통해서 비교해 보았다. 실험 결과에 의하면 적합성 측정은 온톨로지 기반 시스템은 평균4.53. 인터넷 검색엔진은 평균 2.51로 온톨로지 기반 시스템의 적합도가 1.80배 높은 것으로 나타났다. 또한 탐색시간은 온톨로지 기반 시스템은 평균 1.96분, 인터넷 검색엔진은 평균 4.74분으로 인터넷 검색엔진이 온톨로지 기반 시스템 보다 2.42배 정도 더 많은 탐색시간이 필요한 것으로 나타났다.

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

다중 쓰레드 환경에서 웹 크롤러의 성능 분석 (Performance Analysis of Web-Crawler in Multi-thread Environment)

  • 박정우;김준호;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF