• 제목/요약/키워드: 웹 검색량

검색결과 127건 처리시간 0.023초

빅데이터 기반 대용량 시맨틱 웹 검색 기술 동향

  • 윤석찬;남궁현;양성권;김홍기
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.24-29
    • /
    • 2012
  • 시맨틱 웹 기술은 웹의 초창기부터 다양한 연구와 표준이 개발되었지만 이를 활용한 데이터 서비스 분야는 그 역사에 비해 성공 사례가 부족한 것이 현실이다. 최근 웹 2.0을 시초로 링크드 데이터의 성장, 정부의 개방형 데이터 서비스, 소셜 웹 서비스의 등장으로 인해 웹의 구조적 데이터는 폭발적으로 성장해 왔으며, 대용량 시맨틱 웹 기반 서비스에 대한 요구와 연구가 진행되고 있다. 본 고에서는 킬러 애플리케이션으로서 기존 시맨틱 웹 기반 검색 기술의 문제점들을 알아보고 이를 해결하기 위해 최근 화두로 떠오르는 빅데이터(Big Data) 기술 요소인 하둡(Hadoop) 및 NoSQL을 활용하여 대용량 시맨틱 웹 데이터를 활용한 Daum의 영화/음악/인물 기반 의미 검색 및 의학 LOD를 기반한 검색 서비스 개발 사례를 제시한다. 이를 토대로 이종 모델 데이터간 연결 및 실시간 데이터 리비전 관리 등 한계점들을 살펴보고 향후 대용량 공공 데이터 활용을 위한 방향을 모색해 본다.

계층적 캐슁 기법을 이용한 대용량 웹 검색 엔진의 구현 (Implementation of a large-volume Web search engine using the multi-level data caching)

  • 임성채
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.87-91
    • /
    • 2007
  • 논문에서는 6,000만개 웹 페이지의 색인 데이터에 대해 일 600만 질의를 처리하는 대용량 웹 검색 시스템을 위해 구현된 계층적 캐슁 기법을 소개한다. 논문에서 설명된 시스템 구조 및 알고리즘은 실제 상용 웹 검색 엔진에서 구현되고 운영 결과를 통해 그 유용성이 입증된 것들로서, 구현된 시스템과 유사성을 가지는 대용량 데이터 처리 시스템에 적용 가능할 것이다. 본 논문에서는 기존에 많이 소개되지 않았던 웹 검색 엔진의 운영 절차 및 웹 질의 처리 시스템에 대한 기술적 내용이 기술되었으며, 기술된 내용을 통해 웹 검색 엔진에 대해 보다 정확한 이해가 가능해 질 것이다.

  • PDF

역파일에 기반한 웹 검색 엔진의 랭킹 시스템 구현 (Implementation of a Ranking System for the Web Search Engine based on Inverted Files)

  • 임성채;안준선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.35-40
    • /
    • 2007
  • 역파일을 사용한 색인 기법은 정보 검색 분야에서 널리 사용되었으며, 최근 대용량 검색 시스템으로 사용되고 있는 웹 검색 엔진에서도 적응되고 있다. 본 논문에서는 웹 검색 엔진의 특성에 완친 구현된 역파일 기법 기반의 웹 문서 색인 파일의 구조와 디스크에 저장된 대용량의 역파일 색인을 기반으로 웹 페이지의 검색 적합도를 계산하는 랭킹 시스템을 설명한다. 이를 통하여 상용 웹 검색 엔진의 랭킹 시스템과 디스크 자원 사용의 최소화 기법을 제시한다.

  • PDF

대용량 웹 로그 마이닝 및 공격탐지를 위한 B-트리 인덱스 벡터 기반 고속 검색 기법 (High-Speed Search Mechanism based on B-Tree Index Vector for Huge Web Log Mining and Web Attack Detection)

  • 이형우;김태수
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1601-1614
    • /
    • 2008
  • 최근 대부분의 인터넷 환경이 쳅 기반 시스템으로 발전하면서 웹 서비스 사용자 수는 꾸준히 증가하고 있다. 따라서 일반 사용자가 대형 포털 사이트 웹 서버 접속시 생성되는 로그 정보를 분석하여 웹 서버에 대한 공격을 탐지하거나 웹 마이닝 기술과 접목하기 위해서는 대용량의 웹 로그 정보에 대한 효율적인 분석 기법이 필요하다. 기존 웹 로그 전처리 기법은 로그 문자열의 순차적인 탐색을 수행하므로 대용량의 웹 로그 고속화 처리에 적합하지 않다. 본 연구에서는 대용량 웹 로그 정보에 대해 B-트리 인덱싱 벡터 구조를 이용하여 필드별 분류 및 고속 검색 알고리즘을 개발하였다 이를 통해 효율적으로 대용량 로고로부터 효율적인 세션 분석 기능과 개선된 검색 성능을 제공할 수 있었으며 웹 서버에 대한 공격 탐지에도 활용할 수 있었다.

  • PDF

오디세우스 객체관계형 DBMS를 사용한 사이트 제한 검색의 구현 (Implementation of a Site-limited Search using the ODYSSEUS Object-Relational DBMS)

  • 이재길;이민재;김민수;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.755-757
    • /
    • 2003
  • 인터넷이 일반인들에게 널리 활용되면서 웹 사이트의 수가 기하급수적으로 증가하고 있으며, 각각의 웹 사이트에 저장된 정보의 양도 급속히 증가하고 있다. 따라서, 웹 사이트에서 자신이 보유한 정보를 방문자들이 쉽게 검색할 수 있도록 자체 검색 서비스를 제공해야 하는 필요성이 점차 커지고 있다. 이를 위해, 각 웹 사이트의 정보를 중앙 데이타베이스에 저장하고. 검색 범위를 자신의 사이트에서 제공한 데이타에 제한하여 검색하는 사이트 제한 검색이 널리 사용되고 있다. 본 논문에서는 오디세우스 정보검색용 객체관계형 DBMS 를 사용하여 사이트 제한 검색을 효율적으로 구현하는 두 가지 방법을 제안한다. 다음으로, 본 논문에서 제안한 사이트 제한 검색의 구현 방법은 대용량 데이타베이스에서 사이트 제한 검색을 수행하더라도 검색 속도가 전혀 저하되지 않음을 실험을 통해 입증한다.

  • PDF

웹기반 말뭉치 정보 검색 시스템 (Web-based Corpus Information Retrieval System)

  • 이정호;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.260-263
    • /
    • 2008
  • 본 논문은 대용량의 한글어 말뭉치를 이용하여 언어학적 통계정보를 자동으로 검색할 수 있는 웹기반 언어정보 검색 시스템을 제안하고 구현하였다. 구현한 시스템을 통해 형태소, 품사, 어절 정보를 자동으로 획득할 수 있었다. 본 시스템은 언어학적 지식이 부족한 비전문가도 말뭉치 검색을 효율적으로 수행할 수 있으며, 웹기반으로 구현되었기 때문에 시스템 접근의 용의성에 의의가 있다.

  • PDF

K-뷰티(K-Beauty) 검색량이 수출과 관광에 미치는 영향: Google과 YouTube 검색 데이터 분석을 중심으로 (The Impact of K-Beauty Search Volumes on Export and Tourism: Based on the Google Search and YouTube Page View)

  • 이선정;이수범
    • 문화경제연구
    • /
    • 제20권2호
    • /
    • pp.119-147
    • /
    • 2017
  • 본 연구는 한류를 이끌어갈 새로운 성장 동력으로써 K-뷰티(K-Beauty)의 경제적 영향력을 파악하고자 하였다. K-뷰티 콘텐츠가 주로 온라인을 기반으로 확산된다는 점을 고려하여 K-뷰티에 대한 관심과 관여도를 파악할 수 있는 변수로 검색 빅데이터에 주목하였다. 이에 2008년부터 2016년까지 9년간 K-뷰티에 대한 웹 검색량과 유튜브 검색량을 독립변수로, 화장품 수출액과 외래관광객 수를 종속변수로 설정하였으며 GDP와 국가 거리를 통제변수로 하는 다중회귀분석을 실시하였다. 분석 결과, K-뷰티 관련 구글 웹 검색량은 통제변인의 영향 유무와 관계없이 화장품 수출액에 정적인 영향을 미치며, 외래관광객 수에도 정적 영향을 미치는 것으로 나타났다. 한편, 유튜브 검색량은 화장품 수출액에는 정적영향을 미치는 것으로 나타났으나 외래관광객 수에는 유의미한 영향을 미치지 못하는 것으로 나타났다. 본 연구는 신한류 콘텐츠로서 K-뷰티에 대한 영향력을 검증하고 웹 검색량과 유튜브 검색량이 경제적 지표에 미치는 영향력을 실증적으로 검증하였다. 이러한 분석결과를 기반으로 향후 K-뷰티 홍보 방안에 대한 전략에 대해 논하였다.

웹 GIS 기반의 항공사진 검색 시스템 개발 (Development of Web-based Air Photograph Browser System)

  • 공지수;박노준
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 춘계학술대회 논문집
    • /
    • pp.88-91
    • /
    • 2007
  • 국립산림과학원 산림조사과에서는 지식정보화사업의 지원 하에 남한 전체 낱장/정사항공 사진 영상 DB툴 구축하고, 항공사진검색시스텀 (aerophoto.kfri.go. kr)을 개발하여 대국민 인터넷 서비스를 제공하고 있다. 본 논문에서는 5TB 대용량 항공사진 원본 영상과 메타자료를 웹 지리정보 서비스에 적합하도록 자료의 변환 방식,소프트웨어와 하드웨어의 최적 구성안, 그리고 응용 검색 시스템의 개발 기능을 소개 한다. 또한,항공사진 웹 검색 시스템은 벡터 지리정보와 항공사진 영상을 각각 전송하여 융합하고 분석하는 기능을 담당하는 클라이언트 모듈을 한정된 네트워크 환경에서 대용량 자료의 검색 속도 향상을 위하여 비동기식 처리 방식으로 개선하였다. 그리고 국가 지리정보 인프라인 정사항공사진 자료를 타 시스템과 연계 활용하기 위한 방안으로 ESRI ArcGIS 의 Plug-in 적용 사례를 제시한다.

  • PDF

의미 카테고리와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Performance Improvement of a Search Engine Using Semantic Category and Hyperlink)

  • 김형일;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.649-651
    • /
    • 2004
  • 현재, 웹의 정보는 사용자들이 원하는 모든 정보를 담고 있다고 할 수 있으나, 방대한 웹에서 사용자가 원하는 정보를 정확히 추출하기란 어려운 문제이다. 이러한 정보 추출의 어려움은 방대한 정보량과 정보추출 방식과 직결된다. 웹에서 정보를 정확히 추출하여도 일반적인 검색엔진들의 웹 페이지 순위 결정 방식을 따르게 되면, 사용자에게 중요한 페이지를 상위에 위치시키기란 쉬운 일이 아니다. 본 논문에서는 질의어의 모호성을 해결하기 위해 워드넷 기반 사용자 인터페이스를 설계하고, 웹 페이지의 가중치에 의미 카테고리 빈도 확률과 하이퍼링크 가중치를 이용한 웹 페이지의 가중치 결정 방식을 제안한다.

  • PDF

커뮤니티 기반 효율적인 웹 검색 시스템 설계 (Design of Efficient Web Search System Based on Community)

  • 박상관;박건우;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.171-174
    • /
    • 2008
  • 웹 상에 존재하는 정보의 량이 방대해 질수록 사용자가 원하는 정보를 찾는데 더 많은 노력이 필요하게 되었다. 따라서 사람들은 인터넷상에서 원하는 정보를 보다 효율적으로 검색하기 위해 많은 검색 알고리즘들을 개발하였다. 하지만 지금까지 개발된 알고리즘들은 웹 검색자들의 검색의도, 즉 관심사를 파악하는데 어려움이 있다. 따라서 검색자들의 의도에 맞는 정보를 보다 정확하고 효율적으로 검색하기에는 많은 제한사항들이 있다. 본 논문에서는 사용자의 검색 질의와 가장 유사한 커뮤니티를 검색하고 검색된 커뮤니티를 기반으로 보다 효율적인 검색 결과를 획득하기 위한 시스템을 제안한다.

  • PDF