• 제목/요약/키워드: Nutch

검색결과 5건 처리시간 0.012초

사용자 중심 검색 시스템 설계 및 구현 (Search for a user-centered system design and implementation)

  • 김아용;이용우;배근호;정대진;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.619-621
    • /
    • 2014
  • 최근 IT기술의 발전과 더불어 정보화에 대한 기술들이 이슈화 되고 있다. 웹을 사용하는 사용자들을 개인들이 필요한 정보를 찾는데 있어 검색데이터를 선별하는 방법에 대해 많은 어려움을 겪고 있다. 본 논문에서는 사용자 중심 검색 시스템을 제안한다. 제안하는 검색 시스템은 아파치 프로젝트인 Lucene과 Hadoop의 MapReduce, HDFS, Nutch, Solr를 활용하여 설계 및 구현한다. 이는 웹 검색을 이용하고자 하는 사용자의 의도에 따라 데이터를 수집하고 색인하여 원하는 정보를 제공하는 검색분야에 활용될 것이다.

  • PDF

오픈 소스 프레임워크를 활용한 검색엔진 구현 (Implement on Search Machine using Open Source Framework)

  • 송현옥;김아용;정회경
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.552-557
    • /
    • 2015
  • IT 기술 발전과 스마트 기기들의 사용 증가로 인해 인터넷에서는 많은 데이터가 생산되고 소비된다. 이로 인해 정보 검색 기술의 중요성이 높아지고 있지만 정보 검색 기술은 많은 배경 지식을 요구하여 접근하기 어려운 기술로 인식되고 있다. 그러나 Luene의 등장으로 인해 검색 기술에 대한 배경 지식이 부족해도 Lucene을 사용하여 검색 엔진을 구현할 수 있는 배경을 마련되었다. 본 논문에서는 Lucene 기반으로 개발된 프레임워크들을 사용하여 검색엔진을 구현하는 방법에 대해 제안한다. 제안하는 검색엔진에 사용되는 프레임워크들은 Hadoop과 Nutch, Solr, Zookeeper를 사용하여 분산처리와 분산저장, 그리고 고가용성을 지원하는 서버 환경을 보장한다.

웹아카이빙 도구 비교분석 연구 (Comparative Analysis of Web Archiving Tools)

  • 김희정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2011년도 제18회 학술대회 논문집
    • /
    • pp.95-98
    • /
    • 2011
  • 디지털 자원의 장기보존을 위한 기법과 전략은 지속적인 관심 속에서 개발되어 오고 있다. 특히, 웹 자원에 대한 의존도가 증폭될수록 웹 아카이빙에 대한 중요성이 커지고 있다. 본 연구에서는 IIPC에서 제시하는 웹 아카이빙 체인의 네 단계에 해당하는 각 단계별 웹 아카이빙 툴과 그 특성을 살펴보았다. 대상이 되는 웹 아카이빙 도구는 총 9개로서, Heritrix, DeepArc, Web Curator Tool, NetarchiveSuite, BnFArcTools, Wayback, NutchWAX, WERA 그리고 Xinq 등이다.

  • PDF

루씬 기반의 최저가 상품 검색 시스템 설계 (Design of Search System Based on Lucene for Minimum Price Products)

  • 김아용;정대진;계민석;김창수;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.603-605
    • /
    • 2014
  • 인터넷 이용률 증가와 스마트 기기의 대중화로 인해 소비자는 매장에서 구매하던 비용을 온라인 쇼핑 시장으로 전환하고 있다. 이로 인해 사용자의 소비패턴과 소비문화도 변화하고 있다. 오픈 마켓은 웹과 모바일을 통해 유통 채널을 확장하고 소비자의 유치를 위해 다양한 이벤트와 최저가 정책, 안전 거래 등을 제공한다. 본 논문에서는 오픈 마켓에서 판매하는 상품의 정보를 수집하고 분석하여 사용자에게 최저가 상품 정보를 제공하는 검색 시스템을 설계한다.

  • PDF

아파치 스파크 기반 검색엔진의 설계 및 구현 (Design and Implementation of a Search Engine based on Apache Spark)

  • 박기성;최재현;김종배;박제원
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.17-28
    • /
    • 2017
  • 최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.