• 제목/요약/키워드: 확장 링 검색

검색결과 50건 처리시간 0.027초

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 김희철;채수환
    • 디지털콘텐츠학회 논문지
    • /
    • 제4권2호
    • /
    • pp.127-137
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이라. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안한다. 본 논문에서는 동적 스케줄링 지원 기능을 갖는 웹크롤러의 설계 및 구현에 대하여 기술한다.

  • PDF

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 권성호;이영탁;김영준;이용두
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.64-72
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이다. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안하고 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 이러한 분석 결과를 기반으로 향후 웹 크롤러의 성능향상을 위한 설계 방향을 제시한다.

  • PDF

환경 데이터 모니터링을 위한 데이터 중심 방법의 설계 (An Data Distributed-based System for Environment Data Share)

  • 이태훈;정갑주;김성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (B)
    • /
    • pp.437-440
    • /
    • 2007
  • 최근 환경 문제를 해결하기 위하여 환경 문제의 많은 컴퓨터 기술들이 응용되고 있다. 환경 정보는 환경오염원 및 주위에 미치는 영향과 오염된 농도에 대한 정보를 연구 및 분석 할 수 있는 분야이다. 최근 환경에 관련 연구가 일부에서 수행되고 있으나 이를 IT기술과 접목하여 다양한 정보를 효율적으로 저장 및 검색 할 수 있는 시스템은 부족한 실정이다. 또한 현재 환경오염의 측정방법으로는 수작업으로 이루어지는 경우가 많아서 공간적 및 물리적 제약이 있는 따르는 실정이다. 환경오염에 관한 정보를 센서를 사용하여 사용자에게 실시간으로 효과적으로 저장 관리하여 관련된 연구자들 간에 서로가 필요한 정보를 쉽게 공유할 수 있도록 본 논문에서는 Ubiquitous Sensor Network(USN), Java Message Service(JMS) 및 Webservice를 이용한 환경 모니터링 서비스를 제안 한다. 본 논문에서 제안한 시스템은 환경정보와 사용자간에 유연성, 확장성 및 실시간을 보장해 주는 시스템을 구현한다.

  • PDF

UCC 비디오 서비스에서 소셜 네트워크를 통한 사용자 신뢰도 도출 (Evaluating the User Reputation through Social Network on UCC Video Services)

  • 조현철;한요섭;김래현
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.273-277
    • /
    • 2009
  • 최근 들어 사용자들이 직접 저작하고 이를 공유하는 UCC(User Created Content)가 급격히 증가하고 있다. 이에 따라 방대한 UCC를 사용자들에게 효과적으로 제공하기 위하여, 질이 낮은 UCC를 필터링하는 알고리즘이나 UCC의 검색 또는 추천 알고리즘에 대한 연구가 많이 진행되고 있다. 본 논문에서는 사용자에게 UCC 컨텐츠를 제공할 때 컨텐츠의 품질을 추정할 수 있는 요소로 사용자 신뢰도를 제안한다. 이를 위해 먼저 UCC 컨텐츠 제공 서비스 상에서 사용자 간의 소셜활동을 기반으로 소셜 네트워크를 구축하고, 사용자 신뢰도를 계산하기 위한 소셜 활동 정보를 추출한다. 그리고 소셜 네트워크를 통해 사용자 신뢰도를 계산하며, 다양한 소셜 정보 요소를 적용할 수 있는 확장 가능한 알고리즘을 제안한다.

  • PDF

DDS 시스템에서 디렉토리 서비스를 위한 에이전트 프로그램의 설계 및 구현 (The Design and Implementation of the Agent Program for Directory Service based on the DDS system)

  • 윤종관;김용연;박충범;최훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.303-307
    • /
    • 2010
  • DDS(Data Distribution Service)는 통신 환경의 확장성과 데이터의 신뢰성을 보장하는 통신 미들웨어이다. DDS에 대한 표준과 미들웨어들은 많은 연구가 이루어 지고 있으나, DDS 미들웨어상에서 동작하는 DDS 응용의 운용 기술에 대한 연구는 아직 미비한 실정이다. 본 논문에서는 DDS 미들웨어 상에서 동작하는 각 DDS 응용들이 사용하는 데이터 구조를 모니터링하고, 사용자의 요구에 따라 DDS 응용을 검색하고 설치 및 제어가 가능한 디렉토리 서비스를 제안하였으며 프로토타입 구현을 통해 제안된 기술이 실현 가능함을 보였다.

  • PDF

개념 망을 통한 전자 카탈로그의 시맨틱 검색 및 추천 (Semantic Search and Recommendation of e-Catalog Documents through Concept Network)

  • 이재원;박성찬;이상근;박재휘;김한준;이상구
    • 한국전자거래학회지
    • /
    • 제15권3호
    • /
    • pp.131-145
    • /
    • 2010
  • 현재까지, 사용자의 요구에 맞는 카탈로그 문서를 제공하기 위해 널리 사용되고 있는 패러다임은 키워드 검색 혹은 협업적 필터링 기반 추천이다. 일반적으로 사용자의 질의어는 짧기 때문에, 사용자의 요구(질의어, 선호도)에 적합한 카탈로그 문서를 제공하는 것은 쉽지 않다. 이를 극복하기 위해 다양한 기법들이 제안되었으나, 이전 연구들은 색인어 매칭을 기반으로 하고 있다. 기존 베이지안 신념 망을 이용한 방법은 사용자의 요구 및 카탈로그 문서들을 연관성이 높은 개념들로 표현하였다. 하지만 개념들이 카탈로그 문서에서 추출된 색인어로 구성되어 있기 때문에 개념간의 관계 정보를 잘 표현하지 못하였다. 이에 본 연구는 베이지안 신념 망을 확장하여, 사용자의 요구 및 카탈로그 문서들을 웹 디렉토리에서 추출한 개념(혹은 카테고리) 망으로 표현한다. 개념 망을 이용함으로써, 사용자의 요구와 카탈로그 문서간의 개념 매칭도를 계산하는 것이 가능하다. 즉, 사용자의 질의어와 카탈로그 문서의 색인어가 일치하지 않을지라도, 개념적으로 관련성이 높은 문서를 검색하는 것이 가능하다. 또한 사용자간의 개념적 유사도를 계산함으로써, 시맨틱 기반의 협업적 필터링 추천이 가능하다.

확장된 협업 필터링을 활용한 선호 요소 가변 추천 시스템 (Preference Element Changeable Recommender System based on Extended Collaborative Filtering)

  • 오정민;문남미
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.18-24
    • /
    • 2010
  • 모바일 환경은 작은 단말 화면, 제한된 검색 기능으로 인해 보다 정확하고 개인화된 정보 제공이 필요하다. 본 논문은 유용한 정보 제공을 위한 필터링 기법으로 활용되는 추천 시스템 중 협업 필터링을 이용하여 모바일 상에서 사용자의 관심 그룹을 선택적으로 반영하는 추천 시스템을 구성한다. 1차 단계로 사용자의 선호 정보와 인구통계학적 특성을 동시에 고려하여 관심 그룹을 형성하고 2차 단계로 사용자가 관심 그룹의 추천 여부를 스스로 선택하도록 함으로써 최종 추천 리스트를 재구성한다. 이는 지금껏 일방적으로 추천 리스트를 제공하였던 것에서 벗어나 사용자의 선호를 보다 적극적으로 고려한 양방향적 유동적 추천 리스트 제공이 가능해짐을 의미한다. 마지막으로 사용자의 선택 여부에 따른 추천 케이스를 도출하여 iPhone 환경에 적용한 결과를 제시한다.

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

확장된 Fuzzy AHP를 이용한 효율적인 의사결정 (An efficient Decision-Making using the extended Fuzzy AHP Method(EFAM))

  • 류경현;피수영
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.828-833
    • /
    • 2009
  • 웹상에서 이용할 수 있는 방대한 문서의 집합인 WWW은 사용자를 위한 다양한 정보의 보고이다. 그러나 불필요한 정보의 필터링이나 사용자가 필요한 정보를 검색하는데 많은 시간이 소요되어 효율적인 의사결정을 하는데 어려움이 있다. 본 논문에서는 의사결정에 관한 요소를 계층화 구조로 나타내는 AHP나 Fuzzy AHP방법들을 데이터의 관점에서 대안, 평가기준, 주관적 속성가중치, 개념과 객체 사이에 퍼지 관계를 기반으로 웹 자원을 효과적으로 관리하고 의사결정을 할 수 있는 EFAM(Extended Fuzzy AHP Method) 모델을 제안하였다. 제안한 EFAM 모델은 웹상의 효율적인 문서검색과 특정 영역의 문제를 의사결정하기 위하여 영역의 코퍼스로부터 추출된 개념들이 가지는 의미론적 내용에 감성 기준을 고려함으로써 효율적으로 문서를 추출할 수 있어서 명확한 의사결정을 할 수가 있음을 실험을 통하여 확인한다.

실험실정보관리시스템의 확장을 위한 오픈 소스 기반의 빅데이터 처리 기술에 관한 연구 (A Study on Big Data Processing Technology Based on Open Source for Expansion of LIMS)

  • 김순곤
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.161-167
    • /
    • 2021
  • 실험실정보관리시스템(LIMS, Laboratory Information Management System)은 실험실 데이터를 저장, 가공, 검색 그리고 분석하기 위한 중앙화된 데이터베이스로서 검사, 분석, 시험 업무를 수행하는 실험실을 위해 특별히 고안된 컴퓨터 시스템 또는 시스템을 의미한다. 특히 LIMS는 실험실의 운영을 지원하는 기능을 갖추고 있으며, 워크플로우 관리나 데이터 추적지원 등이 필요하다. 본 논문에서는 실험실의 운영을 위하여 빅데이터 자동화 수집 기술의 하나인 크롤링 기술을 활용하여 웹사이트 및 다양한 채널에 존재하는 데이터를 수집한다. 수집된 시험 방법 및 내용 중 시험자가 활용할 수 있는 유용한 시험 방법 및 내용을 추천한다. 그리고 이에 대한 피드백을 관리하여 수집 채널의 검증이 가능한 상호보완적인 LIMS 플랫폼을 구현한다.