• 제목/요약/키워드: RSS 데이터 수집 엔진

검색결과 3건 처리시간 0.023초

웹 2.0 기반 RSS 데이터 수집 엔진의 설계 및 구현 (A Design and Implementation of RSS Data Collecting Engine based on Web 2.0)

  • 강필구;김재환;이상준;채진석
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1496-1506
    • /
    • 2007
  • 기존의 웹 서비스가 정적이고 수동적인데 반해 최근의 웹 서비스는 점차 동적이고 능동적으로 변화하고 있는데, 이러한 웹 서비스 변화의 흐름을 잘 반영하는 것이 웹 2.0이다. 웹 2.0의 특징은 사용자가 능동적으로 참여하여 정보를 생산하는 것인데, 이렇게 되면, 생산되는 정보의 양이 지속적으로 증가하게 되므로 더 빠르고 정확한 정보를 공유할 필요가 있다. 이러한 필요성을 충족시키는 기술이 웹 2.0의 웹 신디케이션 기술과 태그 기술이다. 웹 신디케이션은 웹 사이트의 내용을 다른 사이트나 사용자가 받아볼 수 있도록 피드를 만든다. 태그는 정보의 핵심이 되는 단어로, 여러 인터넷 사용자들이 태그를 통한 검색으로 좀 더 빠른 정보의 공유를 가능하게 한다. 이 논문에서는 웹 2.0의 핵심 기술인 웹 신디케이션과 태그의 활용을 높이기 위한 방법으로 데이터 수집 엔진을 만들어 데이터를 효율적으로 관리하는 기법을 제안하였다. 데이터 수집 엔진은 데이터베이스에 저장된 사용자의 웹 사이트 정보를 이용하여 사용자의 웹 사이트에 접속하여 업데이트된 데이터를 수집한다. 이 논문에서 제안한 데이터 수집 엔진을 사용하여 실험한 결과 기존의 기법에 비해 검색 속도가 최대 3.14배 향상되었고, 연관 태그를 구성하는데 사용되는 데이터 건수가 최대 66%까지 감소함을 확인할 수 있었다.

  • PDF

빅데이터 기반 항공 수요예측 통합 플랫폼 설계 및 실증 (P-TAF: A Big Data-based Platform for Total Air Traffic Forecast)

  • 정주익;손석현;차희준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.281-282
    • /
    • 2021
  • 본 논문에서는 항공 수요예측을 위한 빅데이터 기반 플랫폼의 설계 및 실증 결과를 제시한다. 항공 수요예측 통합 플랫폼은 항공산업 관련 데이터를 Open API, RSS Feed, 웹크롤러(Web Crawler) 등을 이용하여 수집 및 분석하여 자체 개발한 항공 수요예측 알고리즘을 기반으로 결과를 시각화하여 보여주도록 구현되어 있다. 또한, 제안하는 플랫폼의 사용자 인터페이스를 통해 변수 설정을 하여 단위별(Global, National 등), 기간별(단기, 중장기 등), 유형별(여객, 화물 등) 예측 통계 자료를 도출할 수 있다. 플랫폼의 성능 검증을 위해 정형화된 데이터를 비롯하여 소셜네트워크서비스(SNS), 검색엔진 등에서 수집한 비정형 데이터까지 활용하여 특정 키워드의 빈도와 특정 노선에 대한 항공 수요간 상관관계를 분석하였다. 개발한 통합 플랫폼의 지능형 항공 수요예측 알고리즘을 통해 전반적인 공항 운영 및 공항 운영 정책 수립에 기여할 것으로 예상한다.

  • PDF

블로그에서 포스팅 성향 분석과 갱신 가능성 예측 (Analysis of Posting Preferences and Prediction of Update Probability on Blogs)

  • 이범석;황병연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.258-266
    • /
    • 2010
  • 메타 블로그에 등록된 RSS(Really Simple Syndication)의 수는 수십만 개 또는 수백만 개에 이른다. 따라서 이들에 대한 갱신 확인을 수행하는 것은 상당히 긴 시간과 네트워크 자원을 필요로 한다. 메타 블로그나 블로그 검색엔진은 제한된 자원을 가지고 있기 때문에 하루에 방문할 수 있는 블로그의 수가 제한적이다. 하지만 블로그 검색엔진의 성능향상을 위해 새로운 데이터를 최대한 수집하는 것이 필요하기 때문에, 우리는 이 논문에서 수집 효율을 높이기 위한 새로운 방법을 제안한다. 제안하는 방법은 블로그의 포스팅 성향을 분석하여 그것을 토대로 향후 갱신 가능성에 대해 예측하고 갱신 가능성이 높은 시점에만 갱신 확인을 수행한다. 이 연구는 블로그의 입장에서는 분산 서비스 거부 공격(DDoS Attack: Distributed Denial-of-Service Attack)만큼이나 빈번한 갱신확인을 줄이는데 도움이 되고, 인터넷 전체로 보아서는 트래픽을 감소시키는데 기여할 수 있다. 본 논문에서는 블로거들의 포스팅이 이루어지는 요일과 시간에 특정한 패턴이 존재할 것이라는 가정을 하고, 15119개의 실제 블로그에 작성된 포스트에 대해 요일과 시간의 선호도를 분석하였다. 그리고 과거의 포스팅 이력과 요일에 대한 선호도를 바탕으로 갱신 가능성을 예측하기 위한 방법을 제안하고, 12115개의 실제 블로그에 적용하여 그 정확도를 확인하였다. 성능평가를 통해 약 93.06%의 블로그에서 0.5 이상의 정확도를 가짐을 확인하였다.