DOI QR코드

DOI QR Code

Web Data Collection and Utilization using Content Syndication

콘텐츠 신디케이션을 이용한 웹 데이터 수집 및 활용

  • Hwang, Sanghyun (Sahmyook University, Division of Computer Engineering) ;
  • Kim, Heewan (Sahmyook University, Division of Computer Engineering)
  • 황상현 (삼육대학교 컴퓨터학부) ;
  • 김희완 (삼육대학교 컴퓨터학부)
  • Received : 2015.08.10
  • Accepted : 2015.09.15
  • Published : 2015.09.30

Abstract

Many data on the web are present, put out by processing in the content in order to provide services by collecting the necessary data is not easy. One of the reasons is because there is no way to provide a standardized data. Therefore, it can be seen as a part or all of the contents of the site, the content distribution to be available for other services is very important. A syndication format that allows you to use a representative of some or all of the site's content for other services such as RSS and there are Atom, OPML-based XML. Throughout the links provided in this syndication format is called feed address. With a feed address to collect data faster than the conventional HTML parsing and data provider is the advantage of being able to easily provide the data to the outside. In this study, we feed the data obtained by collecting by implementing the web address based on the data acquisition system to propose a method for processing and utilizing the data as a background.

웹 상에는 수 많은 데이터가 존재하고 있지만 원하는 데이터를 수집하여 서비스 제공을 위한 콘텐츠로 가공해 내는 것은 쉽지 않다. 그 이유 중 하나가 바로 표준화된 데이터 제공 방식이 없기 때문이다. 따라서 사이트 콘텐츠의 일부 또는 전체를 다른 서비스에서 이용할 수 있도록 해주는 콘텐츠 신디케이션은 매우 중요하다고 볼 수 있다. 콘텐츠 신디케이션의 대표적 포맷으로 XML에 기반한 RSS와 Atom, OPML 등이 있다. 이러한 신디케이션 포맷에서 제공하는 링크를 통틀어 피드 주소라고 한다. 피드 주소를 이용하면 기존 HTML을 파싱하는 것 보다 빠르게 데이터를 수집할 수 있고 데이터 제공자는 간편하게 데이터를 외부로 제공할 수 있다는 장점이 있다. 본 논문에서는 피드 주소를 기반으로 하는 웹 데이터 수집 시스템을 구현하여 수집하여 얻은 데이터를 바탕으로 해당 데이터를 가공하고 활용하는 방법을 제안하였다.

Keywords

References

  1. 강필구, 김재환, 이상준, 채진석 (2007), "웹 2.0 기반 RSS 데이터 수집 엔진의 설계 및 구현", 한국멀티미디어학회 멀티미디어학회논문지, 10(11), 1496-1506.
  2. 현미환, 이상환, 이태석, 예용희 (2007), "RSS 기반 과학기술정보 수집시스템의 개발과 활용방안에 관한 연구", 한국콘텐츠학회 종합학술대회 논문집, 5(2-1), 405-409.
  3. 강필구, 김남중, 이예슬, 채진석 (2006), "웹 2.0을 위한 효율적인 태그 관리 시스템의 설계 및 구축", 한국정보과학회 학술발표논문집, 33(2_D), 170-173.
  4. Cong, Y. and Du, H. (2008), "Web Syndication Using RSS", Journal of accountancy, 205(6), 48-53.
  5. http://atomenabled.org/developers/syndication/.
  6. http://ko.wikipedia.org/wiki/RSS.