• 제목/요약/키워드: web crawler

검색결과 102건 처리시간 0.02초

A study on Digital Agriculture Data Curation Service Plan for Digital Agriculture

  • Lee, Hyunjo;Cho, Han-Jin;Chae, Cheol-Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.171-177
    • /
    • 2022
  • 본 논문에서는 다출처 농업 데이터를 통찰할 수 있는 지식체계를 마련하고, 시간 흐름을 가지는 환경인자 분석 정보를 클러스터링 할 수 있는, 농작물 환경 인자 큐레이션 서비스 방법을 제안한다. 제안하는 큐레이션 서비스는 크게 수집, 전처리, 저장, 분석의 네 단계로 구성된다. 첫째, 수집 단계에서는 OpenAPI 기반의 웹크롤러를 이용하여 다출처 농업 데이터에 대한 수집 및 정리를 수행한다. 둘째, 전처리 단계에서는 데이터 측정 오차를 감소시키기 위해 데이터 평활화를 수행한다. 이때 온실, 노지 등의 시설 특성에 따른 오차율을 고려하여 시설 유형별 평활화 방법을 적용한다. 셋째, 저장단계에서는 대용량 농업 데이터 관리를 위해, 농업 데이터 통합 스키마 및 Hadoop HDFS 기반의 저장 구조를 제안한다. 마지막으로 분석 단계에서는 농업 디지털 데이터의 시계열 특성을 고려한 DTW 기반의 시계열 분류를 수행한다. DTW 기반 시계열 분류를 통해 시계열 데이터의 특성을 손실 없이 반영하여 예측 결과 정확도를 향상시킨다. 향후 연구로는 제안한 서비스 방법을 구현하여 스마트팜 온실에 적용하고, 테스트 및 검증을 수행할 예정이다.

개인화된 뉴스 서비스를 위한 소셜 네트워크 기반의 콘텐츠 추천기법 (Content-based Recommendation Based on Social Network for Personalized News Services)

  • 홍명덕;오경진;가명현;조근식
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.57-71
    • /
    • 2013
  • 세계에는 수많은 사람들이 살아가고 있고, 사람들의 일상으로부터 매일, 매 시간 단위로 새로운 뉴스가 발생한다. 발생되는 뉴스는 예정된 일과 예상하지 못한 일들을 포함하고 있다. 발생하는 뉴스의 거대한 양과 이를 전달하는 수많은 미디어들로 인해 사람들은 뉴스 콘텐츠를 이용하는데 많은 시간을 소비하게 된다. 하지만 미디어에 시시각각 나타나는 속보와 실시간 이슈의 대부분이 가십 기사로 이루어져 있어 사용자들이 자신의 성향에 맞는 뉴스를 선별하고, 뉴스로부터 정보를 획득하는 것은 쉽지 않은 일이다. 또한 사용자의 관심사가 시간에 따라 변하기 때문에 뉴스 제공에 있어 사용자의 변하는 관심사를 반영하는 것이 요구된다. 본 논문에서는 사용자의 최근 관심사를 기반으로 사용자 선호도에 맞는 뉴스를 제공하기 위한 콘텐츠 기반의 추천 기법 및 시스템을 제안한다. 사용자의 최근 선호도를 파악하기 위하여 소셜 네트워크 서비스인 Facebook 사용자의 정보와 최근 게시글을 이용하여 동적으로 사용자 프로파일을 생성하여 이를 뉴스 서비스에 활용하고, 사용자 선호도에 적합한 뉴스를 추출하기 위해서 뉴스 콘텐츠의 분석을 요구한다. 뉴스 콘텐츠 분석을 위해 미디어에서 제공되는 뉴스의 카테고리를 사용하고, 뉴스 방송원고의 분석 및 주요 키워드 추출을 통해 뉴스 프로파일을 생성한다. 사용자 프로파일과 뉴스 프로파일 간의 유사도 측정을 위해서는 두 프로파일 간 형식의 일치화가 요구되므로 사용자 프로파일을 뉴스 프로파일과 동일한 형태로 생성한다. 사용자가 시스템에 접속하면 시스템은 사용자 프로파일에 명시된 선호도를 기반으로 뉴스 프로파일과의 유사도를 측정하고, 사용자 선호도에 가장 적합한 뉴스들을 제공하게 된다. 또한 사용자에게 제공된 뉴스 프로파일과 다른 뉴스 프로파일들 간에 유사도를 측정하여 유사도가 높은 관련된 뉴스들을 제공하게 된다. 제안한 개인화된 뉴스 서비스의 성능을 평가하기 위해 사용자에게 추천된 뉴스에 대한 사용자 평가와 시스템 예측값의 오차를 기반으로 6Sub-Vectors 벤치마크 알고리즘과 성능 평가를 수행하였고, 실험 결과를 통해 제안한 시스템의 우수성을 입증하였다.