• 제목/요약/키워드: Jsoup

검색결과 6건 처리시간 0.031초

Jsoup를 이용한 조선왕조실록의 빅 데이터 분석 (Big Data Analysis of the Annals of the Joseon Dynasty Using Jsoup)

  • 변영일;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.131-133
    • /
    • 2021
  • 조선왕조실록은 UNESCO에 등재된 중요한 기록물이다. 본 논문은 한글로 번역된 조선왕조 실록에서 단어의 빈도수를 조사하여 빅데이터를 분석하는 방법을 제안한다. 조선왕조 실록을 인터넷 사이트에서 액세스하여 단어의 빈도수를 조사하려 할 때, 그 페이지에 포함된 소스를 직접 액세스하면 HTML 문법에 필요한 키워드가 포함되어 있어 필요한 본문에서 단어 빈도수에 의한 빅데이터 분석을 하는 것이 어렵다. 본 논문에서는 Java의 Jsoup를 활용한 크롤링 기능을 사용하여 조선왕조 실록의 본문을 분석하는 방법을 제안한다. 실험에서는 조선왕조실록의 태조부분만을 추출하여 본 방법의 유효성을 검증하였다.

  • PDF

빅데이터 분석 기반의 정보 검색을 위한 웹 크롤러 서비스 구현 (Web Crawler Service Implementation for Information Retrieval based on Big Data Analysis)

  • 김희숙;한나;임숙자
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권5호
    • /
    • pp.933-942
    • /
    • 2017
  • 본 논문에서는 대학생 및 취업준비생의 대외활동, 공모전, 장학금에 대한 효율적인 정보 수집을 위한 웹 크롤러 서비스 방식을 제안한다. 제안된 웹 크롤러 서비스는 빠른 속도로 크롤링하면서 중복해서 크롤링되는 문제를 회피하기 위하여 Jsoup 트리 분석과 Json 형식의 데이터 전송 방식을 이용하였다. 24시간 동안 관련 정보를 수집한 결과 100%의 정확도로 웹 크롤러 서비스가 실행되고 있음을 확인할 수 있었다. 향후 제안된 웹 크롤러 서비스를 적용할 수 있는 웹 페이지 범위를 확대하여 다양한 웹 사이트에 동시에 적용할 수 있도록 개선하면 웹 크롤러 서비스의 양적 내용을 보충할 수 있을 것으로 기대한다.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 사물인터넷융복합논문지
    • /
    • 제10권1호
    • /
    • pp.21-27
    • /
    • 2024
  • 본 논문에서는 필터링(Filtering)과 웹 크롤링(Web Crawling) 기술을 이용하여 개인 맞춤형 실시간 정보제공 애플리케이션을 구현하였다. 구현한 애플리케이션은 사용자가 설정한 키워드를 웹페이지 내에서 사용자가 선택한 키워드를 기준으로 Jsoup 라이브러리를 통해 웹 크롤링을 수행하고, MySQL 데이터베이스에 저장한다. 저장한 데이터는 Flutter를 이용해 구현한 애플리케이션으로 사용자에게 제공한다. 또한 FCM(Firebase Cloud Messaging)을 이용하여 모바일 푸시 알람을 제공한다. 이를 통해 사용자는 원하는 정보를 빠르고 효율적으로 얻을 수 있다. 또한 빅데이터가 생성되는 사물인터넷(Internet of things)에도 적용하여 사용자에게 필요한 정보만 제공할 수 있을 것으로 기대한다.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.295-296
    • /
    • 2023
  • 본 논문에서는 웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션에 관해 연구하였다. 본 서비스는 Java의 Jsoup 라이브러리를 이용해서 웹 크롤링(Web Crawling)한 데이터를 MySQL에 저장한다. 이를 통해 사용자가 지정한 키워드를 필터링하여 사용자에게 정보를 제공한다. 예를 들어 사용자가 지정한 키워드 관련 공지 사항이 업데이트되면 구현한 앱 내에서 확인 가능하며, KakaoTalk 알림톡을 통해서도 업데이트된 정보를 실시간으로 전송받는 서비스를 구현하였다.

빅데이터 분석을 활용한 스포츠 지도자들의 리더십 유형에 관한 연구 (A Study on Leadership Typology in Sports Leaders Based on Big Data Analysis)

  • 박은미;서정해
    • 한국융합학회논문지
    • /
    • 제10권7호
    • /
    • pp.191-198
    • /
    • 2019
  • 본 연구에서는 한국의 스포츠 지도자 중에서 축구국가대표팀 감독중에서 외국인 감독의 리더십 유형을 살펴보고자 한다. 이를 위해 감독의 재임기간 동안의 뉴스 기사들을 크롤링하고 이를 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, 성공한 스포츠 지도자들이 갖추고 있는 리더십의 유형이 있는 것으로 나타났다. 둘째, 실패한 스포츠 지도자들이 갖추고 있는 리더십의 유형이 있는 것으로 나타났다. 본 연구 결과에서 나타난 리더십 유형 및 특성은 지도자들이 갖추어야 할 효과적인 리더십을 규명하여, 선수들을 지도하는데 있어 필요한 리더십이 무엇인지를 파악하고 이를 통해 선수들을 지도하고 성과를 창출하는데 활용이 가능하다는 점에서 실무적 차원의 시사점이 있다.

조선왕조실록 분석을 위한 단어 빈도수 기반 빅 데이터 분석 (Word Frequency-Based Big Data Analysis for the Annals of the Joseon Dynasty)

  • 변영일;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.707-709
    • /
    • 2022
  • 조선왕조실록은 조선왕조가 태조부터 철종까지 이르기까지 472년간의 역사를 편찬한 사서이다. 조선왕조실록은 국보 제 151호로 중요한 기록유산이지만 내용이 방대하여 분석함에 있어 어려움이 따른다. 따라서 조선왕조실록의 모든 내용을 분석하기 보다는 중요한 단어들을 추출하여 분석해야 할 필요가 있다. 본 논문에서는 웹 크롤링을 통하여 조선왕조실록 웹페이지의 본문에서 단어를 추출하고 단어의 빈도수에 따라 정렬한 데이터를 기반으로 번역된 조선왕조실록의 본문을 분석하는 방법을 제안한다. 본 연구는 조선왕조실록의 세종 부분만을 추출하여 단어의 빈도수에 따라 중요도를 분석하였다.

  • PDF