• 제목/요약/키워드: HTML selector

검색결과 1건 처리시간 0.016초

파이썬을 이용한 프레임내 웹 페이지 스크래핑 기법 (A Scraping Method of In-Frame Web Sources Using Python)

  • 윤수진;승리;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.271-274
    • /
    • 2019
  • 이 논문에서는 일반적인 웹 접근 방법으로 접근하기 어려운 프레임 내 웹 페이지의 데이터를 프로그램에 의해 자동으로 수집하기 위한 세부 주소 확보 기법을 제안하였다. 제안한 세부 주소 확보 기법과 HTML 실렉터를 활용할 수 있는 Python 언어와 Beautiful Soup 라이브러리를 이용하여 여러 페이지로 작성되어 있는 게시판 텍스트 데이터를 자동으로 모두 수집할 수 있었다. 제안한 기법을 활용하여 어떠한 형태의 주소 형식으로 되어 있는 웹 페이지들에 대해서도 Python 웹스크래핑 프로그램에 의해 자동으로 대량의 데이터를 수집할 수 있으며, 이를 통해 빅데이터 분석에 활용될 수 있을 것으로 예상한다.

  • PDF