• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.022초

국내 웹 디렉토리들의 커버리지 및 커버리지 중복성 분석 (Analyzing Coverage and Coverage Overlap of Korean Web Directories)

  • 배희진;이진숙;이준호;박소연
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.173-186
    • /
    • 2004
  • 본 연구에서는 국내 주요 웹 검색 포탈인 네이버, 야후 코리아, 엠파스가 제공하는 웹 디렉토리들의 커버리지 및 커버리지 중복성을 분석하였다. 이를 위하여 본 연구는 웹 디렉토리에 등록된 사이트들의 수집 방법을 개발하고, 대분류 매핑, 중복 분류 및 참조 링크 고려와 같은 커버리지 및 커버리지중복성 분석에 필요한 방법론을 제시하였다. 조사 결과, 참조 링크의 허용 여부가 웹 디렉토리의 커버리지에 매우 큰 영향을 미치며, 국내 웹 디렉토리들 사이의 커버리지 중복성이 매우 낮은 것으로 나타났다. 본 연구는 국내 웹 디렉토리들에 대한 이해를 넓히고, 웹 디렉토리들의 커버리지 및 커버리지중복성 분석에 필요한 방법론을 제시함으로써, 웹 디렉토리에 관한 연구에 기여할 것으로 기대된다.

웹 로봇의 성능 평가를 위한 방법론 (A Methodology for Performance Evaluation of Web Robots)

  • 김광현;이준호
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.563-570
    • /
    • 2004
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 점을 통하여 공개되고 있으며, 이용자는 점 검색 서비스를 이용하여 이러한 정보들에 과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가하고 있다. 본 연구에서는 웹 로봇들을 체계적으로 평가하기 위한 기준으로서 효율성, 지속성, 신선성, 포괄성, 정숙성, 유일성, 안전성을 제시하고, 이러한 평가 기준의 향상에 도움이 되는 기능들을 기술하였다. 또한, 본 연구에서는 네이버, 구글, 알타비스타 등에서 사용되고 있는 기존의 점 로봇들에 구현된 기능들을 조사하였다. 본 연구의 결과는 보다 효과적인 램 로봇의 개발에 기여할 것으로 기대된다.

사회적 핵심 이슈 키워드 정보를 활용한 채팅 프로그램 개발 (Development of chatting program using social issue keyword information)

  • 윤경섭;정원혁
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.307-310
    • /
    • 2020
  • 본 논문에서 이슈 키워드 추출을 위해 텍스트 마이닝(Text Mining) 기술을 요구한다. 사회적 이슈 키워드를 추출하기 위해 키워드 수집 모델이 되는 사이트에서 크롤링(crawling)을 수행한 뒤, 형태소 단위 의미있는 단어를 수집하기 위해 형태소 분석(morphological analysis)을 수행한다. 한국어 형태소 분석을 위해 파이썬의 코엔엘파이(KoNLPy) 패키지를 활용한다. 형태소 분석을 통해 나뉘어진 단어에서 통계를 내어 이슈 키워드 추출한다. 이슈 키워드를 뒷받침할 연관 단어를 분석하기 위해 단어 임베딩(Word Embedding)을 수행한다. 단어 임베딩 수행을 위해 Word2Vec 모델 중 Skip-Gram 방법론을 적용하여 연관 단어를 분석하도록 개발하였다. 웹 소켓(Web Socket) 통신을 통한 채팅 프로그램의 상단에 분석한 이슈 키워드와 연관 단어를 출력하도록 개발하였다.

  • PDF

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

Spring Boot 기반의 오픈소스 소프트웨어 보안 취약점 및 패치 정보 제공 웹 어플리케이션 개발 (Spring Boot-based Web Application Development for providing information on Security Vulnerabilities and Patches for Open Source Software)

  • 심완;최웅철
    • 디지털산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.77-83
    • /
    • 2021
  • As Open Source Software(OSS) recently invigorates, many companies actively use the OSSes in their business software. With such OSS invigoration, our web application is developed in order to provide the safety in using the OSSes, and update the information on the new vulnerabilities and the patches at all times by crawling the web pages of the relevant OSS home pages and the managing organizations of the vulnerabilities. By providing the updated information, our application helps the OSS users and developers to be aware of such security issues, and gives them to work in the safer environment from security risks. In addition, our application can be used as a security platform to greatly contribute to preventing potential security incidents not only for companies but also for individual developers.

분산형 병렬 크롤러 설계 및 구현 (Distribute Parallel Crawler Design and Implementation)

  • 장현호;전경식;이후기
    • 융합보안논문지
    • /
    • 제19권3호
    • /
    • pp.21-28
    • /
    • 2019
  • 기관이나 단체에서 관리하는 홈페이지 수가 증가하면서 그에 따른 웹 어플리케이션 서버나 컨테이너도 그에 상응하게 증가한다. 웹 어플리케이션 서버와 컨테이너의 웹 서비스 상태를 점검하는데 있어서 사람이 일일이 원격지에 있는 물리적인 서버에 터미널을 통해 접근하거나 다른 접근 가능한 소프트웨어를 사용하여 접근한 뒤 웹 서비스의 상태를 점검하는 것은 매일 반복하기에는 매우 번거로운 일이다. 이전에 연구되었던 크롤러관련 연구에는 크롤링에 따른 발생 데이터 처리에 관한 언급이 찾아보기 힘들다. 크롤러에서 데이터베이스에 접근하여 데이터를 저장하는데 있어서 데이터 손실이 발생한다. 본 연구에서는 크롤링 기반의 웹 어플리케이션 서버 관리에 따른 점검 데이터를 손실 없이 데이터화 하여 저장하는 방안을 제시하였다.

비정형 데이터와 딥러닝을 활용한 내수침수 탐지기술 개발 (Development of a method for urban flooding detection using unstructured data and deep learing)

  • 이하늘;김형수;김수전;김동현;김종성
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1233-1242
    • /
    • 2021
  • 본 연구에서는 비정형 데이터인 사진자료를 이용하여 침수의 발생여부를 판단하는 모델을 개발하였다. 침수분류를 모델 개발을 위하여 CNN기반의 VGG16, VGG19을 이용하였다. 모델을 개발하기 위하여 침수사진과 침수가 발생하지 않은 사진을 웹크롤링 방법을 이용하여 사진을 수집하였다. 웹크롤링 방법을 이용하여 수집한 데이터는 노이즈 데이터가 포함되어 있기 때문에 1차적으로 본 연구와 상관없는 데이터는 소거하였으며, 2차적으로 모델 적용을 위하여 224 × 224로 사진 사이즈를 일괄 변경하였다. 또한 사진의 다양성을 위해서 사진의 각도를 변환하여 이미지 증식을 수행하였으며. 최종적으로 침수사진 2,500장과 침수가 발생하지 않은 사진 2,500장을 이용하여 학습을 수행하였다. 모델 평가결과 모델의 평균 분류성능은 97%로 나타났으며. 향후 본 연구결과를 통하여 개발된 모델을 CCTV관제센터 시스템에 탑재한다면 신속하게 침수피해에 대한 대처가 이루어 질 수 있을 것이라 판단된다.

여행 수용 파악 및 항공 노선 전략 연구 : 웹 크롤링 기반 분석 기법 (Study of Travel Demand and Air Route Strategy : Web Crawling-based Analysis Technology)

  • 조창현;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.378-381
    • /
    • 2020
  • 항공/여행 상품은 타 산업보다 불확실성에 취약하며 시간의 절대적인 종속성으로 인해 정확한 수요 파악 및 예측을 하지 못할 경우 가치가 0으로 수렴한다. 이에 본 논문은 웹 크롤링을 기반으로 잠재여행 욕구를 파악하고, 향후 성장할 것으로 예상되는 항공 노선 및 취항지를 예측 및 분석하는 기법을 제안하고자 한다.

한국 웹 그래프와 진화에 대한 연구 (Graph Structure and Evolution of the Korea web)

  • 한인규;이상호
    • 정보처리학회논문지D
    • /
    • 제14D권3호
    • /
    • pp.293-302
    • /
    • 2007
  • 웹 그래프에 대한 연구는 웹 문서의 효율적인 수집을 위하여 적용되는 알고리즘과, 커뮤니티의 검색 및 발견의 분야에 있어 매우 중요한 위치를 차지한다. 또한 웹 그래프의 연구에 있어 발견되는 웹의 현상들은 웹이 가지고 있는 특징들을 나타내며 웹 그래프의 진화를 연구함으로써 웹의 크기와 진화 프로세스를 예측할 수 있다. 본 논문에서는 약 1억 1천만 개의 노드와 약 27억 개의 노드를 가지는 한국 웹 그래프에 대한 연구를 수행한다. 먼저 한국 웹의 페이지들이 서로 얼마나 연결되어 있는가에 대한 접속도 연구를 수행한다. 한국 웹의 접속도는 bow-tie 모형으로 표현할 수 있다. 또한 Power Law 현상과 같은 한국 웹의 특징이 글로벌 웹과 어떤 차이가 있는지 분석한다. 한국 웹 그래프의 속성은 글로벌 웹과는 많은 차이를 보여주었다. 마지막으로 한국 웹 그래프의 진화에 대한 연구를 여러 가지 관점으로 수행한다.

악성사이트 검출을 위한 안전진단 스케줄링 (Security Check Scheduling for Detecting Malicious Web Sites)

  • 최재영;김성기;민병준
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권9호
    • /
    • pp.405-412
    • /
    • 2013
  • 최근의 웹은 구현 방법과 이용 패턴이 변화되면서 서로 연결되고 융합되는 형태로 변화하였다. 서비스가 진화되고 사용자 경험이 향상되었으나 다양한 출처의 검증되지 않은 웹자원들이 서로 결합되어 보안 위협이 가중되었다. 이에 웹 확장의 역기능을 억제하고 안전한 웹서비스를 제공하기 위해 확장된 대상에 대한 안전성 진단이 필요하다. 본 논문에서는 웹사이트의 안전한 운영을 위해 안전진단을 외부 링크까지 확장하여, 진단 대상을 선별하고 지속적으로 진단하여 악성페이지를 탐지하고 웹사이트의 안전성을 확보하기 위한 스케줄링 방안을 제안한다. 진단 대상의 접속 인기도, 악성사이트 의심도, 검사 노후도 등의 특징을 추출하고 이를 통해 진단 순서를 도출하여 순서에 따라 웹페이지를 수집하여 진단한다. 실험을 통해 순차적으로 반복 진단하는 것보다 순위에 따라 진단 주기를 조정하는 것이 중요도에 따라 악성페이지 탐지에 효과적임을 확인하였다.