• 제목/요약/키워드: We Crawler

검색결과 81건 처리시간 0.021초

ScienceON 웹 로그에 대한 인간 및 웹 크롤러 행위 패턴 분석 (Analysis of Behavior Patterns from Human and Web Crawler Events Log on ScienceON)

  • ;정한민;박정훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.6-8
    • /
    • 2022
  • 웹 로그 분석은 서비스 개선에 있어 필수적인 절차 중 하나이다. ScienceON은 다양한 과학기술 문헌과 정보를 서비스하는 대표적인 정보 서비스이며, 우리는 지속적인 개선을 위해 웹 로그를 분석하고 있다. 본 연구는 2020년 5월과 2021년 5월 생성된 ScienceON 웹 로그에 대해 인간과 웹 크롤러로 구분하여 심층적인 분석을 하는 데 목표를 두고 있다. 먼저 S(검색), V(상세보기), D(다운로드) 타입에 해당하는 웹 로그만 추출하여 각 시기에 대해 658,407와 8,727,042 레코드로 정규화하였다. 그리고, 파이썬 'user_agents' 라이브러리를 이용하여 인간과 웹 크롤러로 로그를 분리하였으며, 각 로그에 대해 60초를 기준으로 세션 크기를 설정하고 분석하였다. 인간과 달리 웹 크롤러는 세션 당 평균 행위 패턴(Average Behaviors per Session)의 길이가 상대적으로 길고, 행위 패턴이 V 중심으로 이루어짐으로 확인하였다. 향후 웹 크롤러를 쉽게 탐지하고 대응하며, 인간 사용자의 행위 패턴에 대응할 수 있도록 서비스를 개선할 예정이다.

  • PDF

문화에 따른 개방형 협업 지식공유 활동 비교 연구: 집단주의 문화와 개인주의 문화를 중심으로 (Cross-cultural Study on Knowledge Sharing in Open Collaboration: Collectivism vs. Individualism)

  • 백현미;이새롬
    • 지식경영연구
    • /
    • 제19권2호
    • /
    • pp.133-150
    • /
    • 2018
  • To cope with the rapid changes in the corporate environment, the creation of innovative output through various forms of collaboration have been discussed. For open collaborations, contributors who distribute to various countries and cultures are able to share knowledge via the internet without physical rewards or responsibilities. In this study, we focused on the open source software project, which is a representative open collaboration. We investigated the factors that affect the knowledge contribution of developers of various countries within the open collaboration platform. Specifically, we investigated the open collaborative nature of multi-culture developers by dividing cultures according to collectivism and individualism. We collected data on 26,604 developers using a python based web crawler for GitHub which is an open source software development platform, and conducted cross-cultural study. This paper contributes to the field of knowledge management by suggesting various impacts of antecedents such as hireability, and information exposure on knowledge sharing according to culture.

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

빈도 분석을 이용한 HTML 텍스트 추출 (HTML Text Extraction Using Frequency Analysis)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1135-1143
    • /
    • 2021
  • 최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

Improving the quality of Search engine by using the Intelligent agent technolo

  • Nauyen, Ha-Nam;Choi, Gyoo-Seok;Park, Jong-Jin;Chi, Sung-Do
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.1093-1102
    • /
    • 2003
  • The dynamic nature of the World Wide Web challenges Search engines to find relevant and recent pages. Obtaining important pages rapidly can be very useful when a crawler cannot visit the entire Web in a reasonable amount of time. In this paper we study way spiders that should visit the URLs in order to obtain more “important” pages first. We define and apply several metrics, ranking formula for improving crawling results. The comparison between our result and Breadth-first Search (BFS) method shows the efficiency of our experiment system.

  • PDF

Feature Analysis and Detection Techniques for Piracy Sites

  • Choi, Seul-Ki;Kwak, Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2204-2220
    • /
    • 2020
  • In recent years, digital content has become easily accessible because of internet technology. Representative examples of such digital content include various types, such as music, TV, (program, sport, drama etc.) and films. However, there are cases where internet technology is used in illegal ways without the authorization of the copyright holder for digital content. Such actions have a direct impact on copyright owners' profits and further affect the development of the digital culture industry adversely. Therefore, in this study, we analyze features to detect piracy sites that cause copyright infringement. Further, we develop a piracy site detection crawler based on these features and present the analysis of its performance.

World Wide Web 상의 첨단 생산 기술: 방법론과 응용기술 (Advanced Manufacturing Technologies on the World Wide Web: Methodologies and Application Techniques)

  • 김성집;김낙현;양태곤
    • 산업공학
    • /
    • 제9권3호
    • /
    • pp.306-316
    • /
    • 1996
  • The easily use of WWW and Web browser of INTERNET makes the world our stage. But when we search for the information and resource that we want, the information supplied by search engine (e.g., Yahoo, Lycos, WebCrawler, Alta Vista) is inadequate to acquire the necessary and related information of research issues. This paper surveys AMT(Advanced Manufacturing Technology) which is the research topics recently on the WWW(WorLd Wide Web) and provides searching methods and information for academic research, technical report, proceedings, software, etc. It also briefly surveys WWW-VL(Virtual Library) and reviews the major three technology, CALS (Commerce At Light Speed), AMS(Agile Manufacturing System), CE(Concurrent Engineering), that is recently the focus of the research issue of Industrial Engineer.

  • PDF

수중 구조물 검사로봇의 기구학적 관계를 이용한 확장 칼만 필터 기반의 위치추정 (Extended Kalman Filter-based Localization with Kinematic Relationship of Underwater Structure Inspection Robots)

  • 허영진;이기현;김진현
    • 제어로봇시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.372-378
    • /
    • 2013
  • In this paper, we research the localization problem of the crawler-type inspection robot for underwater structure which travels an outer wall of underwater structure. Since various factors of the underwater environment affect an encoder odometer, it is hard to localize robot itself using only on-board sensors. So in this research we used a depth sensor and an IMU to compensate odometer which has extreme error in the underwater environment through using Extended Kalman Filter(EKF) which is normally used in mobile robotics. To acquire valid measurements, we implemented precision sensor modeling after assuming specific situation that robot travels underwater structure. The depth sensor acquires a vertical position of robot and compensates one of the robot pose, and IMU is used to compensate a bearing. But horizontal position of robot can't be compensated by using only on-board sensors. So we proposed a localization algorithm which makes horizontal direction error bounded by using kinematics relationship. Also we implemented computer simulations and experiments in underwater environment to verify the algorithm performance.

가변형 단일 궤도를 이용한 장애물 극복방법에 관한 연구 (Study of a Variable Single-tracked Crawler for Overcoming Obstacles)

  • 김지홍;이창구
    • 제어로봇시스템학회논문지
    • /
    • 제16권4호
    • /
    • pp.391-395
    • /
    • 2010
  • In our paper, we propose an asymmetric single-tracked wheel system, and describe its structure and the method for maintaining the length of a transformable track system. And the method is reducing the gap of lengths. Therefore, we propose an efficient structure for transforming and explain motions with kinematics. Our transformable shape single-tracked mobile system has an advantage to overcome an obstacle or stairs by the variable arms in the single unity track system. But we will make the variable shape of tracked system get a drive that has a force to stand against a wall. In this case, we can consider this system to a rigid body and have a notice that this single tracked system is able to get vary shape with the variable arm angle. Considering forces balance along x-axis and y-axis, and moments balance around the center of the mass we have. If this rigid body is standing against a wall and doesn't put in motion, the force of flat ground and the rigid body sets an equal by a friction. In the same way, the force of a wall and the rigid sets an equal by a friction.