• Title/Summary/Keyword: Crawling

Search Result 371, Processing Time 0.027 seconds

A Method of Selective Crawling for Web Document Using URL Pattern (URL 패턴을 이용한 웹문서의 선택적 자동수집 방안)

  • Jeong, Jun-Yeong;Jang, Mun-Su
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.41-44
    • /
    • 2007
  • 특정 분야별로 구축되는 온톨로지에 관하여 그 언스턴스를 쉽고 빠르게 구축하기 위해서는 구조화된 문서를 이용하는 것이 효율적이다. 그러나, 일반적인 웹 문서는 모든 분야에 대하여 다양한 형식으로 표현되어 존재하기 때문에, 대상이 되는 구조 문서를 자동으로 수집하기는 쉽지 않다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 구조화된 형태로 정보를 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

  • PDF

Improving the quality of Search engine by using the Intelligent agent technolo

  • Nauyen, Ha-Nam;Choi, Gyoo-Seok;Park, Jong-Jin;Chi, Sung-Do
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.12
    • /
    • pp.1093-1102
    • /
    • 2003
  • The dynamic nature of the World Wide Web challenges Search engines to find relevant and recent pages. Obtaining important pages rapidly can be very useful when a crawler cannot visit the entire Web in a reasonable amount of time. In this paper we study way spiders that should visit the URLs in order to obtain more “important” pages first. We define and apply several metrics, ranking formula for improving crawling results. The comparison between our result and Breadth-first Search (BFS) method shows the efficiency of our experiment system.

  • PDF

Robot Posture Estimation Using Inner-Pipe Image

  • Sup, Yoon-Ji;Sok, Kang-E
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 2001.10a
    • /
    • pp.173.1-173
    • /
    • 2001
  • This paper proposes the methodology in image processing algorithm that estimates the pose of the pipe crawling robot. The pipe crawling robots are usually equipped with a lighting device and a camera on its head for monitoring and inspection purpose. The proposed methodology is using these devices without introducing the extra sensors and is based on the fact that the position and the intensity of the reflected light varies with the robot posture. The algorithm is divided into two parts, estimating the translation and rotation angle of the camera, followed by the actual pose estimation of the robot. To investigate the performance of the algorithm, the algorithm is applied to a sewage maintenance robot.

  • PDF

Classify Layer Design for Navigation Control of Line-Crawling Robot : A Rough Neurocomputing Approach

  • Ahn, Taechon;Peters, James F.;Borkowski, Maciey
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 2002.10a
    • /
    • pp.68.1-68
    • /
    • 2002
  • This paper considers a rough neurocomputing approach to the design of the classify layer of a Brooks architecture for a robot control system. The Paradigm for neurocomputing that has its roots in rough set theory, and works well in cases where there is uncertainty about the values of measurements used to make decisions. In the case of the line-crawling robot (LCR) described in this paper, rough neurocomputing is used to classify sometimes noisy signals from sensors. The LCR is a robot designed to crawl along high-voltage transmission lines where noisy sensor signals are common because of the electromagnetic field surrounding conductors. In rough neurocomputing, training a network of neurons...

  • PDF

3 차원 주화성 모델 개발을 통한 흡착형 세포의 동적특성 연구

  • Song, Ji-Hwan;Kim, Dong-Choul
    • Proceedings of the KSME Conference
    • /
    • 2008.11a
    • /
    • pp.1638-1642
    • /
    • 2008
  • Cell migration is one of the essential mechanisms responsible for complex biological processes. Intensive researches have begun to elucidate the mechanisms and search intriguing conditions for efficient control of cell migration. One general mechanism which is widely applicable for cells including neutrophil, Escherichia coli and endothelial cell is chemotaxis. Especially, understanding the chemotactic mechanics of cell crawling has important implications for various medical and biological applications. The single cell study for chemotaxis has an advantage over studies with the population of cells in providing a clearer observation of cell migration, which leads to more accurate assessments of chemotaxis. In this paper, we propose a three-dimensional model considering a single crawling cell to study its chemotaxis. The semi-implicit Fourier spectral method is applied for high efficiency and numerical stability. The simulation results reveal rich dynamics of cell.

  • PDF

News Abusing Inference Model Using Web Crawling (웹크롤링을 활용한 뉴스 어뷰징 추론 모델)

  • Chung, Kyoung-Rock;Park, Koo-Rack;Chung, Young-Suk;Nam, Ki-Bok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.175-176
    • /
    • 2018
  • 기존 신문이나 티브이가 아닌 온라인과 모바일로 뉴스를 보는 사람이 더 많아지면서, 포털 사이트 뉴스난에 다른 언론사의 기사보다 더 많이 노출되기 위한 경쟁의 심화로 뉴스 어뷰징은 심각한 사회 문제로까지 대두되었다. 본 논문은 온라인상에서 생성, 유통되는 많은 뉴스 중에서 이용자의 시간을 낭비하고 양질의 정보를 찾기 힘들게 하는 뉴스 어뷰징을 판단하는 모델을 제안한다. 제안된 모델은 크롤링 기술을 사용하여 뉴스의 제목과 내용을 가져온 후 인공지능 기술을 이용한 유사도 검사로 기사의 어뷰징 여부를 판단하여 양질의 뉴스 정보를 사용자에게 제공될 수 있다.

  • PDF

Development of technology to improve information accessibility of information vulnerable class using crawling & clipping

  • Jeong, Seong-Bae;Kim, Kyung-Shin
    • Journal of the Korea Society of Computer and Information
    • /
    • v.23 no.2
    • /
    • pp.99-107
    • /
    • 2018
  • This study started from the public interest purpose to help accessibility for the information acquisition of the vulnerable groups due to visual difficulties such as the elderly and the visually impaired. In this study, the server resources are minimized and implemented in most of the user smart phones. In addition, we implement a method to gather necessary information by collecting only pattern information by utilizing crawl & clipping without having to visit the site of the information of the various sites having the data necessary for the user, and to have it in the server. Especially, we applied the TTS(Text-To-Speech) service composed of smart phone apps and tried to develop a unified customized information collection service based on voice-based information collection method.

A Study on Change in Perception of Community Service and Demand Prediction based on Big Data

  • Chun-Ok, Jang
    • International Journal of Advanced Culture Technology
    • /
    • v.10 no.4
    • /
    • pp.230-237
    • /
    • 2022
  • The Community Social Service Investment project started as a state subsidy project in 2007 and has grown very rapidly in quantitative terms in a short period of time. It is a bottom-up project that discovers the welfare needs of people and plans and provides services suitable for them. The purpose of this study is to analyze using big data to determine the social response to local community service investment projects. For this, data was collected and analyzed by crawling with a specific keyword of community service investment project on Google and Naver sites. As for the analysis contents, monthly search volume, related keywords, monthly search volume, search rate by age, and gender search rate were conducted. As a result, 10 items were found as related keywords in Google, and 3 items were found in Naver. The overall results of Google and Naver sites were slightly different, but they increased and decreased at almost the same time. Therefore, it can be seen that the community service investment project continues to attract users' interest.

Recruitment information SNS system using crawling (크롤링을 이용한 채용정보 SNS 시스템)

  • Hur, Tai-Sung;Park, Jae-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.467-468
    • /
    • 2021
  • 본 논문에서는 자료수집(데이터 크롤링)을 이용해 많은 채용정보를 쉽게 접근할 수 있도록 하는 시스템이다. 현재는 StackOverflow의 자료를 수집하고 데이터베이스에 자동으로 저장하도록 하였다. 수집해야 할 자료가 많아 Celery와 RabbitMQ를 사용하여 비동기 작업을 요청하여 즉시 응답을 받지 않아도 다른 일을 수행할 수 있다. 이렇게 수집한 자료들을 해당 사이트에 나열해줌으로 사용자들이 시간과 비용을 절감하여 효율적인 취업 준비를 할 수 있도록 하는 시스템을 설계 구현하였다.

  • PDF

Development of chatting program using social issue keyword information (사회적 핵심 이슈 키워드 정보를 활용한 채팅 프로그램 개발)

  • Yoon, Kyung-Suob;Jeong, Won-Hyeok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.307-310
    • /
    • 2020
  • 본 논문에서 이슈 키워드 추출을 위해 텍스트 마이닝(Text Mining) 기술을 요구한다. 사회적 이슈 키워드를 추출하기 위해 키워드 수집 모델이 되는 사이트에서 크롤링(crawling)을 수행한 뒤, 형태소 단위 의미있는 단어를 수집하기 위해 형태소 분석(morphological analysis)을 수행한다. 한국어 형태소 분석을 위해 파이썬의 코엔엘파이(KoNLPy) 패키지를 활용한다. 형태소 분석을 통해 나뉘어진 단어에서 통계를 내어 이슈 키워드 추출한다. 이슈 키워드를 뒷받침할 연관 단어를 분석하기 위해 단어 임베딩(Word Embedding)을 수행한다. 단어 임베딩 수행을 위해 Word2Vec 모델 중 Skip-Gram 방법론을 적용하여 연관 단어를 분석하도록 개발하였다. 웹 소켓(Web Socket) 통신을 통한 채팅 프로그램의 상단에 분석한 이슈 키워드와 연관 단어를 출력하도록 개발하였다.

  • PDF