• 제목/요약/키워드: web Crawler

검색결과 102건 처리시간 0.031초

주제 중심 수집기를 이용한 RSS 채널 추천 시스템 (RSS Channel Recommendation System using Focused Crawler)

  • 이영석;조정원;김준일;최병욱
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.52-59
    • /
    • 2006
  • 최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 개인별 관심 분야의 전문화와 블로그의 보급을 위해 RSS라는 신디케이션 기술이 제공되고 있다. 사용자는 RSS 수집기에 RSS 채널의 주소를 등록함으로써, 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어서 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 사용자가 웹상에 존재하는 RSS 문서를 효과적으로 이용할 수 있도록 RSS 채널의 주소를 수집하는 주제 중심의 수집가와 사용자 질의에 따른 RSS 채널의 순위 부여 방안을 제안한다. 제안된 RSS 수집기를 이용하면 사용자는 원하는 RSS 채널 주소를 효과적으로 검색 할 수 있어서 자료 검색의 효율성을 증진시킬 수 있다.

웹 페이지 비교통합 기반의 정보 수집 시스템 설계 및 개발에 대한 연구 (A Study on Design and Development of Web Information Collection System Based Compare and Merge Method)

  • 장진욱
    • 한국IT서비스학회지
    • /
    • 제13권1호
    • /
    • pp.147-159
    • /
    • 2014
  • Recently, the quantity of information that is accessible from the Internet is being dramatically increased. Searching the Web for useful information has therefore become increasingly difficult. Thus, much research has been done on web robots which perform internet information filtering based on user interest. If a web site which users want to visit is found, its content is searched by following the searching list or Web sites links in order. This search process takes a long time according as the number of page or site increases so that its performance need to be improved. In order to minimize unnecessary search with web robots, this paper proposes an efficient information collection system based on compare and merge method. In the proposed system, a web robot initially collects information from web sites which users register. From the next visit to the web sites, the web robot compares what it collected with what the web sites have currently. If they are different, the web robot updates what it collected. Only updated web page information is classified according to subject and provided to users so that users can access the updated information quickly.

World Wide Web 상의 첨단 생산 기술: 방법론과 응용기술 (Advanced Manufacturing Technologies on the World Wide Web: Methodologies and Application Techniques)

  • 김성집;김낙현;양태곤
    • 산업공학
    • /
    • 제9권3호
    • /
    • pp.306-316
    • /
    • 1996
  • The easily use of WWW and Web browser of INTERNET makes the world our stage. But when we search for the information and resource that we want, the information supplied by search engine (e.g., Yahoo, Lycos, WebCrawler, Alta Vista) is inadequate to acquire the necessary and related information of research issues. This paper surveys AMT(Advanced Manufacturing Technology) which is the research topics recently on the WWW(WorLd Wide Web) and provides searching methods and information for academic research, technical report, proceedings, software, etc. It also briefly surveys WWW-VL(Virtual Library) and reviews the major three technology, CALS (Commerce At Light Speed), AMS(Agile Manufacturing System), CE(Concurrent Engineering), that is recently the focus of the research issue of Industrial Engineer.

  • PDF

웹 로봇 구현 및 한국 웹 통계보고 (Implementation of a Web Robot and Statistics on the Korean Web)

  • 김성진;이상호
    • 정보처리학회논문지C
    • /
    • 제10C권4호
    • /
    • pp.509-518
    • /
    • 2003
  • 웹 로봇은 웹 문서를 다운로드하고 저장하는 프로그램이다. 현재 웹 로봇 구현에 대한 여러 연구들이 진행되고, 웹에 대한 다양한 통계들이 보고되고 있다. 첫째, 본 논문에서는 새로운 웹 로봇을 개발하고, 개발된 웹 로봇의 전체적인 구조와 구현 결정들을 기술한다. 둘째, 약 7천 4백만 한국 웹 문서들에 대한 여러 통계치를 보고한다. 셋째, 1,424 개의 한국 웹 사이트를 지속적으로 관찰하여 웹 문서들의 변경 경향을 조사한다. 본 논문에서는 웹 문서의 변경에 영향을 미치는 요소들이 식별된다. 식별된 요소는 갱신할 웹 문서를 선택하기 위한 정보로서 유용하게 활용될 수 있다.

대용량 웹에서 RCS를 이용한 웹 히스토리 저장 시스템 설계 (A Design of Web History Archive System Using RCS in Large Scale Web)

  • 이무훈;이민희;조성훈;장창복;김동혁;최의인
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.211-213
    • /
    • 2004
  • 웹의 급속한 성장에 따라 웹 정보는 시간적 . 공간적 제약을 받지 않고 널리 활용되어지고 있다. 하지만 기존에 유용하게 사용되던 정보가 어느 순간 삭제가 된다면 더 이상 켈 정보를 이용할 수 없게 된다는 문제점이 존재한다. 이러한 문제를 해결하기 위해 웹 아카이브 시스템에 대한 연구와 좀더 효율적으로 삭제된 웹 정보를 저장하기 위한 기법들이 제안되었다. 그러나 기존의 기법들은 단순히 웹 정보를 저장하는 것에만 초점을 두었기 때문에 저장 공간의 효율성 및 제약성을 전혀 고려하지 않는 단점을 가지고 있다. 따라서 본 논문에서는 WebBase를 기반으로 하여 레포지토리에서 갱신되는 웹 정보들을 효율적으로 저장하고 검색할 수 있는 웹 히스토리 저장 시스템을 설계하였다. 본 논문에서 제안한 기법은 웹 히스토리 저장 시스템 설계를 위해 별도의 Crawler를 두지 않고 WebBase를 활용함으로써 웹 정보 수집에 대한 오버헤드를 줄일 수 일고, 삭제되는 웹 정보를 RCS를 통하여 체계적이고 효율적으로 저장함으로써 중요한 웹 정보를 공유할 수 있도록 하였다.

  • PDF

웹 아카이빙을 위한 정보자원의 자동수집방법 개발 - 재난안전정보를 중심으로 - (The Development of Automatic Collection Method to Collect Information Resources for Wed Archiving: With Focus on Disaster Safety Information)

  • 이수진;한희영;심민정;원동현;김용
    • 한국기록관리학회지
    • /
    • 제17권4호
    • /
    • pp.1-26
    • /
    • 2017
  • 본 연구는 각 기관별로 산재되어 있는 재난안전정보의 효율적인 공유 및 활용과 일반 이용자들의 재난안전정보의 접근성 향상을 위하여 웹 크롤러를 활용한 자동수집방안을 제시하고자 한다. 그러나 현재 웹은 심층 웹이 대부분을 차지하고 있어 일반적인 아카이빙 전략에 사용되는 크롤러로 수집이 불가능하다. 이에 따라 본 연구에서는 심층 웹의 논리적 구조를 분석하여 정보 자원을 수집할 수 있는 알고리즘을 개발하고 실제 크롤러를 구현하였다. 이를 통해 재난안전정보의 자동수집을 수행하였고 이는 재난안전정보의 공유 및 활용으로 효율적인 재난 업무에 도움을 줄 것으로 예상된다. 나아가 본 연구에서 구현한 크롤러의 범용화를 통해 심층 웹 형태의 정보 자원을 자동수집할 수 있다는 점에 의의가 있다.

온라인 소셜네트워크를 통한 한국인의 정치성향 예측 기법의 연구 (A Study on Political Attitude Estimation of Korean OSN Users)

  • 무하마드 에카 위자야;안희준
    • 한국산업정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.1-11
    • /
    • 2016
  • 본 연구는 Facebook 사용자들의 Like활동 정보를 사용하여 정치성향을 예측하기 위한 분석 모델과 프로그램를 개발하였다. Facebook의 Ajax사용 특성 을 반영한 Facebook 크로울러를 개발하였으며, 이를 사용하여 수집된 성기고 방대한 데이터의 상관 매트릭스 정보를 효과적의 축소하기 위한 카테고리 레벨 필터링 기법을 개발하였다. 대한민국 사용자들을 대상으로 LCA (Latent class analysis) 분석한 결과 28 개의 기준 (전체 대상페이지의 3% 미만) 으로 사용자의 정치적인 극성을 상당히 정확하게 (AUC of 0.82) 예측할 수 있음을 확인하였다.

동시성으로 작성하는 파이썬 크롤러 (Modern Concurrent Programming for Multicode Environment)

  • 김남규;강영진;이훈재
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.430-433
    • /
    • 2017
  • 동시성을 보장하는 프로그래밍은 개발자에게 있어서 필수적이다. 이를 사용하지 않는다면 하드웨어 자체의 기술 발전이 있지 않는 한 프로그램의 속도 향상을 기대하기 힘들다. 뛰어난 동시성 코드를 지원하는 프로그래밍 언어로 go, elixir, scala 등이 있다. 수많은 유용한 라이브러리를 지원하는 파이썬 역시 asyncio나 coroutine과 같은 동시성 프로그래밍을 지원하고 있다. 본 지에서는 동시성과 병렬성의 개념을 정의하며, 파이썬에서 동시성 프로그래밍을 작성할 시에 유의해야 할 점에 대해 설명한다. 웹 데이터를 수집하는 크롤러를 동시성 코드로 작성하여 순차, 멀티스레딩 코드로 작성된 프로그램과 성능을 비교한다.

  • PDF

양방향 장단기 메모리 신경망을 이용한 욕설 검출 (Abusive Detection Using Bidirectional Long Short-Term Memory Networks)

  • 나인섭;이신우;이재학;고진광
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.35-45
    • /
    • 2019
  • 욕설과 비속어를 포함한 악성 댓글에 대한 피해는 최근 언론에 나오는 연애인의 자살뿐만 아니라 사회 전반에서 다양한 형태로 증가하고 있다. 이 논문에서는 양방향 장단기 메모리 신경망 모델을 이용하여 욕설을 검출하는 기법을 제시하였다. 웹 크룰러를 통해 웹상의 댓글을 수집하고, 영어나 특수문자 등의 사용하지 않은 글에 대해 불용어 처리를 하였다. 불용어 처리된 댓글에 대해 문장의 전·후 관계를 고려한 양방향 장단기 메모리 신경망 모델을 적용하여 욕설 여부를 판단하고 검출하였다. 양방향 장단기 메모리 신경망을 사용하기 위해 검출된 댓글에 대해 형태소 분석과 벡터화 과정을 거쳤으며 각 단어들에 욕설 해당 여부를 라벨링하여 진행하였다. 실험 결과 정제하고 수집된 총 9,288개의 댓글에 대해 88.79%의 성능을 나타내었다.

  • PDF

다중 쓰레드 환경에서 웹 크롤러의 성능 분석 (Performance Analysis of Web-Crawler in Multi-thread Environment)

  • 박정우;김준호;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF