• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.023초

웹 사전 크롤링을 이용한 데이터베이스 메타데이터 표준화 처리 모델 (Database metadata standardization processing model using web dictionary crawling)

  • 정하나;박구락;정영석
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.209-215
    • /
    • 2021
  • 데이터 품질 관리는 최근 중요한 이슈로 자리잡았다. 데이터베이스의 메타데이터 표준화는 데이터 품질관리 방안 중 하나이다. 본 연구에서는 일관된 메타데이터 관리를 위하여 표준단어사전 관리를 지원하는 알고리즘을 제시한다. 해당 알고리즘은 웹 사전 크롤링을 통해 데이터베이스 메타데이터의 동의어 관리 자동화를 지원한다. 또한 웹 사전 크롤링 과정에서 생길 수 있는 동음이의어 판별 이슈를 해결하여 데이터의 정확도를 향상시킨다. 본 연구에서 제안하는 알고리즘은 기존의 수동적 관리에 비해 메타데이터 데이터 품질의 신뢰도를 높인다. 또한 이음동의어 데이터 등록 및 관리에 소비되는 시간을 단축시킬 수 있다. 새로운 데이터 표준화 부분 자동화 모델에 대한 추가 연구는 향후 데이터 표준화 프로세스에서 자동화 가능한 작업을 파악하여 진행되어야 한다.

심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험 (Crawling algorithm design and experiment for automatic deep web document collection)

  • 강윤정;이민혜;원동현
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.1-7
    • /
    • 2023
  • 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450~550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

Improving the quality of Search engine by using the Intelligent agent technolo

  • Nauyen, Ha-Nam;Choi, Gyoo-Seok;Park, Jong-Jin;Chi, Sung-Do
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.1093-1102
    • /
    • 2003
  • The dynamic nature of the World Wide Web challenges Search engines to find relevant and recent pages. Obtaining important pages rapidly can be very useful when a crawler cannot visit the entire Web in a reasonable amount of time. In this paper we study way spiders that should visit the URLs in order to obtain more “important” pages first. We define and apply several metrics, ranking formula for improving crawling results. The comparison between our result and Breadth-first Search (BFS) method shows the efficiency of our experiment system.

  • PDF

웹크롤링을 활용한 뉴스 어뷰징 추론 모델 (News Abusing Inference Model Using Web Crawling)

  • 정경록;박구락;정영석;남기복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.175-176
    • /
    • 2018
  • 기존 신문이나 티브이가 아닌 온라인과 모바일로 뉴스를 보는 사람이 더 많아지면서, 포털 사이트 뉴스난에 다른 언론사의 기사보다 더 많이 노출되기 위한 경쟁의 심화로 뉴스 어뷰징은 심각한 사회 문제로까지 대두되었다. 본 논문은 온라인상에서 생성, 유통되는 많은 뉴스 중에서 이용자의 시간을 낭비하고 양질의 정보를 찾기 힘들게 하는 뉴스 어뷰징을 판단하는 모델을 제안한다. 제안된 모델은 크롤링 기술을 사용하여 뉴스의 제목과 내용을 가져온 후 인공지능 기술을 이용한 유사도 검사로 기사의 어뷰징 여부를 판단하여 양질의 뉴스 정보를 사용자에게 제공될 수 있다.

  • PDF

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.295-296
    • /
    • 2023
  • 본 논문에서는 웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션에 관해 연구하였다. 본 서비스는 Java의 Jsoup 라이브러리를 이용해서 웹 크롤링(Web Crawling)한 데이터를 MySQL에 저장한다. 이를 통해 사용자가 지정한 키워드를 필터링하여 사용자에게 정보를 제공한다. 예를 들어 사용자가 지정한 키워드 관련 공지 사항이 업데이트되면 구현한 앱 내에서 확인 가능하며, KakaoTalk 알림톡을 통해서도 업데이트된 정보를 실시간으로 전송받는 서비스를 구현하였다.

웹소설 키워드를 통한 이용 독자 내적 욕구 및 특성 파악 (Identifying Reader's Internal Needs and Characteristics Using Keywords from Korean Web Novels)

  • 조수연;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.158-165
    • /
    • 2020
  • 모바일 상에서 연재되고 소비되는 웹소설은 다른 문화콘텐츠와 마찬가지로 우리 사회의 한 단면을 포착해낼 수 있는 특징이 있다. 본 논문은 웹소설 키워드 정보를 수집해 웹소설의 주요 모티프 및 트렌드를 파악하고, 나아가 기존 논문들과 연관 지어 이용 독자의 내적 욕구 및 특성을 분석하는 것을 목적으로 한다. 분석 결과 접근성이 높고 가독성이 편리한 모바일 환경과 관련해 현대물과 성인 작품이 인기가 높았다. 남자주인공은 웹소설 상에서 이상적으로 그려지는 경향이 있었으나, 현재 남자주인공의 주요 키워드는 2000년대 초와 비교했을 때 변화를 확인할 수 있었다. 이는 곧 현대인들의 젠더 관념의 변화를 시사한다. 이와 상반되게 여자주인공은 내면에 상처를 지닌 캐릭터가 인기가 많았고, 이에 대한 원인 중 하나로 사회구조적인 환경 속에서 좌절을 겪어야 했던 현대 여성의 현실을 설명했다. 본 논문은 웹 크롤링의 한계로 성인 작품에 대해 심층적인 분석을 진행하지는 못했지만, 정량적 분석이 미흡했던 기존 웹소설 연구들에 키워드라는 파라텍스트를 활용하여 현대인들의 내적 욕구 및 특성을 분석했다는 의의를 지닌다.

악성코드 탐지 시스템 Web-Anti-Malware (Web-Anti-MalWare Malware Detection System)

  • 정승일;김현우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.365-367
    • /
    • 2014
  • 최근 웹 서비스의 증가와 악성코드는 그 수를 판단 할 수 없을 정도로 빠르게 늘어나고 있다. 매년 늘어나는 악성코드는 금전적 이윤 추구가 악성코드의 주된 동기가 되고 있으며 이는 공공기관 및 보안 업체에서도 악성코드를 탐지하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 실시간으로 패킷을 분석할수 있는 필터링과 웹 크롤링을 통해 도메인 및 하위 URL까지 자동적으로 탐지할 수 있는 악성코드 탐지 시스템을 제안한다.

  • PDF

월드와이드웹의 내용기반 구조최적화 (Optimization Model on the World Wide Web Organization with respect to Content Centric Measures)

  • 이우기;김승;김한도;강석호
    • 한국경영과학회지
    • /
    • 제30권1호
    • /
    • pp.187-198
    • /
    • 2005
  • The structure of a Web site can prevent the search robots or crawling agents from confusion in the midst of huge forest of the Web pages. We formalize the view on the World Wide Web and generalize it as a hierarchy of Web objects such as the Web as a set of Web sites, and a Web site as a directed graph with Web nodes and Web edges. Our approach results in the optimal hierarchical structure that can maximize the weight, tf-idf (term frequency and inverse document frequency), that is one of the most widely accepted content centric measures in the information retrieval community, so that the measure can be used to embody the semantics of search query. The experimental results represent that the optimization model is an effective alternative in the dynamically changing Web environment by replacing conventional heuristic approaches.

Understanding the Food Hygiene of Cruise through the Big Data Analytics using the Web Crawling and Text Mining

  • Shuting, Tao;Kang, Byongnam;Kim, Hak-Seon
    • 한국조리학회지
    • /
    • 제24권2호
    • /
    • pp.34-43
    • /
    • 2018
  • The objective of this study was to acquire a general and text-based awareness and recognition of cruise food hygiene through big data analytics. For the purpose, this study collected data with conducting the keyword "food hygiene, cruise" on the web pages and news on Google, during October 1st, 2015 to October 1st, 2017 (two years). The data collection was processed by SCTM which is a data collecting and processing program and eventually, 899 kb, approximately 20,000 words were collected. For the data analysis, UCINET 6.0 packaged with visualization tool-Netdraw was utilized. As a result of the data analysis, the words such as jobs, news, showed the high frequency while the results of centrality (Freeman's degree centrality and Eigenvector centrality) and proximity indicated the distinct rank with the frequency. Meanwhile, as for the result of CONCOR analysis, 4 segmentations were created as "food hygiene group", "person group", "location related group" and "brand group". The diagnosis of this study for the food hygiene in cruise industry through big data is expected to provide instrumental implications both for academia research and empirical application.

건설현장 영상 분석을 위한 웹 크롤링 기반 학습 데이터베이스 구축 자동화 (Automated Training Database Development through Image Web Crawling for Construction Site Monitoring)

  • 황정빈;김진우;지석호;서준오
    • 대한토목학회논문집
    • /
    • 제39권6호
    • /
    • pp.887-892
    • /
    • 2019
  • 건설현장 영상 자동 모니터링을 목적으로 많은 연구자들이 영상분석기술을 활발히 개발하고 있다. 높은 성능의 영상분석기술을 개발하기 위해서는 다량의 고품질 학습용 이미지 데이터베이스(Database, DB)를 구축해야 한다. 하지만 기존의 학습 DB 구축 방법은 사람이 건설현장을 직접 방문하여 카메라를 설치하고 각각의 목적에 알맞은 영상을 수집하여 DB를 직접 구축하고 있기 때문에 이에 많은 비용과 시간이 요구된다. 뿐만 아니라 이 같은 사람 의존적인 방식은 건설현장의 다양한 특성을 모두 반영한 DB를 구축하는 것에 한계가 있다. 이러한 한계를 극복하기 위해서 본 연구는 웹 크롤링(Web Crawling) 기법을 활용하여 건설현장 영상분석을 위한 학습 이미지 DB를 자동으로 구축하는 프레임워크를 제안한다. 프레임워크 검증을 위해 건설공종과 건설장비에 대한 학습 DB를 구축하여 영상분석모델을 학습 및 평가하는 실험을 진행하였다. 그 결과, 건설현장 모니터링을 위한 학습용 이미지 DB를 자동으로 구축할 수 있었을 뿐만 아니라 이를 토대로 개발한 영상분석모델이 건설공종과 건설장비를 성공적으로 분류하는 것을 확인하였다. 결과적으로 기존의 방식보다 학습 DB를 구축하는 데 필요한 시간과 비용을 최소화할 수 있었다.