• 제목/요약/키워드: web crawling

검색결과 177건 처리시간 0.027초

뉴스 기사의 크롤링을 통한 국내 기업의 안티 드론에 사용되는 기술 현황 분석 (An Analysis on Anti-Drone Technology Trends of Domestic Companies Using News Crawling on the Web)

  • 김규석
    • 한국항행학회논문지
    • /
    • 제24권6호
    • /
    • pp.458-464
    • /
    • 2020
  • 드론은 관련 기술의 발달로 건설, 물류, 과학 연구, 촬영 등을 비롯하여 장난감까지 다양한 목적으로 보편화 되고 있다. 그러나 드론을 범죄나 테러 목적으로 사용하면서 이를 무력화 하는 Anti-drone 관련 기술의 연구, 개발도 활발히 진행되고 있는 상황이다. Anti-drone 기술의 범위는 탐지, 식별, 무력화로 구분할 수 있다. 드론을 무력화를 하는 방식은 전파 방해 등으로 탐지한 드론을 막는 소프트킬 방식이 있고, 물리적으로 파괴하는 하드킬 방식이 있다. 본 연구에서는 Anti-drone과 관련된 Google 및 Naver의 뉴스 기사를 Crawling 하였다. 국내 뉴스 기사를 분석하여 RF, GNSS, Radar 등의 기술을 찾았다. 이와 관련하여 해당 기술의 일반적인 특징과 사용 현황에 대하여 기술하였고, 각 기업 또는 기관의 Anti-drone에서의 적용 현황을 조사, 분석하였다.

URL 정규화 향상을 위한 URL 서명 (URL Signatures for Improving URL Normalization)

  • 순레이키;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권2호
    • /
    • pp.139-149
    • /
    • 2009
  • URL은 표준 URL 정규화에서 정의한 단계에 의하여 구문적으로 정규화된다. 본 논문에서는 웹 페이지의 메타데이타를 이용하여 표준 URL 정규화를 보완하는 기법을 제안한다. 메타데이타는 HTML 분석 도중 추출될 수 있는 웹 페이지 본문과 페이지 크기이다. 첫 번째 실험에서는 웹 페이지 본문이 동등한 URL 식별에 효과적이라는 것을 보인다. 두 번째 실험에서는 웹 페이지 본문을 Message-Digest 5 알고리즘으로 해싱하여 URL 서명을 만들며, 동일한 서명을 가지는 URL은 동일하게 취급한다. 두 번째 실험 결과에서, 우리가 제시한 URL 서명이 표준 URL 정규화와 비교하여 32.94%의 중복 URL을 더 감소시킬 수 있음을 알 수 있었다.

A Study of Comparison between Cruise Tours in China and U.S.A through Big Data Analytics

  • Shuting, Tao;Kim, Hak-Seon
    • 한국조리학회지
    • /
    • 제23권6호
    • /
    • pp.1-11
    • /
    • 2017
  • The purpose of this study was to compare the cruise tours between China and U.S.A. through the semantic network analysis of big data by collecting online data with SCTM (Smart crawling & Text mining), a data collecting and processing program. The data analysis period was from January $1^{st}$, 2015 to August $15^{th}$, 2017, meanwhile, "cruise tour, china", "cruise tour, usa" were conducted to be as keywords to collet related data and packaged Netdraw along with UCINET 6.0 were utilized for data analysis. Currently, Chinese cruisers concern on the cruising destinations while American cruisers pay more attention on the onboard experience and cruising expenditure. After performing CONCOR (convergence of iterated correlation) analysis, for Chinese cruise tour, there were three clusters created with domestic destinations, international destinations and hospitality tourism. As for American cruise tour, four groups have been segmented with cruise expenditure, onboard experience, cruise brand and destinations. Since the cruise tourism of America was greatly developed, this study also was supposed to provide significant and social network-oriented suggestions for Chinese cruise tourism.

실험실정보관리시스템의 확장을 위한 오픈 소스 기반의 빅데이터 처리 기술에 관한 연구 (A Study on Big Data Processing Technology Based on Open Source for Expansion of LIMS)

  • 김순곤
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.161-167
    • /
    • 2021
  • 실험실정보관리시스템(LIMS, Laboratory Information Management System)은 실험실 데이터를 저장, 가공, 검색 그리고 분석하기 위한 중앙화된 데이터베이스로서 검사, 분석, 시험 업무를 수행하는 실험실을 위해 특별히 고안된 컴퓨터 시스템 또는 시스템을 의미한다. 특히 LIMS는 실험실의 운영을 지원하는 기능을 갖추고 있으며, 워크플로우 관리나 데이터 추적지원 등이 필요하다. 본 논문에서는 실험실의 운영을 위하여 빅데이터 자동화 수집 기술의 하나인 크롤링 기술을 활용하여 웹사이트 및 다양한 채널에 존재하는 데이터를 수집한다. 수집된 시험 방법 및 내용 중 시험자가 활용할 수 있는 유용한 시험 방법 및 내용을 추천한다. 그리고 이에 대한 피드백을 관리하여 수집 채널의 검증이 가능한 상호보완적인 LIMS 플랫폼을 구현한다.

Jsoup를 이용한 조선왕조실록의 빅 데이터 분석 (Big Data Analysis of the Annals of the Joseon Dynasty Using Jsoup)

  • 변영일;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.131-133
    • /
    • 2021
  • 조선왕조실록은 UNESCO에 등재된 중요한 기록물이다. 본 논문은 한글로 번역된 조선왕조 실록에서 단어의 빈도수를 조사하여 빅데이터를 분석하는 방법을 제안한다. 조선왕조 실록을 인터넷 사이트에서 액세스하여 단어의 빈도수를 조사하려 할 때, 그 페이지에 포함된 소스를 직접 액세스하면 HTML 문법에 필요한 키워드가 포함되어 있어 필요한 본문에서 단어 빈도수에 의한 빅데이터 분석을 하는 것이 어렵다. 본 논문에서는 Java의 Jsoup를 활용한 크롤링 기능을 사용하여 조선왕조 실록의 본문을 분석하는 방법을 제안한다. 실험에서는 조선왕조실록의 태조부분만을 추출하여 본 방법의 유효성을 검증하였다.

  • PDF

취약점의 권한 획득 정도에 따른 웹 애플리케이션 취약성 수치화 프레임워크 (A Web application vulnerability scoring framework by categorizing vulnerabilities according to privilege acquisition)

  • 조성영;유수연;전상훈;임채호;김세헌
    • 정보보호학회논문지
    • /
    • 제22권3호
    • /
    • pp.601-613
    • /
    • 2012
  • 안전한 웹 서비스를 제공하기 위하여 보안을 고려한 웹 애플리케이션의 설계와 구현이 요구되고 있다. 이에 따라 웹 애플리케이션의 취약성을 수치화할 수 있는 여러 가지 프레임워크들이 제시되고 있지만, 이러한 프레임워크에 의하여 도출된 수치는 누적 방식에 의하여 계산되기 때문에 취약점의 심각성을 제대로 분류할 수 없다는 문제점이 존재한다. 본 연구에서는 웹 애플리케이션에서 발생할 수 있는 취약점을 권한 획득 가능성에 따라 등급을 나누고 수치화함으로써 취약점에 대하여 우선순위를 둘 수 있다. 또한 개별 웹 애플리케이션뿐 아니라 한 조직에서 제공하는 여러 웹 애플리케이션에 대한 취약성을 수치화함으로써 어느 웹 애플리케이션이 가장 취약하며 우선적으로 처리해야 하는지 판단할 수 있다. 실제 크롤링 기반 웹 스캐너를 통하여 발견된 취약점들에 대하여 우리가 제안한 프레임워크를 적용하여 등급을 나누고 수치화함으로써 취약점의 권한 획득 가능성에 따른 분류의 중요성을 보이고 있다.

소셜 미디어 분석을 통한 음악 추천 모델의 설계 및 구현 (Design and implementation of a music recommendation model through social media analytics)

  • 정경록;박구락;박상혁
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.214-220
    • /
    • 2021
  • 스마트폰이 빠르게 보급되면서 음악을 생활 속의 배경음악처럼 항상 모든 곳에서 듣는 것이 일반화되어 개인의 상황과 조건에 맞는 추천을 할 수 있는 음악 데이터베이스를 필요하다. 본 논문에서는 소셜 미디어를 통한 음악추천 모델을 제안한다. 소셜 미디어의 데이터를 사용하여 음악 데이터베이스를 작성하고 기존의 음원 제공 플랫폼이 주로 사용하는 협업필터링과는 다른 방식으로 음악을 분류한다. 웹크롤링으로 음악 제목이 해시 태그로 달린 게시글을 찾아 해당 글에 함께 달린 다른 해시 태그들을 수집하고 분류하여 실제 청취자의 음악에 관한 의견을 데이터베이스에 사용한다. 소셜 미디어를 작성할 때의 감정, 상황, 시간대, 날씨 등 많은 조건이 해시 태그에는 포함되어 있으므로 다양한 사람의 의견이 집단지성으로 반영된 소셜 미디어 기반 데이터베이스를 구축할 수 있다.

로지스틱 회귀 알고리즘을 활용한 상품 기획 예측 모형 개발에 관한 연구 (A Study on the Development of Product Planning Prediction Model Using Logistic Regression Algorithm)

  • 안영휘;박구락;김동현;김도연
    • 한국융합학회논문지
    • /
    • 제12권9호
    • /
    • pp.39-47
    • /
    • 2021
  • 본 연구에서는 계절적인 요인과 급변하는 상품의 트렌드를 사전예측하기 위해 로지스틱 회귀 알고리즘을 이용한 상품기획 예측 모형을 제안하고자 수행되었다. 먼저 웹크롤링을 이용하여 포털 사이트 및 온라인 마켓의 소비자의 비정형 데이터를 수집하고 정형 데이터 변환을 위한 전처리 작업을 통해 상품에 대한 의미 있는 정보를 분석하였다. 최종 수집된 11,200개의 데이터셋은 Logistic Regression을 이용하여 상품에 대한 소비자의 만족도, 빈도분석, 상품에 대한 장점과 단점을 분석할 수 있었다. 분석 결과 소비자의 만족도는 92%이었으며, 빈도분석을 통해 상품에 대한 불량이슈를 확인할 수 있었다. 또한, 개발된 상품 기획 예측 프로그램에 대한 사용 만족도, 시스템 효율성, 시스템 효과성 항목에 대한 분석결과에서도 만족도가 높게 나타났다. 특히, 불량이슈는 상품에 대한 현 문제를 신속히 인지하고 개선 전략을 수립하는데 필요한 정보를 제공한다는 점에서 매우 의미 있는 자료가 된다.

Development of A Uniform And Casual Clothing Recognition System For Patient Care In Nursing Hospitals

  • Yun, Ye-Chan;Kwak, Young-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.45-53
    • /
    • 2020
  • 본 연구의 목적은 요양병원에서 발생할 수 있는 노인안전사고 발생률을 감소시키는 것이다. 즉, 위험지역으로 접근하는 인물이 노인(환자복) 그룹인지 실무자(평상복) 그룹인지를 CCTV에 나타나는 의복을 기준으로 구별하는 것이다. Web Crawling기법과 요양병원으로부터 지원을 받아 기초 데이터를 수집하였다. 이후 Image Generator와 Labeling으로 모델 학습 데이터를 만들었다. CCTV의 제한된 성능 때문에 높은 정확도와 속도를 모두 갖춘 모델을 만드는 것은 어려웠다. 그러므로 정확성이 상대적으로 우수한 ResNet 모델, 속도에서 상대적으로 우수한 YOLO3 모델을 각각 구현했다. 그리고 요양병원이 자신의 실정에 맞는 모델을 고를 수 있게 하고자 했다. 연구 결과 환자복과 평상복을 적절한 정확도로 구별할 수 있는 모델을 구현하였다. 따라서 실제 사용처에서 노인들이 위험구역에 접근하지 못하도록 하여 요양병원 안전사고 감소에 이바지 할 것으로 평가된다.

객체 인식 정확도 개선을 위한 이미지 초해상도 기술 (Image Super-Resolution for Improving Object Recognition Accuracy)

  • 이성진;김태준;이충헌;유석봉
    • 한국정보통신학회논문지
    • /
    • 제25권6호
    • /
    • pp.774-784
    • /
    • 2021
  • 객체 검출 및 인식 과정은 컴퓨터비전 분야에서 매우 중요한 과업으로써, 관련 연구가 활발하게 진행되고 있다. 그러나 실제 객체 인식 과정에서는 학습된 이미지 데이터와 테스트 이미지 데이터간 해상도 차이로 인하여 인식기의 정확도 성능이 저하되는 문제가 종종 발생한다. 이를 해결하기 위해 본 논문에서는 객체 인식 정확도 향상을 위한 이미지 초해상도 기법을 제안하여 객체 인식 및 초해상도 통합 프레임워크를 설계하고 개발하였다. 세부적으로는 11,231장의 차량 번호판 훈련용 이미지를 웹 크롤링, 인조데이터 생성 등을 통해 자체적으로 구축하고, 이를 활용하여 이미지 좌우 반전에 강인하도록 목적함수를 정의하여 이미지 초해상도 인공 신경망을 훈련시켰다. 제안 방법의 성능을 검증하기 위해 훈련된 이미지 초해상도 및 번호 인식기 1,999장의 테스트 이미지에 실험하였고, 이를 통해 제안한 초해상도 기법이 문자 인식 정확도 개선 효과가 있음을 확인하였다.