• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.023초

플랫폼 노동시장의 구직기간 단축 결정요인: 웹크롤링과 생존모형을 이용한 분석 (Determinants of Shortening Job-hunting Period in Platform Labor Market: Analysis by using Web Crawling and Survival Model)

  • 이종호
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구의 목적은 플랫폼 노동시장에서 신규 구직자의 임금수준이 첫 업무획득기간에 어떠한 영향을 주는지 분석하는 것이다. 최근 플랫폼 노동시장은 실업률 증가를 해결하기 위한 대안의 하나로 주목받고 있다. 플랫폼 노동시장에서 양질의 일자리를 창출하기 위해서는 고용주와 고용인 간의 신뢰형성이 중요하다. 기존 연구에서는 이전 고용주의 피드백이 고용주와 고용인간의 정보 비대칭 문제해결을 위해 중요하다고 하였다. 다만, 첫 번째 업무를 획득하지 못한 신규 구직자의 경우 이전 고용주에 의한 피드백이 존재하지 않는다. 이에 본 연구는 플랫폼에서는 임금이 고용주가 아닌 구직자들에 의해 스스로 제시된다는 점에 착안하여 신규 구직자의 낮은 임금이 구직기간 단축에 영향을 줄 수 있는지 확인하고자 한다. 이를 위해 Freelancer.com에서 발췌한 3,704명의 구직자 정보를 사용한다. 생존 분석 결과에 따르면, 플랫폼 노동시장에서 신규 구직자의 낮은 임금은 구직기간 단축에 유의한 영향을 주는 것으로 나타났다.

조선왕조실록 과학계량적 분석을 통한 채소류의 통시적 고찰 (A Scientific Quantitative Analysis on Vegetables of Joseon Dynasty using the Joseonwangjoshilrok based Data)

  • 김미혜
    • 한국식생활문화학회지
    • /
    • 제36권2호
    • /
    • pp.143-157
    • /
    • 2021
  • This study aimed to analyze the periodic prevalence of the vegetables during the Joseon era with JoseonWangjoSilrok as a reference. The JoseonWangjoSilrok articles were collected from the Guksapyeonchanwewonhwe site, using web-crawling techniques to extract the relevant information. Out of 384,582 search results, 9,560 articles with vegetable-related keywords were found. According to the annual average vegetable recordings during the regimes of various kings, there were two peaking curves in the 15th and 18th centuryJoseon. The found was: 2,750 in the 18th century, 2,529 in the 15th century, 1,424 in the 16th century, and 1,018 in the 19th century. A Variable Interest Index was designed to ascertain the interestin vegetables of the 27 Joseon kings. The king most interested in vegetables was the 19th king Sookjong. The second most interested king was Youngjo. There were 5,105 vegetable-related findings within the JoseonWangjoSilrok related to specific species and categories of vegetables. Among the words found: 1,194 were stem-leaves vegetables (23.39%), 1,017 were root vegetables (19.92%), 1,148 were flower-fruit vegetables (22.49%), 1,144 were spice vegetables (22.41%), 95 were mushrooms (1.86%), and 507 were seaweeds (9.93%). Statistical analysis using ANOVA revealed the chronological factors that affected the vegetables' prevalence index.

『조선왕조실록(朝鮮王朝實錄)』 속 수산물 현황과 가공식품 특성 분석 (Analysis of Current Status of Marine Products and Characteristics of Processed Products Seafood in Joseon - via the Veritable Records of the Joseon Dynasty based data -)

  • 김미혜
    • 한국식생활문화학회지
    • /
    • 제37권1호
    • /
    • pp.26-38
    • /
    • 2022
  • This study used the big data method to analyze the chronological frequency of seafood appearance and variety mentioned by the veritable records of the Joseon dynasty. The findings will be used as a basis for Joseon Period's food cultural research. The web-crawling method was used to digitally scrap from the veritable records of the Joseon dynasty of Joseon's first to the twenty-seventh king. A total of 9,536 cases indicated the appearance of seafood out of the 384,582 articles. Seafood were termed "seafood" as a collective noun 107 times (1.12%), 27 types of fish 8,372 times (87.79%), 3 types of mollusca (1.28%), 18 types of shellfish 213 times (2.23%), 6 types of crustacean 188 times (1.97%), 9 types of seaweed 534 times (5.60%). Fish appeared most frequently out of all the recorded seafood. Sea fish appeared more frequently than the freshwater fish. Kings that showed the most Strong Interest Inventory (SII) were: Sungjong from the 15thcentury, Sehjo from the 15th, Youngjo from the 18th, Sehjong from the 15th, and Jungjo from the 18th respectively. Kings of Chosen were most interested in seafood in the 15th and 18th centuries.

빅데이터를 통한 브랜드 평가 맵 제안 : 현대자동차 제품 평가 중심으로 (Proposal of Brand Evaluation Map through Big Data : Focus on The Hyundai Motor's Product Evaluation)

  • 윤대명;이용혁;이봉규
    • 한국IT서비스학회지
    • /
    • 제19권4호
    • /
    • pp.1-11
    • /
    • 2020
  • Through text mining, sentiment analysis, and semiotics analysis, this study aims to reinterpret the meaning of user emotional words and related words to derive strategic elements of brand and design. After selecting a local car manufacturer whose user opinion on the brand is a clear topic, web-crawl the car comments of the manufacturer directly created by the users online. Then, analyze the extracted morphology and its associated words and convert them to fit the marketing mix theory. Through this process, propose a methodology that allows consumers to supplement and improve brand elements with negative sensibilities, and to inherit elements with positive sensibilities and manage brands reasonably. In particular, the Map presented in this study are considered to be fully utilized as information for overall brand management.

웹크롤러의 비표준 링크에 관한 링크 추출 방안 (A Method of Link Extraction on Non-standard Links in Web Crawling)

  • 정준영;장문수;강선미
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.79-82
    • /
    • 2008
  • 웹크롤러는 웹페이지 내의 URL링크를 추적하여 다른 문서를 수집한다. 국내의 상당수 웹사이트는 웹 표준에 맞지 않는 링크방식으로 웹문서를 연결하고 있다. 일반적인 웹크롤러는 링크의 비표준적인 사용을 가정하지 않기 때문에 이러한 문서는 수집할 수 없다. 비표준적인 링크가 가능한 것은 사용자의 실수에 강인한 마크업 언어인 HTML에 자바스크립트 기능이 추가되면서 자바스크립트의 변칙적인 사용이 허용되었기 때문이다. 본 논문에서는 230여개의 웹사이트를 조사하여 기존 웹크롤러에서 해결하지 못한 링크 추출 문제를 찾아내고, 이를 수집하기 위한 알고리즘을 제안한다. 또한 자바스크립트 문제 해결을 위한 무거운 자바스크립트 엔진을 대신하여 필요한 기능만으로 구성된 모듈을 사용함으로써 효율적인 문서 수집기 모델을 제안한다.

  • PDF

텍스트 마이닝 기반의 데이터 분석 웹 애플리케이션 (Data Analysis Web Application Based on Text Mining)

  • 길완제;김재웅;박구락;이윤열
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.103-104
    • /
    • 2021
  • 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 웹크롤링 기법을 활용하여 키워드를 입력하면 요약된 논문 정보를 파일로 저장할 수 있고 또한 키워드 빈도 분석과 토픽 모델링 등을 통해 연구 동향을 손쉽게 확인해볼 수 있는 웹 애플리케이션을 설계하고 구현하는 것을 목표로 한다. 제안 모델인 웹 애플리케이션을 통해 프로그래밍 언어와 데이터 분석 기법에 대한 지식이 부족하더라도 논문 수집과 저장, 텍스트 분석을 경험해볼 수 있다. 또한, 이러한 웹 시스템 개발은 기존의 html, css, java script와 같은 언어에 의존하지 않고 파이썬 라이브러리를 활용하였기 때문에 파이썬을 기반으로 데이터 분석과 머신러닝 교육을 수행할 경우 프로젝트 기반 수업 교육 과정으로 채택이 가능할 것으로 기대된다.

  • PDF

크롤링을 통한 반응형웹 기반의 바이러스 정보 시스템 (Responsive web based Virus Information Sytem using Crawling)

  • 허태성;백재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.269-270
    • /
    • 2020
  • 코로나 사태 이후에도 세상은 수많은 바이러스가 유행하게 될 것이다. 수많은 질병에서 필요한 것은 정보이고 이러한 정보를 얻기 위해서 사람들은 많은 사이트를 찾아다니며 정보를 검색하는 데 시간을 소비하고 원하는 정보를 빠르게 찾을 수 없다. 이러한 문제를 해결하고자 현재 유행하고 있는 질병 현황 정보, 시도별 현황 정보, 마스크 판매처 위치 및 재고, 바이러스 감염자 방문 기록을 확인할 수 있는 등 바이러스 정보를 짧은 시간에 사용자가 원하는 정보를 한 눈에 확인할 수 있도록 각종 사이트에서 데이터를 크롤링하여 가공하여 필요한 정보를 제공하는 반응형웹 시스템을 개발하였다.

  • PDF

웹 기반형(Web-based) 플랫폼 노동자의 임금 결정요인: 이전 고용주에 의한 평가의 관점에서 (Determinants of Wage for Web-based Platform Workers: In perspective of evaluation by previous employers)

  • 임지선
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.1-14
    • /
    • 2022
  • 본 연구는 웹 기반형(web-based) 플랫폼 노동자의 임금 결정에 관한 연구이다. 이를 위해 2018년 9월 전 세계적 플랫폼 노동시장 중 하나인 Freelancer.com에서 웹 크롤링(web-crawling)한 총 3,575명의 구직자 정보를 사용하였으며, 전통적 노동시장에서 유의하였던 학력, 경력과 더불어 플랫폼 노동시장에서 새롭게 사용 가능해진 이전 고용주에 의한 평가가 플랫폼 노동자의 임금상승에 유의한 영향을 주는지 OLS 및 QR 분석방법을 사용하여 추정하였다. OLS 분석결과 플랫폼 노동자의 임금은 과거 유의하였던 학력, 경력뿐 아니라 이전 고용주에 의한 평가(리뷰 수)에 의해서도 영향을 받는 것으로 나타났다. 다만, QR 분석결과 플랫폼 노동자의 임금수준이 상승함에 따라 교육보다는 경력이 리뷰 수보다는 추천 수가 플랫폼 노동자의 임금상승에 더욱 유의미한 영향을 주는 것으로 나타났다.

빈도 분석을 이용한 HTML 텍스트 추출 (HTML Text Extraction Using Frequency Analysis)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1135-1143
    • /
    • 2021
  • 최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.