• 제목/요약/키워드: 웹 크롤링

검색결과 115건 처리시간 0.031초

뉴스 데이터 기반 농업 가뭄 전조 감지 및 확산 분석 (Detection and spread of agricultural drought warning based on news data)

  • 김민진;남원호;양미혜;이지완;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.339-339
    • /
    • 2023
  • 2018년도 연강수량은 1,386.9 mm로 평년 수준의 비가 내렸으나, 7-8월에 발생한 폭염 및 가뭄으로 인해 강원, 전남, 경북, 충남 지역에서 밭작물 중심으로 22,767 ha 피해가 발생하였다. 2019년도 연강수량은 1,171.9 mm로 평년보다 약 10% 적은 수준의 비가 내렸으며, 동일시기에 인천, 강원, 충남 지역에서 논·밭작물 중심으로 3,112 ha 피해가 발생하였다. 기후변화로 인해 강수량이 지역별로 편중되어 국지적 가뭄이 빈발하여 지역별로 가뭄의 영향, 피해, 체감 정도가 상이한 양상을 보이고 있다. 가뭄을 사전에 방지하기 위해서는 가뭄 모니터링과 선제적 대응이 중요하며, 현재 가뭄의 특징, 상황 등의 목적에 따라 다양한 형태의 가뭄 모니터링 시스템이 개발되고 있다. 가뭄의 피해와 영향 정도는 지역 간의 차이가 나타나 지역별로 가뭄을 체감하는 정도가 다르기 때문에 하나의 결과로 나타내기에는 어려움이 있다. 따라서, 가뭄의 발생 시기와 확산 정도를 분석하여 특보 발효 시점과 가뭄 대응 방안에 대한 기준 마련이 중요하다. 본 연구는 현대 사회에서 가장 중요한 요소로써 활용되고 있는 빅데이터 중 비정형 데이터로 분류되는 뉴스데이터와 논·밭의 가뭄을 나타내는 농업 가뭄과 관련된 데이터를 활용하여 농업 가뭄의 전조를 파악해보고자 한다. 2018년부터 2019년까지 전국을 대상으로 농업 가뭄에 관한 키워드 선정 후, 웹 크롤링을 통해 뉴스데이터를 수집해 논 가뭄과 밭 가뭄을 구별하여 각 지역에서 최초로 가뭄 기사가 발행된 시기와 지역별 기사의 빈도를 산출하였다. 뉴스데이터의 농업 가뭄 전조 감지 가능성을 파악하기 위해 국가가뭄정보통계집에서 논 물마름 시기와 밭 시듦 시기 자료를 활용하였다. 가뭄 피해 발생시기와 관련 기사 발행 시기 비교, 농업용수 대상 비상용수 지원 자료를 활용하여 실제 농업 가뭄확산 감지 여부를 분석하여 농업 가뭄 관련 뉴스데이터 간의 상관성을 분석하였다.

  • PDF

스타일 분석을 통한 커플 매칭 플랫폼 (Couple Matching Platform through Style Analysis)

  • 최형락;조성언;김동하;문재현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.868-871
    • /
    • 2019
  • 본연구는 커플들의 이미지 빅 데이터를 분석하여 각각 얼굴과 패션에 따라 유사한 유형 끼리 클러스터링 하여 새로운 사람 이미지가 주어졌을 때 해당 사람이 어느 유형에 속하는지 찾아내고 해당 유형의 사람들은 어떤 유형의 이성과 잘 맞는지 찾아 추천해주는 플랫폼이다. 빅 데이터를 수집하기 위하여 SNS상에서 커플들의 이미지를 크롤링하여 저장한다. 수집된 커플들의 이미지를 AI 머신 러닝으로 나이, 성별을 분석하여 미리 설정한 나이대의 이성 커플들의 이미지 만을 추려내서 각각 남, 여의 이미지를 분리하여 저장한다. 해당 이미지들로 비슷한 얼굴, 패션 유형의 사람들을 같은 클러스터로 모으고 CNN 으로 학습 시켜서 새로운 이미지가 들어올 경우 효율적으로 해당 이미지가 어느 클러스터에 속하는지 찾아낼 수 있도록 한다. 특정 이미지가 속하는 클러스터를 찾아내면 해당 클러스터에 속하는 사람들의 연인들이 어느 클러스터에 가장 많이 포함되어 있는지 찾아서 해당 클러스터 유형의 이성을 추천해준다. 웹과 어플리케이션으로 이루어진 플랫폼 서비스이며, 커플 매칭 기능 뿐만 아니라 매칭된 회원 간 연락 기능, 실제 커플의 이미지로 두 사람의 매칭도 확인 등의 부가적 기능 또한 인공 지능 서비스로 제공된다.

치위생학과의 입학경쟁률에 영향을 미치는 요인에 관한 실증적 연구 (An empirical study on factors influencing the admission competition rate for the department of dental hygiene)

  • 김규석;문혜영;조민지;김하영;강정윤
    • 한국치위생학회지
    • /
    • 제23권4호
    • /
    • pp.303-309
    • /
    • 2023
  • Objectives: According to the Korea Education Development Institute, the college admission quota is expected to exceed the number of high school graduates, leading to an anticipated expansion in the gap between them. This paper aims to conduct an empirical analysis of the variables previously studied, with a specific focus on the admission competition rate for the department of dental hygiene. Methods: The research methodology is the multiple linear regression analysis. The research data contains the structured data from academy information, and the web-based unstructured data collected over the past 3 years. Results: After conducting the analysis, it was newly discovered that the university's online recognition and its location in the metropolitan area were statistically significant factors influencing the admission competition rate for the department of dental hygiene. Conclusions: The findings of this study are expected to be helpful in formulating admission strategies for universities to attract new students and identifying the factors that influence student attraction.

Kingomanager: 추천시스템을 활용한 대학생 맞춤형 정보 제공 어플리케이션 개발 (Kingomanager: A Personalized Information-providing Application with a Recommendation System for University Students)

  • 강신규;김준우;박충현;구형준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.532-533
    • /
    • 2023
  • 대학 생활을 하면서 자신이 필요한 정보를 모두 챙기기는 쉽지 않다. 매번 학교 홈페이지나 관련 사이트에 접속하여 확인하는 것은 번거롭기도 하고 신입생의 경우에는 그런 정보의 존재조차 잘 모르는 경우가 많다. 때문에 이 논문에서는 웹 크롤링 방식을 통해 다양한 사이트에서 필요한 정보를 수집하고, 기계학습 모델 중 N-GCN을 기반으로 한 추천시스템을 이용하여 본인에게 맞는 추천과목, 동아리 모집공고, 학술대회, 채용공고 등의 정보를 제공해주는 Kingomanager를 소개한다. Kingomanager는 학생들의 학년, 관심분야를 고려해서 개개인별 맞춤 정보를 추천해준다. 추천 받은 정보들은 메신저 형태의 어플리케이션을 통해서 확인할 수 있고, 해당 정보들은 언제든지 다시 검색하여 다시 찾아볼 수 있다. 어플리케이션 구현에서 Front-end는 React-Native를 사용하였고, Back-end는 Flask와 AWS 서비스를 사용하였다. 본 논문에서는 성균관대학교 소프트웨어학과 학생을 대상으로 하는 프로토타입 어플리케이션을 개발했다.

Python을 이용한 SNS 크롤링 시스템 구축 (Building an SNS Crawling System Using Python)

  • 이종화
    • 한국산업정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.61-76
    • /
    • 2018
  • 현대인이 살고 있는 네트워크 세상으로 모든 사물들이 들어오고 있다. 사물에 센서를 부착하는 사물인터넷의 영향으로 인해 네트워크로 실시간 데이터를 주고받는 것이 가능해졌다. 현대인들의 필수품인 모바일 디바이스는 일상생활의 모든 자취를 실시간으로 남기는 역할을 하고 있다. 바로 소셜 네트워크 서비스를 통하여 정보획득 활동과 커뮤니케이션 활동을 실시간으로 거대한 네트워크에 남기고 있는 것이다. 비즈니스 관점에서 고객의 니즈 분석은 바로 SNS 자료에서부터 시작된다는 등가가 성립된다. 본 연구는 웹 환경의 SNS 콘텐츠를 파이썬을 이용하여 실시간으로 자동 수집시스템을 구축하고자 한다. 세계적으로 많은 이용자수를 확보하고 있는 인스타그램, 트위터, 유튜브의 비정형적 데이터 수집 시스템을 통하여 고객의 니즈 분석에 도움이 되고자 한다. 파이썬의 웹드라이버 환경에서 가상 웹브라우저를 이용하여 마이닝 처리와 NLP 과정을 거쳐 DB에 저장된다. 본 연구의 결과 웹페이지를 통하여 서비스를 진행하고자하며 검색 기능만으로 원하는 데이터가 자동 수집되며 데이터의 시계열 분석을 통하여 네티즌의 이슈 반응을 실시간으로 확인할 수 있었다. 또한 검색부터 실행결과가 나오기까지 5초 이내 이루어지므로 제시된 알고리즘의 우수성을 확인하였다.

기업 리뷰 웹 사이트 텍스트 분석을 통한 직원 불만 표현 추출과 불만 원인 도출 및 해소 방안 (Employee's Discontent Text Analysis on Anonymous Company Review Web and Suggestions for Discontent Resolve)

  • 백혜연;박용석
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.357-364
    • /
    • 2019
  • 전현직 직원에 의한 산업정보 유출 비율이 80%에 이르나 산업정보유출 사고에 대한 뉴스기사나 정보유출 행위의 원인에 대한 연구들에서는 그 원인들을 처우나 인사 불만 등으로 간략하게 설명하고 있다. 본 연구에서는 전현직 직원들이 익명 기업리뷰 웹사이트에 남긴 기업에 대한 평가 텍스트를 분석하여 기업에 대한 불만 내용들을 더욱 구체적으로 확인하였다. 이 중 어떠한 불만사항이 퇴직이나 퇴사, 나아가 산업인력유출의 결과로 이어질 수 있는지 파악하기 위해 불만 분야에 대한 의미사전목록을 제시하고 부분문법그래프(LGG)를 구축하였다. 또한 텍스트 분석 결과에서 나타난 전현직 직원들의 불만사항과 기존 연구들에서 설문을 통해 정리한 인력유출 원인을 서로 비교하였다. 추가적으로 분석된 불만을 바탕으로 기업불만 해소를 통한 인력유출 방지 방안을 간략 제시하였다. 기존 설문 위주의 산업 인력 유출에 대한 분석에 더하여, 웹 크롤링을 통한 자유롭고 솔직한 불만 분석을 제공하는 데 의의가 있다.

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

R프로그래밍을 활용한 공유경제의 한국인 집단지성: 텍스트 마이닝 및 시계열 분석 (Korean Collective Intelligence in Sharing Economy Using R Programming: A Text Mining and Time Series Analysis Approach)

  • 김재원;윤유동;정유진;김기연
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.151-160
    • /
    • 2016
  • 본 연구의 목적은 최근 창조경제 또는 사회적 경제 관점에서 주목받고 있는 공유경제라는 키워드에 관해 현대 한국인들이 가지고 있는 대중적인 문화 및 사회적 인식, 즉 집단지성의 변화 추세를 조사하는 것이다. 이를 위해, 본 연구는 빅데이터 분석 관점의 텍스트 마이닝 기법을 적용하여 최근 5년 간 사회 문화적 집단지성의 객관적이고 가시적인 연간 변화 및 패턴들을 발견하고 이해하고자 한다. 월드 와이드 웹에서 크롤링(crawling) 기법과 구글링(googling)을 통해 분석에 필요한 2010년부터 2014년까지 축적된 상당한 양의 공유경제를 주제로 한 기존 문헌들의 시계열 웹 메타 데이터를 수집하였다. 결과적으로, 많은 양의 가공되지 않은 공유경제 키워드 관련 원 자료들은 R프로그래밍 분석을 통해 보다 의미 있는 가치 있는 '워드 클라우딩' 형태의 그래프나 그림으로 분석처리 되었다. 아직까지 시기적으로 공유경제에 관해 축적된 자료나 집단지성이 양적으로 미비함에도 불구하고, 본 연구는 지식처리 관점에서 시계열 빅데이터 분석을 수행한 선행연구라는 점에서 의미가 있다. 따라서 본 연구의 결과는 향후 산학 분야에서 공유경제 관련 시장분석과 소비자 행동학 관련 후속 연구들을 위해 1차 자료로서 학문적 시사점을 제공할 수 있다.

영화 흥행과 관련된 영화별 특성에 대한 군집분석 : 웹 크롤링 활용 (Clustering Analysis of Films on Box Office Performance : Based on Web Crawling)

  • 이재일;전영호;하정훈
    • 산업경영시스템학회지
    • /
    • 제39권3호
    • /
    • pp.90-99
    • /
    • 2016
  • Forecasting of box office performance after a film release is very important, from the viewpoint of increase profitability by reducing the production cost and the marketing cost. Analysis of psychological factors such as word-of-mouth and expert assessment is essential, but hard to perform due to the difficulties of data collection. Information technology such as web crawling and text mining can help to overcome this situation. For effective text mining, categorization of objects is required. In this perspective, the objective of this study is to provide a framework for classifying films according to their characteristics. Data including psychological factors are collected from Web sites using the web crawling. A clustering analysis is conducted to classify films and a series of one-way ANOVA analysis are conducted to statistically verify the differences of characteristics among groups. The result of the cluster analysis based on the review and revenues shows that the films can be categorized into four distinct groups and the differences of characteristics are statistically significant. The first group is high sales of the box office and the number of clicks on reviews is higher than other groups. The characteristic of the second group is similar with the 1st group, while the length of review is longer and the box office sales are not good. The third group's audiences prefer to documentaries and animations and the number of comments and interests are significantly lower than other groups. The last group prefer to criminal, thriller and suspense genre. Correspondence analysis is also conducted to match the groups and intrinsic characteristics of films such as genre, movie rating and nation.

소셜 미디어 분석을 통한 음악 추천 모델의 설계 및 구현 (Design and implementation of a music recommendation model through social media analytics)

  • 정경록;박구락;박상혁
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.214-220
    • /
    • 2021
  • 스마트폰이 빠르게 보급되면서 음악을 생활 속의 배경음악처럼 항상 모든 곳에서 듣는 것이 일반화되어 개인의 상황과 조건에 맞는 추천을 할 수 있는 음악 데이터베이스를 필요하다. 본 논문에서는 소셜 미디어를 통한 음악추천 모델을 제안한다. 소셜 미디어의 데이터를 사용하여 음악 데이터베이스를 작성하고 기존의 음원 제공 플랫폼이 주로 사용하는 협업필터링과는 다른 방식으로 음악을 분류한다. 웹크롤링으로 음악 제목이 해시 태그로 달린 게시글을 찾아 해당 글에 함께 달린 다른 해시 태그들을 수집하고 분류하여 실제 청취자의 음악에 관한 의견을 데이터베이스에 사용한다. 소셜 미디어를 작성할 때의 감정, 상황, 시간대, 날씨 등 많은 조건이 해시 태그에는 포함되어 있으므로 다양한 사람의 의견이 집단지성으로 반영된 소셜 미디어 기반 데이터베이스를 구축할 수 있다.