• 제목/요약/키워드: Web-Crawling

검색결과 175건 처리시간 0.025초

데이터 수집방법에 따른 딥러닝 기반 산림수종 자동분류 정확도 변화에 관한 연구 (A Study on the Performance of Deep learning-based Automatic Classification of Forest Plants: A Comparison of Data Collection Methods)

  • 김보미;우희성;박주원
    • 한국산림과학회지
    • /
    • 제109권1호
    • /
    • pp.23-30
    • /
    • 2020
  • 최근 급변하는 컴퓨터 기술의 발전을 통해 컴퓨터 비전과 머신러닝을 이용한 사물인식 기법이 다양한 학문 분야에서 사용되고 있다. 국내의 연구 사례를 보면 주로 대면적 산림을 분석하기 위한 이미지 학습 및 객체인식 기법이 사용되는 반면 개체목 단위의 수종 분류 및 특징을 학습하는 연구는 아직 미미한 실정이다. 이에 본 연구는 한국의 침엽수 5종을 대상으로 이미지 학습을 통한 자동분류 연구의 가능성을 분석해 보았다. 데이터 형태에 따른 분류 결과의 차이를 분석하기 위하여 산림전문가가 직접 촬영한 영상(D1)과 웹크롤링을 이용한 영상(D2)을 사용하여 수종 분류를 실시하였다. 그 결과 D1과 D2의 분류 정확도에 유의미한 차이가 있는 것으로 나타났으며, D1은 D2보다 높은 분류 정확도를 나타냈다. 또한, D2의 분류 정확도를 높이기 위해서는 검열되지 않은 영상 데이터의 노이즈를 줄이기 위한 추가 데이터 필터링 기법이 필요한 것으로 사료된다.

간호사의 직장 내 괴롭힘 관련 온라인 뉴스기사 댓글에 대한 토픽 모델링 분석 (A Topic Modeling Analysis for Online News Article Comments on Nurses' Workplace Bullying)

  • 강지연;김수경;노승국
    • 대한간호학회지
    • /
    • 제49권6호
    • /
    • pp.736-747
    • /
    • 2019
  • Purpose: This study aimed to explore public opinion on workplace bullying in the nursing field, by analyzing the keywords and topics of online news comments. Methods: This was a text-mining study that collected, processed, and analyzed text data. A total of 89,951 comments on 650 online news articles, reported between January 1, 2013 and July 31, 2018, were collected via web crawling. The collected unstructured text data were preprocessed and keyword analysis and topic modeling were performed using R programming. Results: The 10 most important keywords were "work" (37121.7), "hospital" (25286.0), "patients" (24600.8), "woman" (24015.6), "physician" (20840.6), "trouble" (18539.4), "time" (17896.3), "money" (16379.9), "new nurses" (14056.8), and "salary" (13084.1). The 22,572 preprocessed key words were categorized into four topics: "poor working environment", "culture among women", "unfair oppression", and "society-level solutions". Conclusion: Public interest in workplace bullying among nurses has continued to increase. The public agreed that negative work environment and nursing shortage could cause workplace bullying. They also considered nurse bullying as a problem that should be resolved at a societal level. It is necessary to conduct further research through gender discrimination perspectives on nurse workplace bullying and the social value of nursing work.

R을 활용한 SW교육 텍스트데이터 토픽분석 (A Topic Analysis of SW Education Textdata Using R)

  • 박선주
    • 정보교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.517-524
    • /
    • 2015
  • 본 논문에서는 사람들의 SW 교육과 관련된 관심방향을 알아보기 위해 SW 교육 관련 뉴스데이터를 수집하여 그 내용을 분석하였다. 이를 위해 2013년 7월 23일~2015년 10월 19일의 SW 교육관련 뉴스데이터의 토픽분석을 실시하였다. R을 사용하여 웹크롤링 후 가장 자주 언급된 상위 20개 단어들 간의 관련성을 분석한 결과, SW 교육 단어를 중심으로 20개 단어의 노드 크기와 연결선의 두께가 비교적 균형을 이루고 있어 서로의 관련성이 밀접하게 유지되는 데이터임을 알 수 있었다, 또한, 분석대상 데이터는 주로 SW 인재양성, SW 지원 프로그램, SW 교육 의무화, SW 캠프, SW 산업, 일자리 창출과 관련된 토픽들임을 알 수 있었다. 이는 SW 교육에 관한 사람들의 생각 및 관심분야 등을 알아보는 빅데이터 분석 자료에 활용될 수 있을 것이다.

탐색적 자료 분석(EDA) 기법을 활용한 국내 11개 대표 온라인 쇼핑몰 BEST 100 비교 (Comparison of Online Shopping Mall BEST 100 using Exploratory Data Analysis)

  • 강지천;강주영
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.1-12
    • /
    • 2018
  • 초기 온라인 쇼핑몰이 등장할 때부터 지금까지 BEST 100은 모든 쇼핑몰 웹사이트의 핵심 기능으로 제공되고 있다. BEST 100은 소비자들이 한눈에 인기 상품들을 확인할 수 있기 때문에 쇼핑몰의 매출 등에 미치는 영향이 높지만 온라인 쇼핑 선행 연구에서 BEST 100과 관련된 연구는 거의 이루어지지 않고 있다. 따라서 본 연구에서는 현 온라인 쇼핑몰 11곳을 대상으로 선정하여 쇼핑몰별 판매 특징을 분석하였다. 연구 방법으로 각 쇼핑몰 웹 사이트의 BEST 100의 구성요소인 판매문구, 가격, 무료배송의 유/무 확인을 크롤링 하여 탐색적 자료 분석 기법(EDA)을 활용하였다. 분석 결과 쇼핑몰 11곳의 종합 평균 가격은 72,891.41원으로 나타났으며 상품 가격이 저렴할수록 무료배송 비율이 낮음을 확인하였다. 가격 이외에 판매문구에서는 텍스트 마이닝을 통해 8개의 카테고리로 구분하였다. 가장 많은 카테고리는 fashion 부분이었으나 카테고리의 설정이 제품 속성이 아닌 마케팅 문구를 분석한 점에 의의가 있다. 본 연구는 EDA를 활용하여 현 온라인 시장 흐름을 파악하고 향후 방향을 제시하는데 시사점이 있다.

NLP와 BiLSTM을 적용한 조세 결정문의 분석과 예측 (Tax Judgment Analysis and Prediction using NLP and BiLSTM)

  • 이영근;박구락;이후영
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.181-188
    • /
    • 2021
  • 일반인에게 난해한 법률분야를 이해하기 쉽고 예측 가능 할 수 있도록 인공지능을 적용한 법률 서비스에 대한 연구의 중요성이 대두되고 있다. 본 연구에서는 조세심판원의 결정정보를 수집하고 데이터 처리와 자체 학습을 통한 모델을 구축하여 사용자의 질의에 맞는 답변을 예측하기 위한 시스템을 제안한다. 제안 모델은 웹크롤링을 통해서 조세 결정문의 정보 수집 및 자연어 처리과정을 통하여 유용한 데이터를 추출하고, 최적화된 산출물을 Word2Vec의 Fast Text 알고리즘을 적용하여 단어의 벡터를 생성하였다. 2017년부터 2019년까지 총 11,103건의 정보를 수집하고 분류하였으며 RNN 기술의 BiLSTM을 적용하여 자체학습을 통한 결과 예측 프로그램을 구축하여 70%정확도로 실증하였다. 향후 다양한 법률시스템으로 활용성을 기대할 수 있으며 보다 효율적인 적용을 위한 연구와 정확도 향상을 위한 연구가 계속되어야 한다.

후원형 크라우드 펀딩에서의 목표 구배 효과; 프로젝트 카테고리 별 차이를 중심으로 (Goal Gradient Effect in Reward-based Crowdfunding; Difference in Project Category)

  • 황지현;최강준;이재영;서승범
    • 지식경영연구
    • /
    • 제20권3호
    • /
    • pp.173-193
    • /
    • 2019
  • Reward-based crowdfunding is a funding platform that allows funds to be raised to early operators who have lack of funds, and is seen as an outstanding infrastructure that is going to lead the fourth industrial revolution in that it is a field of realization of new technologies and creative ideas by start-ups. Reward-based crowdfunding has grown in line with the trend of the fourth industrial revolution, and funding success cases are taking place in various industries that culture/art to technology/IT, including as a new means of knowledge management in a rapidly changing industrial environment. The study focused on the fact that consumer's donation purposes may also vary depending on the category of projects classified as reward-based crowdfunding. Because consumer payment decisions and motivation of consumer purchasing behavior are classified according to the purpose of purchase, the previous papers that the goal gradient effect that the main motivation of consumer donation for reward-based crowdfunding introduced vary depending on project category of utilitarian and hedonic. In this study, consumer's daily donation data is collected by Indiegogo which is a leading reward-based crowdfunding company using web-crawling and the model was defined as propensity score matching (PSM) and random effect model. The results showed that the goal gradient effect occurred in utilitarian project category, but no goal gradient effect for the hedonic project category. Furthermore, this paper developed the study of motivation of consumer donation and contributes theoretical foundation by the results consumer donation may vary depending on the project category; also, this paper has implications for an effective marketing strategy depending on the project category leaves real meaning to the projector.

CNN 을 이용한 동전 분류 (Coin Classification using CNN)

  • 이재현;신동규;박이준;송현주;구본근
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.63-69
    • /
    • 2021
  • 각국에서 통용되는 동전 제작에 사용되는 제한된 종류의 재질과 동전의 휴대성 등을 고려한 디자인은 각국의 통화가 달라도 동전의 모양, 크기, 색상을 비슷하게 하였다. 이로 인해 여러 국가를 방문하는 사람은 비슷한 모양의 여러 나라 동전을 식별하는 것에 어려움을 겪는다. 이러한 문제를 해결하기 위해 본 논문에서는 이미지 처리에 효과적인 합성곱 신경망(CNN)을 이용한 동전 분류 방법을 제안한다. 동전 분류를 위한 학습 이미지는 웹 크롤링을 이용하여 수집하고, 이미지 전처리를 위해 OpenCV를 사용하였다. 전처리가 완료된 이미지를 대상으로 특징 추출을 위해 세계층의 합성곱 계층을 사용하였고, 분류를 위해 두 계층의 완전연결 신경망을 사용하였다. 본 논문에서 설계한 모델이 동전 분류에 효과가 있음을 보이기 위해 여덟 종류의 동전을 대상으로 시험하였다. 실험 결과에 의하면 동전 분류의 정확도는 약 99.5%이다.

Does Rain Really Cause Toothache? Statistical Analysis Based on Google Trends

  • Jeon, Se-Jeong
    • 치위생과학회지
    • /
    • 제21권2호
    • /
    • pp.104-110
    • /
    • 2021
  • Background: Regardless of countries, the myth that rain makes the body ache has been worded in various forms, and a number of studies have been reported to investigate this. However, these studies, which depended on the patient's experience or memory, had obvious limitations. Google Trends is a big data analysis service based on search terms and viewing videos provided by Google LLC, and attempts to use it in various fields are continuing. In this study, we endeavored to introduce the 'value as a research tool' of the Google Trends, that has emerged along with technological advancements, through research on 'whether toothaches really occur frequently on rainy days'. Methods: Keywords were selected as objectively as possible by applying web crawling and text mining techniques, and the keyword "bi" meaning rain in Korean was added to verify the reliability of Google Trends data. The correlation was statistically analyzed using precipitation and temperature data provided by the Korea Meteorological Agency and daily search volume data provided by Google Trends. Results: Keywords "chi-gwa", "chi-tong", and "chung-chi" were selected, which in Korean mean 'dental clinic', 'toothache', and 'tooth decay' respectively. A significant correlation was found between the amount of precipitation and the search volume of tooth decay. No correlation was found between precipitation and other keywords or other combinations. It was natural that a very significant correlation was found between the amount of precipitation, temperature, and the search volume of "bi". Conclusion: Rain seems to actually be a cause of toothache, and if objective keyword selection is premised, Google Trends is considered to be very useful as a research tool in the future.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.

Analysis for Daily Food Delivery & Consumption Trends in the Post-Covid-19 Era through Big Data

  • Jeong, Chan-u;Moon, Yoo-Jin;Hwang, Young-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.231-238
    • /
    • 2021
  • 이 논문은 Covid-19 이후 기간의 빅데이터를 활용하여 일상에서 주문하는 음식 배달과 소비의 경향을 분석하는 방법을 제시한다. 빅데이터를 분석하고 데이터베이스 시스템을 이용하여, 날씨를 제외한 네 개의 요소들이 배달의민족 매출과 의미있는 상관관계가 있는 것으로 확인되었다. 이 연구는 KBS, MBC와 SBS 언론매체의 빅데이터 분석에서 Covid-19 관련 기사 다음 날에 음식 배달과 소비 증가가 거의 60%에 달하는 것을 발견하였다. 또한 Naver 검색결과에서도 Covid-19 관련 기사 다음 날에 심각하게 의미있는 음식 배달과 소비 증가를 발견하였다. 그 이외에, 소비의 흐름에 있어서 모바일을 통한 배달이 주류가 될 것이며 밀레니얼 세대가 대세가 될 것이라는 것도 알 수 있었다. 본 연구는 방대하고 구체적인 데이터를 사용하여 똑같은 방법으로 경기 침체기에 다른 산업 분야에 대하여 분석을 가능하게 하는 것으로, 기업의 입장에서 발빠른 대응으로 경기 침체 속의 호황을 맞이할 수 있는 분석과 방법을 제공하는 데 기여할 수 있다.