• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.028초

Analysis for Daily Food Delivery & Consumption Trends in the Post-Covid-19 Era through Big Data

  • Jeong, Chan-u;Moon, Yoo-Jin;Hwang, Young-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.231-238
    • /
    • 2021
  • 이 논문은 Covid-19 이후 기간의 빅데이터를 활용하여 일상에서 주문하는 음식 배달과 소비의 경향을 분석하는 방법을 제시한다. 빅데이터를 분석하고 데이터베이스 시스템을 이용하여, 날씨를 제외한 네 개의 요소들이 배달의민족 매출과 의미있는 상관관계가 있는 것으로 확인되었다. 이 연구는 KBS, MBC와 SBS 언론매체의 빅데이터 분석에서 Covid-19 관련 기사 다음 날에 음식 배달과 소비 증가가 거의 60%에 달하는 것을 발견하였다. 또한 Naver 검색결과에서도 Covid-19 관련 기사 다음 날에 심각하게 의미있는 음식 배달과 소비 증가를 발견하였다. 그 이외에, 소비의 흐름에 있어서 모바일을 통한 배달이 주류가 될 것이며 밀레니얼 세대가 대세가 될 것이라는 것도 알 수 있었다. 본 연구는 방대하고 구체적인 데이터를 사용하여 똑같은 방법으로 경기 침체기에 다른 산업 분야에 대하여 분석을 가능하게 하는 것으로, 기업의 입장에서 발빠른 대응으로 경기 침체 속의 호황을 맞이할 수 있는 분석과 방법을 제공하는 데 기여할 수 있다.

교육과정 변화에 따른 초등 정보교육 연구 동향 분석 (Analysis of Research Trends in Elementary Information Education According to Changes in Curriculum)

  • 이영호
    • 정보교육학회논문지
    • /
    • 제25권3호
    • /
    • pp.537-545
    • /
    • 2021
  • 교육과정 내에서 컴퓨터와 관련된 내용은 1987년 발표된 5차 교육과정에서부터 제시되어 왔으며, 현재 적용되고 있는 2015 개정 교육과정의 실과 교육과정에는 기존의 ICT 관련 내용에서 SW관련 내용으로 변경되어 구성되어 있다. 이처럼 시대적, 사회적 요구에 따라 교육과정을 개정하기 위해서는 관련 연구가 선행될 필요가 있다. 초등학교 정보교육에 대한 연구는 주로 한국정보교육학회에서 이루어지고 있다. 이에 본 연구에서는 정보교육학회논문을 바탕으로 교육과정의 변화 시기별 학회의 연구 동향을 분석하고자 한다. 분석을 위해 논문 전체에 대한 초록 데이터를 한국학술지인용색인(KCI)에서 웹 크롤링 기법을 통해 수집하였으며, 시기별 동향 분석을 위해 토픽 모델링 기법을 적용하였다. 연구 결과 정보화와 관련 연구에서부터 프로그래밍 교육, 사고력 교육에 이르기까지 교육과정의 변화와 유사한 연구 동향의 변화를 보여주고 있으며, 학회의 연구가 교육과정의 변화에 선행하고 있음을 살펴볼 수 있었다.

Classification Model of Food Groups in Food Exchange Table Using Decision Tree-based Machine Learning

  • Kim, Ji Yun;Kim, Jongwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.51-58
    • /
    • 2022
  • 본 논문에서 우리는 기존 식품과 웹 크롤링으로 찾은 식품 데이터에 대해 기계학습으로 식품군을 분류하여 식품교환표를 갱신하기 위한 의사결정트리 기반의 기계학습 모델을 제안한다. 식품교환표는 영양 관리가 필요한 환자의 식이요법이나 다이어트 식단을 편성할 때 식품 교환 섭취에 사용된다. 식단의 기준이 되는 식품교환표는 국민건강영양조사를 통한 개정과정에서 많은 인력과 시간이 소요되어 새로운 식품이나 트렌드에 따른 식품 변화를 신속하게 반영하기 어렵다. 제안 기법은 기존의 식품군을 바탕으로 새롭게 추가되는 식품을 분류하기 때문에 식품의 트렌드를 반영한 식품교환표 구성이 가능하다. 연구에서 제안 모델로 식품을 분류한 결과, 식품교환표의 식품군에 대한 정확도가 97.45%로 나타났으며, 본 식품 분류 모델은 병원, 요양원 등에서 식단 구성에 활용도가 높을 것으로 전망된다.

토픽 모델링을 활용한 광범위 선천성 대사이상 신생아 선별검사 관련 온라인 육아 커뮤니티 게시 글 분석: 계량적 내용분석 연구 (Analysis of online parenting community posts on expanded newborn screening for metabolic disorders using topic modeling: a quantitative content analysis)

  • 이명선;정현숙;김진선
    • 여성건강간호학회지
    • /
    • 제29권1호
    • /
    • pp.20-31
    • /
    • 2023
  • Purpose: As more newborns have received expanded newborn screening (NBS) for metabolic disorders, the overall number of false-positive results has increased. The purpose of this study was to explore the psychological impacts experienced by mothers related to the NBS process. Methods: An online parenting community in Korea was selected, and questions regarding NBS were collected using web crawling for the period from October 2018 to August 2021. In total, 634 posts were analyzed. The collected unstructured text data were preprocessed, and keyword analysis, topic modeling, and visualization were performed. Results: Of 1,057 words extracted from posts, the top keyword based on 'term frequency-inverse document frequency' values was "hypothyroidism," followed by "discharge," "close examination," "thyroid-stimulating hormone levels," and "jaundice." The top keyword based on the simple frequency of appearance was "XXX hospital," followed by "close examination," "discharge," "breastfeeding," "hypothyroidism," and "professor." As a result of LDA topic modeling, posts related to inborn errors of metabolism (IEMs) were classified into four main themes: "confirmatory tests of IEMs," "mother and newborn with thyroid function problems," "retests of IEMs," and "feeding related to IEMs." Mothers experienced substantial frustration, stress, and anxiety when they received positive NBS results. Conclusion: The online parenting community played an important role in acquiring and sharing information, as well as psychological support related to NBS in newborn mothers. Nurses can use this study's findings to develop timely and evidence-based information for parents whose children receive positive NBS results to reduce the negative psychological impact.

텍스트마이닝을 위한 패션 속성 분류체계 및 말뭉치 웹사전 구축 (Development of Online Fashion Thesaurus and Taxonomy for Text Mining)

  • 장세윤;김하연;김송미;최우진;정진;이유리
    • 한국의류학회지
    • /
    • 제46권6호
    • /
    • pp.1142-1160
    • /
    • 2022
  • Text data plays a significant role in understanding and analyzing trends in consumer, business, and social sectors. For text analysis, there must be a corpus that reflects specific domain knowledge. However, in the field of fashion, the professional corpus is insufficient. This study aims to develop a taxonomy and thesaurus that considers the specialty of fashion products. To this end, about 100,000 fashion vocabulary terms were collected by crawling text data from WSGN, Pantone, and online platforms; text subsequently was extracted through preprocessing with Python. The taxonomy was composed of items, silhouettes, details, styles, colors, textiles, and patterns/prints, which are seven attributes of clothes. The corpus was completed through processing synonyms of terms from fashion books such as dictionaries. Finally, 10,294 vocabulary words, including 1,956 standard Korean words, were classified in the taxonomy. All data was then developed into a web dictionary system. Quantitative and qualitative performance tests of the results were conducted through expert reviews. The performance of the thesaurus also was verified by comparing the results of text mining analysis through the previously developed corpus. This study contributes to achieving a text data standard and enables meaningful results of text mining analysis in the fashion field.

물공급네트워크 수질사고인지를 위한 소셜네트워크 서비스 별 웹크롤링 방법론 개발 (Web crawling process of each social network service for recognizing water quality accidents in the water supply networks)

  • 유도근;홍승혁;문기훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.398-398
    • /
    • 2022
  • 최근 수돗물 공급과정에 있어 적수, 유충 발생 등 지역 단위의 수질문제로 국민의 직간접적인 피해가 발생된 바 있다. 수질문제 발생 시, 소셜네트워크서비스(SNS)에 게시되는 피해 관련 의견은 시공간적으로 빠르게 확산되며, 궁극적으로는 물공급과정 전체의 부정적 인식증가와 신뢰도 저하를 초래한다. 따라서, 물공급시스템에서의 수질사고 발생을 빠르게 인지하는 다양한 방법론의 적용을 통한 피해 최소화를 위한 노력이 반드시 필요하다. 일반적으로 수질사고는 다양한 항목의 실시간 계측기에서 획득되는 시계열자료의 변화양상을 통해 판단할 수 있으나, 이와 같은 방법론의 효율적 적용을 위해서는 선진계측인프라의 도입이 선행되어야 한다. 본 연구에서는 국내의 발달된 정보통신기술환경을 활용하여, 물공급네트워크 내 수질사고인지를 위한 SNS 별 웹크롤링 방법론을 제안하고, 적용결과를 분석하였다. 방법론의 구현에 앞서, 각종 SNS 별(트위터, 인스타그램, 블로그, 네이버 카페 등) 프로그래밍을 통한 웹크롤링 가능여부, 정보획득 기간 등을 확인하였으며, 과거 유사 수질사고 발생 시 영향력과 관련 게시글이 크게 나타난 네이버 카페와 트위터를 중심으로 웹 크롤링 절차를 제시하였다. 네이버 카페의 경우 대상급수구역 내의 시민들이 다수 참여하는 카페를 목록화하고, 지자체명과 핵심 키워드(수돗물, 유충, 적수) 조합을 활용한 웹크롤링을 수행하여, 관련 게시물 건수와 의미를 실시간으로 분석하는 절차를 마련하였다. 개발된 SNS 별 웹크롤링 방법론에 따라 과거 수질사고가 발생된 바 있는 2개 이상의 지자체에 대한 분석을 실시하였으며, SNS 별 결과에 있어 차이점을 확인하여 제시하였다. 향후 제안된 방법을 적용하여 시공간적 수질사고 정보의 전파 및 확산양상을 추가적으로 분석할수 있을 것으로 기대된다.

  • PDF

한국어 문서 요약 기법을 활용한 휘발유 재고량에 대한 미디어 분석 (Media-based Analysis of Gasoline Inventory with Korean Text Summarization)

  • 윤성연;박민서
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.509-515
    • /
    • 2023
  • 국가 차원의 지속적인 대체 에너지 개발에도 석유 제품의 사용량은 지속적으로 증가하고 있다. 특히, 대표적인 석유 제품인 휘발유는 국제유가의 변동에 그 가격이 크게 변동한다. 주유소에서는 휘발유의 가격 변화에 대응하기 위해 휘발유 재고량을 조절한다. 따라서, 휘발유 재고량의 주요 변화 요인을 분석하여 전반적인 휘발유 소비 행태를 분석할 필요가 있다. 본 연구에서는 주유소의 휘발유 재고량 변화에 영향을 미치는 요인을 파악하기 위해 뉴스 기사를 활용한다. 첫째, 웹 크롤링을 통해 자동으로 휘발유와 관련한 기사를 수집한다. 둘째, 수집한 뉴스 기사를 KoBART(Korean Bidirectional and Auto-Regressive Transformers) 텍스트 요약 모델을 활용하여 요약한다. 셋째, 추출한 요약문을 전처리하고, N-Gram 언어 모델과 TF-IDF(Term Frequency Inverse Document Frequency)를 통해 단어 및 구 단위의 주요 요인을 도출한다. 본 연구를 통해 휘발유 소비 형태의 파악 및 예측이 가능하다.

공공도서관 목록데이터의 중복검증에 관한 연구 - 부산 지역 G도서관 사례를 중심으로 - (A Study on Duplication Verification of Public Library Catalog Data: Focusing on the Case of G Library in Busan)

  • 송민건;이수상
    • 한국도서관정보학회지
    • /
    • 제55권1호
    • /
    • pp.1-26
    • /
    • 2024
  • 본 논문은 아이템 기반으로 작성된 공공도서관의 목록데이터에 대해 중복검증 알고리즘을 적용하여 서지레코드의 통합방안을 도출하고자 하였다. 이를 위하여 부산 지역에서 비교적 최근에 개관한 G도서관을 선정하였다. G도서관의 OPAC 데이터를 웹 크롤링을 통해 수집한 다음, 한국문학(KDC 800) 다권본 도서를 선별하고 KERIS의 중복검증 알고리즘을 적용하였다. 검증 결과를 바탕으로 2차에 걸친 데이터 교정 작업을 진행한 이후, 중복검증률은 95.53%에서 98.27%로 총 2.74% 상승하였다. 데이터 교정 후에도 유사/불일치 판정을 받은 24권은 개정판, 양장본 등 별도의 ISBN을 부여받고 출판된 다른 판본의 자료로 확인되었다. 이를 통해 목록데이터 교정 작업을 통해 중복검증률의 개선이 가능함을 확인하였으며, 공공도서관의 중복된 아이템 레코드들을 구현형 레코드로 전환하기 위한 도구로서 KERIS 중복검증 알고리즘의 활용 가능성을 확인하였다.

크루얼티 프리 패션 브랜드의 커뮤니케이션 성과 분석 - 브랜드 주도적 이미지와 소비자 지각 이미지에 대한 비교 - (Evaluation of communication effectiveness of cruelty-free fashion brands - A comparative study of brand-led and consumer-perceived images -)

  • 최영현;이상영
    • 복식문화연구
    • /
    • 제32권2호
    • /
    • pp.247-259
    • /
    • 2024
  • This study assessed the effectiveness of brand image communication on consumer perceptions of cruelty-free fashion brands. Brand messaging data were gathered from postings on the official Instagram accounts of three cruelty-free fashion brands and consumer perception data were gathered from Tweets containing keywords related to each brand. Web crawling and natural language processing were performed using Python and sentiment analysis was conducted using the BERT model. By analyzing Instagram content from Stella McCartney, Patagonia, and Freitag from their inception until 2021, this study found these brands all emphasize environmental aspects but with differing focuses: Stella McCartney on ecological conservation, Patagonia on an active outdoor image, and Freitag on upcycled products. Keyword analysis further indicated consumers perceive these brands in line with their brand messaging: Stella McCartney as high-end and eco-friendly, Patagonia as active and environmentally conscious, and Freitag as centered on recycling. Results based on the assessment of the alignment between brand-driven images and consumer-perceived images and the sentiment evaluation of the brand confirmed the outcomes of brand communication performance. The study revealed a correlation between brand image and positive consumer evaluations, indicating that higher alignment of ethical values leads to more positive consumer assessments. Given that consumers tend to prioritize search keywords over brand concepts, it's important for brands to focus on using visual imagery and promotions to effectively convey brand communication information. These findings highlight the importance of brand communication by emphasizing the connection between ethical brand images and consumer perceptions.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.