• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.021초

지역 방송국 네트워크의 구조적 자산(asset)과 지역 간 격차: 지역MBC를 중심으로 (Structural Assets of Local Broadcasting Networks and Regional Gap: Foucsing on Local MBC stations in South Korea)

  • 손지훈;이정민;김재훈;박한우
    • 한국콘텐츠학회논문지
    • /
    • 제22권9호
    • /
    • pp.194-204
    • /
    • 2022
  • 이 연구는 웹사이트 크롤링을 통해 수집된 웹 데이터를 활용하여 지역 방송국의 사회적 자본과 지역 간 격차를 살펴보았다. 구체적으로 16개 지역 MBC 웹사이트와 연결된 URL을 수집하였다. 먼저, 웹 영향평가 조사를 통해 지역 방송국이 어느 기관과 연결되어 있는지 분석했다. 구체적인 연결 형태를 살펴보기 위해 n차 헬릭스 모델을 적용하여 URL 정보를 분류한 후 2원성 네트워크 분석을 진행하였다. n차 헬릭스 모델은 전통적 트리플 헬릭스 모델인 대학-기업-정부에 네트워크의 새로운 혁신 창출 주체를 추가한 분석 방법이다. 그 결과, 지역 방송국들은 지역 사회와의 교류에 있어 축제, 공연, 전시와 같은 프로그램을 가장 많이 활용하고 있었다. 지역별로는 대경권과 동남권에 속한 지역 MBC가 지역 사회와 가장 다양하게 연결된 것으로 나타났다. 이 연구를 통해 지역별 연결 구조를 살펴보고 지역 방송국 간의 차이를 인지할 수 있다는 점에서 의의가 있다. 후속 연구가 연결 형태에 초점을 맞춘 URL 종단분석을 실시한다면 더 구체적인 지역 간 격차를 파악할 수 있을 것이라 기대한다.

다계층 이원 네트워크를 활용한 사용자 관점의 이슈 클러스터링 (User-Perspective Issue Clustering Using Multi-Layered Two-Mode Network Analysis)

  • 김지은;김남규;조윤호
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.93-107
    • /
    • 2014
  • 대부분의 인터넷 쇼핑몰은 자사 고객의 관심 분야를 파악하고 이를 상품 추천에 효과적으로 활용하기 위해 많은 노력을 기울이고 있다. 하지만 고객이 회원 가입 시 직접 입력한 개인 정보는 신뢰하기가 어렵고, 고객의 구매 패턴을 통해 파악한 관심 분야 정보는 자사 사이트 내에 진입한 이후에만 보인 한정된 패턴이라는 측면에서 해당 고객의 다양한 관심분야를 제대로 나타낸다고 보기 어렵다. 이러한 한계를 극복하기 위해 본 연구에서는 고객의 평소 인터넷 사용 기록을 통해 최근 방문 사이트들의 주제를 분석함으로써, 고객의 실제 관심 분야를 파악할 수 있는 방안을 제시하였다. 또한 토픽 분석을 통해 각 사이트의 주제를 도출하고 도출된 주제를 다시 동시 방문자 관점에서 군집화 함으로써, 고객 관점에서 의미가 있는 상위 수준의 새로운 테마를 발굴하기 위한 방법론을 제안하였다. 연구의 특징은 유사주제 중심의 군집화라는 기존 연구와는 달리 사용자 관점의 관심주제 중심 군집화라 할 수 있다. 향후 사용자 중심의 카테고리 설계를 비롯한 새로운 관점의 고객군 정의 등 보다 높은 차원의 마케팅 전략 수립에 활용이 가능할 것으로 기대된다. 사용자 관점의 이슈 군집화 과정은 크롤링, 토픽 분석, 액세스 패턴 분석, 네트워크 병합, 네트워크 변환 및 군집화와 같은 여섯 가지 주요단계로 구성되어있다. 이를 위해 텍스트 마이닝과 소셜 네트워크 분석 기법을 활용한 비정형 텍스트를 기반으로한 빅데이터의 활용 방법을 모색하였다. 제안 방법론의 실무 적용 가능성을 평가하기 위해, 국내 최대 포털 뉴스 사이트의 방문자 2,177명의 1년간 방문 기록과 뉴스기사 대한 분석을 수행하고 그 결과를 요약하여 제시하였다.

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로 (A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis)

  • 이민철;윤현식
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.177-195
    • /
    • 2020
  • 소비자 구전은 정보통신기술의 발전과 모바일 기기의 보급 가속화로 그 영향력 또한 급속도로 커지고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있으며, 이는 소비자의 합리적 구매 결정 행위에 부정적인 영향을 미치기도 한다. 이에 대한 문제 인식의 확산으로 가짜리뷰의 형태적 특성에 대한 연구를 비롯해 가짜리뷰를 효과적으로 분류하기 위한 다양한 탐지 방법에 대한 연구가 증가하고 있다. 이에 본 연구에서는 네이버 블로그에 작성된 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반한 습관적 패턴을 머신러닝 모형을 통해 분석해 보았다. 게시물이 작성된 블로그와 그 게시물에서 추출한 변수를 분석하여 향후 가짜리뷰 예측에 활용하고자 하였다. 연구 결과, 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 포스트의 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그에 포함된 메뉴 개수, 포스트 제목 및 본문의 길이, 포스트가 획득한 '좋아요'의 개수 또한 높은 상관관계를 보였다. 또한 광고성 리뷰 여부를 판단하기 위한 머신러닝 모형에 있어서 랜덤포레스트를 활용한 모형이 가장 우수한 모형으로 확인되었다. 본 연구에서는 블로그에 작성된 리뷰 내용에 대한 형태소 분석을 시행하는 대신 리뷰를 작성한 사람의 행위를 분석하기 위한 시도를 하였다. 이를 위해 블로그와 포스트의 특성 데이터를 수작업이 아닌 웹 크롤링 기법으로 수집하고 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 기여할 수 있을 것이다.

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

빅데이터를 활용한 건축물 화재위험도 평가 지표 결정 (Determination of Fire Risk Assessment Indicators for Building using Big Data)

  • 주홍준;최윤정;옥치열;안재홍
    • 한국건축시공학회지
    • /
    • 제22권3호
    • /
    • pp.281-291
    • /
    • 2022
  • 본 연구에서는 빅데이터를 활용하여 건축물의 화재위험도 평가에 필요한 지표를 결정하였다. 건축물에서 화재위험도에 영향을 미치는 원인은 대부분 건축물만을 고려한 지표로 고착화되어 있기 때문에 제한적이고 주관적인 평가가 수행되어왔다. 따라서, 빅데이터를 활용하여 다양한 내·외부 지표를 고려한다면 건축물의 화재위험도 저감을 위한 효과적인 대책을 도모할 수 있다. 지표 결정에 필요한 데이터를 수집하기 위해 먼저 질의어를 선정하고, 웹 크롤링 기법을 이용하여 비정형 데이터 형식의 전문 문헌을 수집하였다. 문헌 내 단어를 수집하기 위해 사용자 용어사전 등록, 중복 문헌 및 불용어 제거의 전처리 과정을 수행하였으며, 선행 연구를 검토하여 단어를 4개의 요소로 분류하고 각 요소에서 위험도와 관련된 대표 키워드를 선정하였다. 그리고 대표 키워드의 연관검색어 분석을 통해 파생되는 위험도 관련 지표를 수집하였다. 지표의 선정 기준에 따라 수집된 지표를 검토한 결과, 20개의 건축물 화재위험도 지표를 결정할 수 있었다. 본 연구 방법론은 건축물 화재위험의 저감 대책 수립을 위한 빅데이터 분석의 적용 가능성을 나타내며, 결정된 지표는 건축물 화재위험도 평가를 위한 참고자료로 사용될 수 있을 것이다.

의류 사이즈별 및 피부톤에 기반을 둔 의류 추천 시스템 (Suitable clothing recommendation system by size and skin color)

  • 박창영;임병찬;이원준;이창수;김민수;이상용
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.407-413
    • /
    • 2022
  • 기존 의류 추천 시스템들은 사용자 자신의 신체 촬영 사진이나 신체 사이즈를 입력한 후, 사용자가 좋아하는 의류의 종류를 선택하면 그에 적합한 사진을 보여주는 수준에 머물러 있다. 이러한 추천 시스템을 이용하여 사용자가 의류를 구매할 경우, 사용자의 신체 사이즈에 맞지 않거나 어울리지 않는 경우가 다수 발생하게 된다. 본 연구에서는 기존 의류 추천 시스템들의 이런 문제점을 해결하기 위하여 사용자가 사이즈 뿐만 아니라 피부톤을 입력받아 사용자의 신체 사이즈 뿐만 아니라 피부톤에 알맞는 의류를 추천하는 시스템을 구현하였다. 본 시스템은 의류 추천을 위해 남성 상의 8가지를 대상으로 웹 크롤링을 통해 얻은 의류의 사이즈 정보를 주기적으로 데이터베이스에 저장하고, 해당 의류 이미지의 전체 픽셀을 분석하여 색감 텍스트 값을 추출하였다. 본 시스템의 성능을 확인하기 위하여 남자 대학생 100명을 대상으로 설문 조사를 실시하였으며, 70% 수준의 만족도를 보였다. 만족하지 않는 대부분의 이유는 추천 대상 의류가 한정되어 있다고 밝혀서 추후 대상 의류의 확대가 필요할 것으로 판단된다.

메가 스포츠이벤트의 공식스폰서와 일반기업의 미디어 노출 분석 (Media exposure analysis of official sponsors and general companies of mega sport event)

  • 김주학;조선미
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권4호
    • /
    • pp.171-181
    • /
    • 2018
  • 스포츠이벤트가 스포츠 산업에서 차지하는 비중이 커짐에 따라 스포츠이벤트의 공식스폰서 마케팅 시장도 증대되고 있다. 그러나 공식스폰서는 제한적이고, 그 비용도 높기 때문에 일부 기업은 엠부시(Ambish)마케팅을 방법으로 스포츠이벤트에 접근한다. 이 연구는 메가 스포츠이벤트의 공식스폰서 기업과 일반기업의 미디어 노출의 차이를 분석하는 연구이다. 연구의 목적달성을 위해 2016 리우올림픽의 1년 전, 올림픽기간, 1년 후의 미디어 기사를 수집하여 텍스트 분석을 실시하였다. 기사 수집을 위해 파이선(Python)을 활용해 웹크롤링을 실시하였고, 통계프로그램 R의 KoNLP 패키지와 TM 패키지를 활용하여 형태소 분석을 실시하고 빈도를 분석하였다. 또한, 전문가 의견수렴을 실시하여 미디어에 나타난 기업 또는 조직을 올림픽조직위원회와 공식스폰서기업, 일반기업으로 분류하였다. 분석결과 올림픽조직위원회와 관련한 빈도 5,220건, 올림픽 공식스폰서 관련 빈도 7,845건, 일반기업 관련 빈도는 7,028건으로 분석되었다. 일반기업의 노출 빈도가 공식스폰서의 노출 빈도와 큰 차이를 보이지 않았다는 것은 엠부시(Ambush) 마케팅이 전략적인 마케팅 기법으로 인식되고 있음을 시사한다. IOC는 이러한 사회적 현상을 인지하고, 공식스폰서 기업과 일반기업의 마케팅 활동에 대한 합리적 기준을 마련해야할 것이며 이 연구는 스포츠이벤트의 공정한 스폰서 활동 또는 마케팅 활동의 기준을 위한 기초자료가 될 것이다.

감성분석을 이용한 온라인 체험 내 비정형데이터의 주관도가 고객만족에 미치는 영향 분석 (Sentiment Analyses of the Impacts of Online Experience Subjectivity on Customer Satisfaction)

  • 서예은;이상용
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.233-255
    • /
    • 2023
  • 코로나19로 인한 팬데믹 상황에서도 여전히 여행에 대한 욕구와 수요가 시장에 존재하고 있다. 이러한 상황에서 정보기술(IT)의 발달로 인해 온라인에 대한 접근성과 유용성 및 디지털 기기의 활용도 함께 증가하였고, 비대면으로도 새로운 경험을 얻을 수 있는 '온라인 체험(Online Experience)' 시장이 급격하게 성장하였다. 본 연구는 AirBnB 온라인 체험 서비스에서 서비스제공자(Provider-oriented)와 서비스이용자(User-oriented)에 의해 생성된 정형 및 비정형 데이터가 고객만족에 미치는 영향에 대해 분석하였다. 분석에 사용된 데이터는 파이썬 웹크롤러로 수집되었으며, 주요 변수인 비정형 데이터는 전처리와 감성분석을 거쳐 회귀분석에 사용되었다. 분석 결과, 주요변수인 호스트가 생성한 체험 소개글, 호스트 소개글과 같은 비정형 데이터는 텍스트의 생성 목적에 따라 주관도(Subjectivity)가 다르게 나타나며, 체험 소개글은 주관적일수록, 호스트 소개글은 객관적일수록 고객 만족에 유의한 정의 영향을 미치는 것을 확인하였다. 또한, 에어비앤비 온라인 체험에 참여한 게스트가 생성한 정형 데이터는 다른 게스트의 만족에 긍정적인 영향을 미치는 것을 확인하였다. 본 연구 결과는 온라인 공유경제 플랫폼 이해관계자 및 온라인 체험 지식경영에 관심을 갖는 연구자에게 다양한 시사점을 제공할 것으로 기대한다.

팬데믹에 따른 소비자의 피부 관련 관심 영역 변화 분석: 구조적 토픽모델링을 중심으로 (Analyzing Changes in Consumers' Interest Areas Related to Skin under the Pandemic: Focusing on Structural Topic Modeling)

  • 김나경;박지원;문형빈
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.173-192
    • /
    • 2024
  • 최근 뷰티 산업은 급격한 성장과 혁신으로 빠르게 발전하였으며, 코로나19 팬데믹으로 인한 마스크 착용 및 비대면 생활의 증가와 같은 생활 양식 변화에 따라 새로운 전환을 겪고 있다. 본 연구는 온라인상에 나타난 소비자의 피부에 대한 의견을 분석하여 코로나19 팬데믹 이후 뷰티 산업의 변화를 수요 측면에서 이해하고자 하였다. 이를 위해 2017년부터 2022년까지 소셜 미디어에 게재된 게시글 중 '피부 고민'을 포함한 96,908개의 게시글을 수집하고 이를 구조적 토픽모델에 적용하여 피부 관련 주제를 도출하였다. 분석 결과, 소비자가 고민하고 있는 피부 관련 주제는 총 22개로 구분될 수 있음을 확인하였으며, 이들 주제는 크게 뷰티 제조업, 뷰티 서비스업·연관산업, 피부고민, 기타 등 4가지 유형으로 구분될 수 있었다. 또한 본 연구는 분석 기간을 코로나19 팬데믹의 확산 양상을 기준으로 7개 단계로 나누고 각 토픽의 비중이 어떻게 변화하는지를 상승, 하강, 일정, 진동으로 구분하여 보았다. 코로나19 팬데믹 전과 후 시점에 대하여 주제별 비중의 변화 양상을 분석한 결과, 피부 고민 중 피부 트러블(여드름)과 이와 관련된 제품(스팟패치)은 상승 분야로, 뷰티 연관산업 중 성형외과와 한의원은 하강 분야로, 뷰티 제조업 중 수분 마스크팩, 메이크업 제품은 큰 변화가 없는 일정 분야로 나타났다. 또한 코로나 발생기간 내에서 팬데믹이 최고조에 달한 시기에는 바디케어 제품과 관련된 토픽이 급증하는 것을 확인할 수 있었다. 본 연구의 결과는 뷰티 산업의 수요 변화에 대응하여 기업이 제품 개발, 마케팅 전략을 수립하는 데에 활용될 수 있으며, 팬데믹 발생 시 정부가 경제적 지원 정책을 수립하는 경우 정책 추진의 근거로서도 활용될 수 있을 것으로 기대된다.

1기 신도시의 도시 성장 과정 고찰 - 텍스트마이닝을 이용한 신문기사의 키워드 네트워크 분석을 중심으로 - (Examining the Urban Growth Process of the 1st New Town -Focusing on the Keyword Network Analysis of Newspaper Articles using Text Mining-)

  • 정다은;김충호
    • 지역연구
    • /
    • 제39권4호
    • /
    • pp.91-110
    • /
    • 2023
  • 본 연구의 목적은 신문기사를 통해 건설 이후 약 34년 동안 1기 신도시의 도시 성장 과정에서 발생한 도시 이슈를 탐색하는 것이다. 이를 위해, 웹크롤링 기법을 활용하여 1기 신도시 관련 신문기사를 수집하고, 텍스트마이닝 기법을 토대로 내용분석을 진행하였다. 주요 연구 결과는 다음과 같다. 첫째, 1기 신도시 건설 초기에는 생활인프라, 부동산, 교통, 도시개발 및 정비, 안전, 주택 공급의 6개 부문에서 이슈가 다양하게 나타났으나, 점차 부동산과 도시개발 및 정비로 좁혀졌다. 둘째, 신도시 건설단계 및 도시 안정화 단계에서는 '서울시'를 중심으로 한 네트워크 구조가 유지되었는데, 이는 1기 신도시가 지리적으로 서울 근교에 건설되면서 발생한 이슈에 대해 서울과 비교하는 기사가 다수 나타났기 때문으로 볼 수 있다. 셋째, 도시 노후화에 대한 이슈는 준공 후 10년부터 나타났으며, 준공 후 30년의 시점부터는 도시 노후화에 따른 도시 재정비에 대한 논의가 본격화되었다. 본 연구는 1기 신도시의 도시 성장 과정 전반에서 발생한 이슈를 탐색하였으며, 1기 신도시 재정비 방안 마련에 기초자료로써 활용될 수 있다는 데에 연구의 의의가 있다.