• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.021초

R프로그래밍을 활용한 공유경제의 한국인 집단지성: 텍스트 마이닝 및 시계열 분석 (Korean Collective Intelligence in Sharing Economy Using R Programming: A Text Mining and Time Series Analysis Approach)

  • 김재원;윤유동;정유진;김기연
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.151-160
    • /
    • 2016
  • 본 연구의 목적은 최근 창조경제 또는 사회적 경제 관점에서 주목받고 있는 공유경제라는 키워드에 관해 현대 한국인들이 가지고 있는 대중적인 문화 및 사회적 인식, 즉 집단지성의 변화 추세를 조사하는 것이다. 이를 위해, 본 연구는 빅데이터 분석 관점의 텍스트 마이닝 기법을 적용하여 최근 5년 간 사회 문화적 집단지성의 객관적이고 가시적인 연간 변화 및 패턴들을 발견하고 이해하고자 한다. 월드 와이드 웹에서 크롤링(crawling) 기법과 구글링(googling)을 통해 분석에 필요한 2010년부터 2014년까지 축적된 상당한 양의 공유경제를 주제로 한 기존 문헌들의 시계열 웹 메타 데이터를 수집하였다. 결과적으로, 많은 양의 가공되지 않은 공유경제 키워드 관련 원 자료들은 R프로그래밍 분석을 통해 보다 의미 있는 가치 있는 '워드 클라우딩' 형태의 그래프나 그림으로 분석처리 되었다. 아직까지 시기적으로 공유경제에 관해 축적된 자료나 집단지성이 양적으로 미비함에도 불구하고, 본 연구는 지식처리 관점에서 시계열 빅데이터 분석을 수행한 선행연구라는 점에서 의미가 있다. 따라서 본 연구의 결과는 향후 산학 분야에서 공유경제 관련 시장분석과 소비자 행동학 관련 후속 연구들을 위해 1차 자료로서 학문적 시사점을 제공할 수 있다.

온·오프라인 댓글 분석이 활용된 Word2Vec 기반 상품기획 모델연구: 버티컬 무소음마우스 사용자를 중심으로 (A Study on the Product Planning Model based on Word2Vec using On-offline Comment Analysis: Focused on the Noiseless Vertical Mouse User)

  • 안영휘
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.221-227
    • /
    • 2021
  • 본 논문에서는 버티컬 무소음 마우스 10,000건에 대한 웹크롤링을 통해 수집된 정형화된 데이터셋을 Word2Vec을 이용하여 단어 간 유사도분석을 시행하고 컴퓨터공학과 대학생 92명에게 5일 동안 제시된 상품을 사용하게 하고 자가보고식 설문 분석을 시행하도록 하였다. 설문 분석은 서술식 형태로 수집하여 단어빈도 분석과 단어 간 유사도분석에서 추출된 상위 50개 단어를 제시하고 선택하는 방식으로 이루어졌다. 전자상거래 사용자 상품평 유사도 분석결과 내용 중 클릭 키워드에 대한 장점으로 통증(.985), 디자인(.963)가 분석되었으며 단점은 가볍다(.952), 적응(.948)이었다. 서술식 빈도분석에서는 버티컬(123개), 통증(118개)이 가장 많이 선택 되었으며 장/단점 유사단어를 선택에 해당되는 장점에서는 버티컬(83개), 통증(75개) 선택 되었으며 단점에서는 적응(89개), 버튼(72개)이었다. 따라서 본 연구에서 적용한 방식을 상품기획 프로세스의 신상품 개발 및 기존 상품의 검토 전략으로 반영 시 중견기업, 중소기업의 의사결정자와 상품기획자는 의사결정에 중대한 자료로 활용 할 수 있을 것으로 기대된다.

텍스트 마이닝을 활용한 노인장기요양보험에서의 작업치료: 2007-2018년 (Occupational Therapy in Long-Term Care Insurance For the Elderly Using Text Mining)

  • 조민석;백순형;박엄지;박수희
    • 고령자・치매작업치료학회지
    • /
    • 제12권2호
    • /
    • pp.67-74
    • /
    • 2018
  • 목적 본 연구의 목적은 텍스트 마이닝이라는 빅데이터 분석 기법 중 하나를 활용하여 노인장기요양보험에서 작업치료의 역할을 정량적으로 분석하는 것이다. 연구방법 신문기사 분석을 위해 2007~208년까지 기간 설정 후 "노인장기요양보험+작업치료"를 주제어로 수집하였다. Textom이라는 웹 크롤링(Web Crawling)을 활용해 국내 검색엔진 네이버에서 <네이버뉴스>의 데이터베이스를 활용하였다. 수집결과 노인장기요양보험+작업치료 검색에서 510편의 뉴스 데이터의 기사제목과 원문을 수집한 후 연도별 기사 빈도, 핵심어분석을 시행하였다. 연구결과 연도별 기사 발행 빈도를 살펴보면 2015년과 2017년 발행한 기사 수가 70편(13.7%)으로 가장 많았고, 핵심어 분석 상위 10개의 용어는 '치매'(344)가 가장 많았으며, 작업과 핵심어의 관례를 알아보면, 치매, 치료, 병원, 건강, 서비스, 재활, 시설, 제도, 등급, 어르신, 전문, 급여, 공단, 국민이 관련이 있는 것으로 나타났다. 결론 본 연구에서는 텍스트 마이닝 기법을 통해 11년간의 노인장기요양보험의 언론 보도 동향을 토대로 관련 핵심 키워드에서 치매와 재활에 대해 사회적 요구와 작업치료사의 역할을 보다 객관적으로 확인하였다는 점에서 의의가 있다. 이 결과를 바탕으로 다음 연구에서는 연도에 따른 다양한 분석방법을 통해 연구방법론을 보완하여야 할 것이다.

빅데이터 분석을 활용한 웰에이징 요인에 관한 연구 : 신문기사를 중심으로 (A Study on the Factors of Well-aging through Big Data Analysis : Focusing on Newspaper Articles)

  • 이종형;강경희;김용하;임효남;구진희;김광환
    • 한국산학기술학회논문지
    • /
    • 제22권5호
    • /
    • pp.354-360
    • /
    • 2021
  • 사람들은 개인의 삶의 만족을 위하여 일과 삶의 균형을 맞추며 건강하고 행복하게 살아가는 것을 희망하고 있다. 따라서 걱정 없이 행복하고 건강하게 나이가 들어가는 것을 의미하는 웰에이징(well-aging)에 대한 관심이 높아지고 있다. 본 연구는 웰에이징 관련 신문기사를 분석하여 웰에이징과 연관된 요인들을 파악하고자 하였다. 파이썬(Python) 기반의 웹 크롤링(web crawling)을 활용하여 2020년 11월까지 포탈 사이트 다음(daum)의 뉴스 서비스에 게재된 1,199편의 기사를 수집하였으며, 이중 연구 주제에 일치하는 기사 374편을 연구대상으로 선정하였다. 텍스트마이닝의 빈도분석 결과, '노인', '건강', '피부', '웰에이징', '제품', '사람', '노화', '여성', '국내', '은퇴' 등의 순서로 상위 10개의 키워드가 중요하게 파악되었다. 또한 출현 빈도가 높은 45개의 중요 키워드를 기반으로 사회 네트워크 분석을 수행한 결과 '피부-주름', '피부-노화', '노인-건강'이 강한 연결 관계를 나타났다. CONCOR 분석을 수행한 결과 45개의 중요 키워드들은 '삶과 행복', '질병과 죽음', '영양과 운동', '힐링', '헬스산업', '노화와 안티에이징', '건강', '노인서비스'의 8개 군집으로 구성되어, 신문기사들을 기반으로 나타나는 웰에이징과 관련된 요인들을 유추할 수 있었다.

빅데이터 토픽모델링과 감성분석을 활용한 물공급과정에서의 수질사고 기사 분석 (Analysis of articles on water quality accidents in the water distribution networks using big data topic modelling and sentiment analysis)

  • 홍성진;유도근
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1235-1249
    • /
    • 2022
  • 본 연구에서는 웹 크롤링 방법을 이용한 자료수집, 텍스트 마이닝을 활용한 데이터 분석과 같은 빅데이터 분석기법을 이용하여 국내 상수도 수질사고에 대한 전개양상 분석을 수행하였다. 상수도 시스템의 수질사고 빅데이터 뉴스의 추출을 위한 웹크롤링 기법을 적용하고 정확한 수질사고 뉴스를 획득하고자 알고리즘을 절차화하여 제시하였다. 또한 대규모 수질사고의 경우 사고발생에 따른 사고인지, 사고확산, 사고대응, 사고해결 등과 같은 전개양상이 나타나므로, 각 단계에 따른 적절한 뉴스기사를 추출하고, 이에 따른 정보분석을 실시하였다. 즉, 각 단계 별 주요 키워드, 감성분석을 통한 수질사고 전개양상분석을 사례기반으로 상세히 실시하고 그 의미를 분석, 도출하였다. 제안된 방법론을 2020년 발생한 인천광역시 유충사고기간에 적용하여 분석하였다. 그 결과, 수질사고와 같은 소비자에게 직접적인 영향을 미치는 정보의 공개가 제한된 상황에서 사고발생시 장기간의 피해 지속성이 있는 수질사고에 대한 뉴스 기사 언론보도의 논조 및 소비자의 긍부정도가 시간에 따라 명확히 변화됨을 확인할 수 있었다. 이것은 공급자 입장에서의 수질사고의 전개양상은 시설물의 빠른 복구도 매우 중요하지만 소비자의 긍정도를 높이기 위한 소비자 중심의 정책마련의 필요성을 제시하고 있다.

R기반 빅데이터 분석기법을 활용한 상수도시스템 누수사고 분석 (Water leakage accident analysis of water supply networks using big data analysis technique)

  • 홍성진;유도근
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1261-1270
    • /
    • 2022
  • 본 연구의 목적은 사람들이 쉽게 접할 수 있는 포털의 뉴스 검색 결과를 활용하여 쉽게 접근, 활용하지 못하는 상수도 누수 관련 정보를 모아 분석하는 것이다. 상수도 시스템의 누수사고 빅데이터 뉴스의 추출을 위한 웹크롤링 기법을 적용하고 정확한 누수사고 뉴스를 획득하고자 알고리즘을 절차화하여 제시하였다. 또한 추출된 누수사고 기사에서 발생일시, 피해영향, 발생지점, 피해원인, 피해시설 등과 같은 추가적인 정보의 획득이 가능하도록 상수도 누수사고 정보 분석에 적합한 데이터 분석 기법을 개발하였으며 그에 따른 적용결과를 제시하였다. 본 연구에서 제안한 빅데이터 기반 누수 분석을 통한 가치 추출은 기존의 상수도통계 결과와 비교를 통한 유의미한 가치를 추출하는 데 1차적 목표가 있으며, 이와 같은 분석 결과를 활용하여 향후 누수 사고 대응에 있어 소비자의 반응에 효과적으로 대응하거나 서비스 수준을 결정하는데 활용할 수 있다. 즉, 이와 같은 분석결과의 제시를 통해 사고와 같은 정보를 대중에 조금더 알려야하는 필요성을 제시하고, 사고 발생시 빠른 대처가 가능할 수 있는 전파 및 대응 체계를 마련하는데 연계활용할 수 있다.

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

Python을 이용한 SNS 크롤링 시스템 구축 (Building an SNS Crawling System Using Python)

  • 이종화
    • 한국산업정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.61-76
    • /
    • 2018
  • 현대인이 살고 있는 네트워크 세상으로 모든 사물들이 들어오고 있다. 사물에 센서를 부착하는 사물인터넷의 영향으로 인해 네트워크로 실시간 데이터를 주고받는 것이 가능해졌다. 현대인들의 필수품인 모바일 디바이스는 일상생활의 모든 자취를 실시간으로 남기는 역할을 하고 있다. 바로 소셜 네트워크 서비스를 통하여 정보획득 활동과 커뮤니케이션 활동을 실시간으로 거대한 네트워크에 남기고 있는 것이다. 비즈니스 관점에서 고객의 니즈 분석은 바로 SNS 자료에서부터 시작된다는 등가가 성립된다. 본 연구는 웹 환경의 SNS 콘텐츠를 파이썬을 이용하여 실시간으로 자동 수집시스템을 구축하고자 한다. 세계적으로 많은 이용자수를 확보하고 있는 인스타그램, 트위터, 유튜브의 비정형적 데이터 수집 시스템을 통하여 고객의 니즈 분석에 도움이 되고자 한다. 파이썬의 웹드라이버 환경에서 가상 웹브라우저를 이용하여 마이닝 처리와 NLP 과정을 거쳐 DB에 저장된다. 본 연구의 결과 웹페이지를 통하여 서비스를 진행하고자하며 검색 기능만으로 원하는 데이터가 자동 수집되며 데이터의 시계열 분석을 통하여 네티즌의 이슈 반응을 실시간으로 확인할 수 있었다. 또한 검색부터 실행결과가 나오기까지 5초 이내 이루어지므로 제시된 알고리즘의 우수성을 확인하였다.

챗봇 형태로 구현한 사용자 맞춤형 레시피 추천 시스템 (Customized Recipe Recommendation System Implemented in the form of a Chatbot)

  • 안예진;조하영;강신재
    • 한국산학기술학회논문지
    • /
    • 제21권5호
    • /
    • pp.543-550
    • /
    • 2020
  • 음식의 레시피에 대한 관심도가 높아지고 있는 요즘 대부분의 레시피 검색 시스템들은 요리명, 또는 음식 재료명으로 검색하는 정도로 구현이 되어 있으며, 레시피마다 상이한 계량 단위로 식재료의 양에 대한 정보를 제공하기 때문에 자신이 원하는 인분에 맞춰 식재료의 양을 다시 계산해야 하는 불편함이 있다. 이에 본 논문에서는 이러한 불편 사항을 해결하고 메신저 대화에 익숙한 사용자들에게 맞춤형 서비스를 제공하기 위해 챗봇 형태의 사용자 맞춤형 레시피 추천 시스템을 구현하였다. 레시피에 대한 사용자의 리뷰와 별점, 조회 수 등을 기반으로 인기 있는 레시피들을 선별하고 전처리를 통해 해당 레시피별로 주요 단어와 식재료 양, 조리 순서 등 필요한 정보들만을 추출, 가공한 뒤, 그를 통해 얻은 약 10만 개의 데이터를 기반으로 사용자가 입력한 레시피명, 식재료명, 제외할 식재료명 등을 분석해 레시피를 필터링하고, 사용자가 입력한 인분을 기준으로 재계량하여 레시피를 추천하는 시스템을 구현하였다. 사용자의 요구에 따른 레시피 추천 결과물에 대한 만족도를 평가하여 90.5%의 결과를 얻을 수 있었다.

인공지능 기술을 활용한 부동산 허위매물 필터링 시스템 (A Design of Estimate-information Filtering System using Artificial Intelligent Technology)

  • 문정경
    • 융합보안논문지
    • /
    • 제21권1호
    • /
    • pp.115-120
    • /
    • 2021
  • 최근 온라인을 중심으로 광고를 수행하고 오프라인에서 실제로 물건을 매매하는 O2O 기반의 부동산중개 웹 사이트 혹은 앱이 폭발적으로 증가하고 있는 추세이다. 이로 인해서 기존의 오프라인 기반의 부동산중개 환경에서 온라인 기반으로 환경이 변화됨으로써 소비자들이 시간, 비용, 편리성 측면에서 매우 높은 호감을 얻고 있다. 하지만, 온라인 기반의 부동산중개 서비스들의 편리함 이면에 잘못된 정보 또는 악의적인 허위정보로 인해서 사용자들이 시간, 금전적으로 피해를 보게 되는 경우도 자주 발생하고 있다. 그러므로 본 연구에서 O2O 기반의 부동산중개 서비스에서 발생 가능한 소비자의 피해를 줄이고자 인공지능 기술을 활용해 등록된 매물정보에 대한 진위 여부를 판별할 수 있는 허위 매물정보 필터링 시스템을 설계하였다. 제안한 연구방법을 통해서 온라인 부동산 서비스에 등록되는 매물정보에 대한 진위 여부를 판별할 수 있을 뿐만 아니라, 소비자의 시간적, 금전적 피해를 줄일 수 있음을 보였다.