• 제목/요약/키워드: 웹크롤링기술

검색결과 35건 처리시간 0.018초

소셜미디어 및 면접 영상 분석 기반 온라인 채용지원시스템 프로토타입 설계 및 구현 (Prototype Design and Development of Online Recruitment System Based on Social Media and Video Interview Analysis)

  • 조진형;강환수;유우창;박규태
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.203-209
    • /
    • 2021
  • 본 연구에서는 구직자의 채용지원 서류에 대한 진정성 검증 및 잠재 직무역량과 성향에 대한 정보여과 기능을 기반으로 효과적인 원격 채용 및 적정한 업무배치 의사결정을 지원할 수 있는 온라인 채용지원시스템 프로토타입 설계 및 구현 사례를 제안하고자 하였다. 이를 위해 구직자의 공개된 소셜미디어 정보에 대해 다차원적으로 자동 크롤링 및 분석하는 기능을 접목하여 구직자의 성향과 직무역량 정보를 도출하고, 텍스트마이닝 기법을 적용하여 채용지원 서류에 표현된 텍스트 정보 및 면접 영상 정보에 대한 지능적인 분석기능이 포함된 시스템 모델을 제안하였다. 제안하는 채용지원시스템의 효용성 검증을 위하여 프로토타입을 기반으로 주요 성능지표인 텍스트마이닝 정확도 및 면접 음성문자변환 기능 인식률 등에 대한 성능평가 실험을 진행하고 결과를 분석하였다. 제안하는 시스템은 효율적인 맞춤형 채용지원 기능이 가능하도록 지능형 웹/앱 개발에 필요한 요소기술을 융합하여 설계하였으며, 도출된 설계 사양 및 프로토타입 개발 결과를 바탕으로 상용화 구현이 된다면 인재 채용시장에서 필요한 지능형 온라인 채용시스템 기술로 확대 활용이 기대될 수 있다.

빅데이터 분석을 활용한 웰에이징 요인에 관한 연구 : 신문기사를 중심으로 (A Study on the Factors of Well-aging through Big Data Analysis : Focusing on Newspaper Articles)

  • 이종형;강경희;김용하;임효남;구진희;김광환
    • 한국산학기술학회논문지
    • /
    • 제22권5호
    • /
    • pp.354-360
    • /
    • 2021
  • 사람들은 개인의 삶의 만족을 위하여 일과 삶의 균형을 맞추며 건강하고 행복하게 살아가는 것을 희망하고 있다. 따라서 걱정 없이 행복하고 건강하게 나이가 들어가는 것을 의미하는 웰에이징(well-aging)에 대한 관심이 높아지고 있다. 본 연구는 웰에이징 관련 신문기사를 분석하여 웰에이징과 연관된 요인들을 파악하고자 하였다. 파이썬(Python) 기반의 웹 크롤링(web crawling)을 활용하여 2020년 11월까지 포탈 사이트 다음(daum)의 뉴스 서비스에 게재된 1,199편의 기사를 수집하였으며, 이중 연구 주제에 일치하는 기사 374편을 연구대상으로 선정하였다. 텍스트마이닝의 빈도분석 결과, '노인', '건강', '피부', '웰에이징', '제품', '사람', '노화', '여성', '국내', '은퇴' 등의 순서로 상위 10개의 키워드가 중요하게 파악되었다. 또한 출현 빈도가 높은 45개의 중요 키워드를 기반으로 사회 네트워크 분석을 수행한 결과 '피부-주름', '피부-노화', '노인-건강'이 강한 연결 관계를 나타났다. CONCOR 분석을 수행한 결과 45개의 중요 키워드들은 '삶과 행복', '질병과 죽음', '영양과 운동', '힐링', '헬스산업', '노화와 안티에이징', '건강', '노인서비스'의 8개 군집으로 구성되어, 신문기사들을 기반으로 나타나는 웰에이징과 관련된 요인들을 유추할 수 있었다.

비정형 데이터와 딥러닝을 활용한 내수침수 탐지기술 개발 (Development of a method for urban flooding detection using unstructured data and deep learing)

  • 이하늘;김형수;김수전;김동현;김종성
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1233-1242
    • /
    • 2021
  • 본 연구에서는 비정형 데이터인 사진자료를 이용하여 침수의 발생여부를 판단하는 모델을 개발하였다. 침수분류를 모델 개발을 위하여 CNN기반의 VGG16, VGG19을 이용하였다. 모델을 개발하기 위하여 침수사진과 침수가 발생하지 않은 사진을 웹크롤링 방법을 이용하여 사진을 수집하였다. 웹크롤링 방법을 이용하여 수집한 데이터는 노이즈 데이터가 포함되어 있기 때문에 1차적으로 본 연구와 상관없는 데이터는 소거하였으며, 2차적으로 모델 적용을 위하여 224 × 224로 사진 사이즈를 일괄 변경하였다. 또한 사진의 다양성을 위해서 사진의 각도를 변환하여 이미지 증식을 수행하였으며. 최종적으로 침수사진 2,500장과 침수가 발생하지 않은 사진 2,500장을 이용하여 학습을 수행하였다. 모델 평가결과 모델의 평균 분류성능은 97%로 나타났으며. 향후 본 연구결과를 통하여 개발된 모델을 CCTV관제센터 시스템에 탑재한다면 신속하게 침수피해에 대한 대처가 이루어 질 수 있을 것이라 판단된다.

소셜 미디어 상에서의 인공지능 관련 사회적 여론에 대한 다 범주 감성 분석 (Multi-Category Sentiment Analysis for Social Opinion Related to Artificial Intelligence on Social Media)

  • 이상원;최창욱;김동성;여운영;김종우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.51-66
    • /
    • 2018
  • 인공지능 기술의 비약적인 발전으로 인하여, 사용자의 편의성 증대를 목적으로 다양한 분야에서 관련된 제품과 서비스들의 개발이 이루어지고 있다. 이러한 기술의 발전에는 긍정적인 파급 효과에 대한 기대감이 존재하나, 향후 발생 가능한 부정적인 측면에 대한 논의도 활발히 이루어지고 있다. 예를 들어, 인공지능 기술 기반의 자율주행 자동차의 경우 안정성의 향상이라는 측면에서 많은 관심을 받고 있으나, 트롤리 딜레마, 시스템 보안 문제 등의 사회적 이슈 또한 활발히 논의되고 있다. 이에 따라, 인공지능 관련 기술의 발전과 사회적 수용을 위해서는 사회적으로 논의되는 주요 관련 이슈들에 대한 확인과 효과적인 분석이 요구된다. 이를 위해, 본 연구에서는 '이세돌 vs 알파고' 시점인 2016년 3월을 포함하여 2016년 1월부터 2017년 12월까지 2년 동안의 인공지능과 관련된 사회적인 이슈들을 파악하고 온라인상에서 발생되는 사회적 여론에 대하여 다 범주 감성을 분석하고자 한다. 이를 위하여 국내 대표적인 포털 사이트에서 인공지능 관련 뉴스의 수와 관련된 뉴스 제목, 뉴스의 댓글을 웹 크롤링(Web Crawling) 하였다. 사회적 여론에 대한 다 범주 감성 분석은 논의되는 이슈들의 중요성을 고려하여 단순 긍정 또는 부정이 아닌, 분노, 혐오, 두려움, 행복, 중립, 슬픔, 놀라움의 7가지 다 범주 감성으로 분석하였다. 분석 결과, 대부분의 이벤트 기간에 대하여 1위 감성은 '행복'으로 나타났지만 각 키워드에 대하여 나오는 감성이 상이함을 볼 수 있었다. 또한 2016년 상반기, 하반기, 2017년 상반기, 하반기로 나누어 보았을 때 시간이 지남에 따라 '분노'의 감성이 낮아짐을 확인하였다. 이러한 분석 결과를 바탕으로 인공지능과 관련하여 현재 논의되고 있는 다양한 이슈와 동향 파악이 가능하며, 이에 대한 대응 방안 마련에 활용이 가능할 것이다. 향후 감성 분석기의 성능 향상과 댓글에 대한 공감 및 비공감도의 가중치를 추가하여 분석한다면 사회적 여론을 보다 세밀하게 파악 할 수 있을 것이다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.