• 제목/요약/키워드: 빅 데이터 패턴 분석

검색결과 197건 처리시간 0.029초

과학기술정보 서비스 플랫폼에서의 빅데이터 분석을 통한 개인화 추천서비스 설계 (Personal Recommendation Service Design Through Big Data Analysis on Science Technology Information Service Platform)

  • 김도균
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.501-518
    • /
    • 2017
  • 연구자들에게 지식을 습득하여 연구 활동에 도입하는데 걸리는 소요시간을 단축하는 것은 연구생산성 향상에 필수적인 요소라고 할 수 있다. 본 연구의 목적은 한민족과학기술자네트워크(KOSEN) 사용자들의 정보 이용 패턴을 군집화하고 그룹화 된 사용자들에게 맞는 개인화 추천서비스 알고리즘의 최적화 방안을 제안하는 것이다. 사용자들의 연구활동과 이용정보에 기반하여 적합한 서비스와 콘텐츠를 식별한 후 Spark 기반의 빅데이터 분석 기술을 적용하여 개인화 추천 알고리즘을 도출하였다. 개인화 추천 알고리즘은 사용자의 정보검색에 소요되는 시간을 절약하고 적합한 정보를 찾아내는데 도움을 줄 수 있다.

빅 데이터 기반의 체납 수용가 예측 모델 (Prediction Model for Unpaid Customers Using Big Data)

  • 정재안;이규환;정회경
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.827-833
    • /
    • 2020
  • 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.

빅데이터를 이용한 폭염과 하천수질의 공간적 영향 평가 (Spatial Impact Assessment of Heat Wave on River Water Quality using Big Data)

  • 이지완;임혁진;신형진;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.87-87
    • /
    • 2021
  • 이상기후 현상으로 기후변화가 사회와 경제에 미치는 영향이 뚜렷한 추세로 변화되고 있다. 현재 기후변화에 관련된 연구는 사회 시스템에서 위험관리를 위해 기온과 강수량에 따라 다양한 분야에 미치는 영향에 대한 연구를 중점으로 이뤄지고 있다. 본 연구는 여름철 폭염에 의한 기후변화가 하천수질에 미치는 영향을 평가하기 위한 것으로, 우리나라 기상청 91개의 기상관측소에서 일일온도 33℃ 이상의 이벤트를 대상으로 환경부 수질관측망 918개에 대한 14개의 하천수질인자인 DO, BOD, COD, TOC, DOC, TN, DTN, NH4-N, NO2-N, NO3-N, TP, DTP, PO4-P, Chl-a를 분석하였다. 이를 우리나라 117개 중권역별 하천수질과 폭염강도와 지속시간을 나타내는 폭염 지수를 산정하여 분석하였다. 폭염 관련 뉴스 데이터는 2013년부터 2019년까지 Python 기반 뉴스 크롤러를 이용해 폭염 취약지수(Heat Wave Vulnerability Index, HWVI)를 기준으로 분류하여 키워드를 수집하였으며 HWVI 중 '기후노출' 키워드와 관련된 기사는 총 22,514건으로 69.9%로 수집되었다. 공간적 영향 평가를 위해 Getis-Ord Gi*를 이용하여 폭염지수와 하천수질인자간 핫스팟 분석을 실시하고 폭염관련 빅데이터가 하천수질에 미치는 영향을 평가하였다. 폭염지수는 낙동강유역 하류에 대해 Chl-a, TN, TP 항목에서 높은 밀도를 보였다. 분석대상지역 내 폭염이 발생한 확률과 반경 밖에서 발생할 확률의 우도비를 분석하기 위해 SaTScan을 이용한 공간검색통계분석을 실시하였다. 분석결과 폭염지수와 DO의 공간상관성이 높은 것으로 나타났다.

  • PDF

통신사 빅데이터를 활용한 코로나 전염병 전후 대구 대학가 유동인구 분석 - 서울과의 비교를 중심으로 (Using Mobile Phone Data, Analyzing Floating Population Near University Areas in Daegu, South Korea, before and after Covid-19 - with a focus on Comparisons with Seoul)

  • 김재훈;손지훈;박한우
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.62-70
    • /
    • 2022
  • 이 연구는 통신사 유동인구 데이터를 활용하여 코로나 기간 전후 대구의 대학가 유동인구 변화를 집중적으로 분석하였다. 이 과정에서 서울 대학가와 비교하면서, 대구에서 나타난 현상의 특징을 파악하였다. 연구 대상은 비슷한 재학생 수를 지닌 경북대와 고려대로 선정하였다. 통신사 데이터를 제공하는 공공 웹사이트에서 각 대학 소재지 인근의 유동인구를 수집하였다. 데이터를 시각화하여 두 도시 간 유동인구에서 나타난 차이를 분석하였다. 통계적 검정을 위해 T-검정을 실시하였다. 마지막으로 시간에 따른 변화를 확인하기 위해 기간을 나누어 선형회귀 분석을 실시하였다. 그 결과, 2020년 상반기에서는 두 도시의 패턴이 유사하였지만, 하반기 코로나의 확산세가 안정된 대구는 유동인구가 2019년 대비 오히려 증가하였고 서울은 감소한 형태를 나타냈으며, 단기적인 선형성 또한 관찰할 수 있었다. 연구를 통해서 도시의 특성과 코로나의 확산 정도 등에 따라 유동인구가 변화하는 패턴을 확인하였다.

영상 스토리 분석과 시청 패턴 분석 기반의 추천 시스템 구현 (Implementation of User Recommendation System based on Video Contents Story Analysis and Viewing Pattern Analysis)

  • 이현섭;김민영;이지훈;김진덕
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1567-1573
    • /
    • 2020
  • 인터넷 기술의 발전으로 1인 미디어 시대로 도래했다. 한 개인이 스스로 콘텐츠를 제작하여 관련 온라인 서비스로 업로드 하고, 많은 사용자가 온라인 서비스의 콘텐츠를 인터넷을 이용할 수 있는 장치(PC, 스마트폰, 스마트TV 등)를 이용해 시청하고 있다. 현재 대부분 사용자가 기존 온라인 서비스에서 제공하는 검색기능을 통해 원하는 콘텐츠를 찾아서 시청하고 있다. 이러한 기능은 콘텐츠를 업로드 한 사용자가 입력한 정보를 바탕으로 제공된다. 이러한 제한된 단어 데이터를 바탕으로 콘텐츠를 검색해야 하는 환경에서 잘못된 정보가 있는 경우 검색 결과의 유사도 효율 저하와 잘못된 결과를 사용자에게 제시한다. 이를 해결하기 위해 본 논문에서는 온라인 서비스에서 콘텐츠 정보를 시스템이 능동적으로 영상을 분석하고, 영상이 보유한 특성을 추출해 반영하는 방법을 제시한다. 한 동영상의 음성데이터를 근거한 스토리 내용을 근거로 형태소를 추출해 빅데이터 기술로 분석하기 위한 연구 내용을 다룬다.

K-means 알고리즘과 GBR 알고리즘을 이용한 정수장 응집제 투입률 결정 기법 (Determination of coagulant input rate in water purification plant using K-means algorithm and GBR algorithm)

  • 김진영;강복선;정회경
    • 한국정보통신학회논문지
    • /
    • 제25권6호
    • /
    • pp.792-798
    • /
    • 2021
  • 본 논문에서는 인공지능 기반의 빅데이터 분석과 예측을 통하여 정수장의 공정 중 약품투입곤정에서 응집제 투입률을 결정하는 알고리즘을 도출하였다. 또한, 빅데이터 기술 및 인공지능 알고리즘 적용 방법에 대한 분석 및 기존의 학문적, 기술적 자료를 검토하여 유사 분야 적용 사례를 분석 검토하였다. 이를 통한 최적 응집제 투입률 제시를 목표로 운영 근무자의 의사결정 패턴을 입력 변수와 출력변수의 관계 패턴으로 학습한 후 학습된 패턴을 실제 응집제 주입 공정에 적용하여 침전수 탁도가 목표치에 근사한 일정 수준을 유지할 수 있도록 운영이 가능하였다. 데이터 범위 산정과 전처리를 거친 변수를 선정하여 알고리즘 수행을 준비한 후 군집화와 분류 알고리즘을 적용하여 알고리즘 수행과 결과에 대한 피드백을 반복하여 학습을 진행하였다.

공공 데이터의 빅데이터 분석을 통한 사회 안전망 시스템 (Social Safety Systems through Big Data Analysis of Public Data)

  • 이선의;정준희;차경현;손기준;김상지;김진영
    • 한국위성정보통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.77-82
    • /
    • 2015
  • 본 논문은 빅 데이터 분석을 이용하여 산악 안전사고를 예방하기 위하여 사고 예측 모델을 제시하였다. 산악 안전사고의 축적된 데이터를 파악하기 쉽게 그래프로 나타내었다. 사고가 발생하는 패턴을 알기 위하여 산악 안전사고 발생 건수의 연도별 분석, 연간 월별 사고 발생 건수, 요일별, 시간대별 분석을 수행하였다. 나타낸 그래프를 이용하여 산악 안전사고의 영향을 미치는 변수들을 가중치 모델링을 통하여 사고 예측 모델을 구성하였다. 산악 지역의 사고 다발 구역에 제시한 모델을 적용하여 예측 모델의 성능을 검정하였다.

빅데이터 분석을 활용한 콜라겐 섭취가 피부에 미치는 영향에 관한 메타분석 (A Meta-Analysis of Influencing Collagen Intake on Skin Utilizing Big Data)

  • 진찬용;유옥경;남수태
    • 한국정보통신학회논문지
    • /
    • 제20권11호
    • /
    • pp.2033-2038
    • /
    • 2016
  • 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 메타분석은 유의성 검정이라 하기보다는 예측변수가 종속변수에 미치는 영향의 크기가 중요한 이슈이다. 따라서 본 연구는 2000년-2016년 사이 콜라겐 섭취가 피부에 미치는 영향에 관한 관련 주제로 출판된 연구 6개 논문 236개 샘플을 대상으로 하였다. 연구결과를 요약하면 다음과 같다. 첫째, 피지 사전사후 경로에서 가장 큰 효과크기 (r = .412)를 가지는 것으로 나타났다. 따라서 콜라겐 섭취 중재는 약 17 (%) 설명력을 가지는 것으로 나타났다. 다음으로, 수분 사전사후 경로에서는 효과크기 (r = .318)를 가지는 것으로 나타났다. 분석결과를 바탕으로 연구의 한계와 시사점을 제시하였다.

GPS 위치정보를 활용한 친수공원 이용객 수 추정방법 연구 (Estimating the Method of the Number of Visitors of Water-friendly Park Using GPS Location Information)

  • 김성준;김태정;김창성
    • Ecology and Resilient Infrastructure
    • /
    • 제7권3호
    • /
    • pp.171-180
    • /
    • 2020
  • 산업화 및 도시화가 가중됨에 따라서 여가생활을 위한 공간 희소성이 부각되고 있다. 하천 주변의 수변공간이 제공하는 자연경관 및 생태체험 등의 기회는 지역사회의 발전과 친수공원 조성을 조성하는데 근간이 되는 요소이다. 이러한 하천 공간을 이용하는 이용객을 정량적으로 파악하는데 있어 과거에는 인력을 동원하여 현장조사를 수행하였으나 경비, 인력 및 시공간적인 제약이 발생하여 결과물의 정확성이 확보되지 못하는 문제점이 있다. 본 연구에서는 이러한 문제점을 극복하고자 위치정보를 활용한 친수공원 이용객 추정을 수행하였다. 연구대상지역은 낙동강 하류에 위치한 삼락생태공원과 대저생태공원이다. 통신 빅 데이터를 활용한 이용객 패턴과 GPS 위치정보를 기반으로 한 이용객 패턴을 비교·분석하였다. GPS 위치정보는 Google Popular Times와 카카오 방문자 데이터를 활용하였다. GPS 위치정보 데이터를 활용했을 때 통신 빅 데이터를 활용한 결과보다 주중과 주말 이용객에 대한 패턴이 뚜렷하였다. 따라서 향후 통신 빅 데이터를 이용할 때 pCELL 크기의 정밀화 및 체류시간 30분 이상의 조건으로 이용객 수를 추출한다면 GPS 위치정보의 결과와 유사할 것으로 예상된다. 또한 개인정보 보호법 등 개정이 이루어져 보다 정확한 데이터를 추출한다면 GPS 기반으로 이용객 수를 추정하는 것이 더 정확한 이용객 수의 지표를 산정할 수 있을 것으로 판단된다.