• 제목/요약/키워드: 데이터 추세 분석

검색결과 712건 처리시간 0.026초

빅데이터 분석 도구 R 언어를 이용한 비정형 데이터 시각화 (Visualizing Unstructured Data using a Big Data Analytical Tool R Language)

  • 남수태;진금회;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.151-154
    • /
    • 2021
  • 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 3월호 논문 21편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "데이터"가 305회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

빅데이터 분석 도구 R 언어를 이용한 논문 데이터 시각화 (Visualizing Article Material using a Big Data Analytical Tool R Language)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.326-327
    • /
    • 2021
  • 최근 빅데이터 활용은 매우 다양한 산업 분야에서 광범위하게 관심을 가지고 있다. 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 특정 학회지 논문 중에서 29편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "연구"가 743회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

텍스트 마이닝을 활용한 데이터 거버넌스 연구 동향 분석: 2009년~2021년 국내 학술지 논문을 중심으로 (The Study on Data Governance Research Trends Based on Text Mining: Based on the publication of Korean academic journals from 2009 to 2021)

  • 정선경
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.133-145
    • /
    • 2022
  • 연구 목적은 데이터 거버넌스의 연구 동향을 파악하고자 하였다. 연구 대상은 데이터 거버넌스 개념과 전략이 제시되기 시작한 2009년부터 2021년까지의 논문 158편을 대상으로 하였다. 주요 연구방법은 텍스트 마이닝을 활용하였고, 주요 방법은 빈도분석, 워트클라우드, 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 연구 결과 최빈 키워드는 정보, 빅데이터, 관리, 정책, 정부, 법률, 스마트가 확인되었다. 또한 네트워크 분석 결과 데이터 산업 정책, 데이터 거버넌스 성과, 국방, 거버넌스, 데이터 공공 등의 주제로 연관된 연구 수행이 이루어지고 있었다. 토픽 모델링을 통해 도출된 4개 토픽은 "데이터 거버넌스 정책", "데이터 거버넌스 플랫폼", "데이터 거버넌스 관련 법률", "데이터 거버넌스 구현"이며, 이중 "데이터 거버넌스 플랫폼" 관련 연구는 증가 추세를 보였고, "데이터 거버넌스 구현"은 축소되고 있는 경향이었다. 본 연구는 데이터 거버넌스 관련 연구를 종합적으로 정리하였다. 데이터 거버넌스는 조직 차원의 데이터 경영 및 데이터 통합 정책, 관련 기술 등 관련 분야와 다양한 시각에서 연구영역 확대가 필요하다. 향후 해외데이터 거버넌스들을 대상으로 한 분석 대상을 확대하고 4차산업혁명, 인공지능, 메타버스 등 데이터 기반 미래 산업이 요구되는 산업 분야에서의 연구 방향과 정책 방향 수립 관련 후속 연구를 기대할 수 있다.

토픽 성장 분석을 통한 오픈액세스 분야 연구 동향 분석 (Understanding Research Trends of Open Access via Topic Growth Analysis)

  • 정재민;김완종
    • 정보관리학회지
    • /
    • 제39권4호
    • /
    • pp.75-97
    • /
    • 2022
  • 전통적인 학술 커뮤니케이션 체제의 문제점을 해결하기 위한 대안으로 오픈액세스 패러다임에 대한 국제적 관심과 확산이 지속되고 있다. 하지만 데이터 기반의 정량적인 방법을 통해 오픈액세스 분야의 글로벌한 동향이나 성장 추세를 파악하려는 노력은 아직까지 부족한 실정이다. 본 연구는 오픈액세스 분야의 학술논문 데이터에 토픽 모델링을 적용하여 세부 연구토픽을 식별하고, 성장곡선을 적합하여 각 연구토픽의 성숙도와 예상 잔여수명을 계산한다. 본 연구는 오픈 사이언스의 세 가지 핵심요소인 오픈액세스, 오픈데이터, 오픈협업과 관련된 14개 토픽들을 식별하였으며, 오픈액세스 분야가 앞으로 약 65년간 꾸준히 성장할 것으로 예상하였다. 본 연구의 분석 결과는 연구자들과 정책 의사결정자들이 오픈액세스 분야의 동향과 성장 추세를 이해하는 데 도움을 줄 수 있을 것으로 기대된다.

이동 평균 기반 동적 시간 와핑 기법을 이용한 시계열 키워드 데이터의 분류 성능 개선 방안 (Enhancing Classification Performance of Temporal Keyword Data by Using Moving Average-based Dynamic Time Warping Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.83-105
    • /
    • 2019
  • 본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

EPDO에 영향을 미치는 고속도로 교통사고 요인분석에 관한 연구 (A Study on the Factor of Highway Traffic Accidents Affecting the EPDO)

  • 윤병조;이소연;정소연
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2017년 정기학술대회
    • /
    • pp.251-252
    • /
    • 2017
  • 현재 우리나라는 자동차 수의 폭발적인 증가에도 불구하고 전체적인 교통사고 건수는 감소되는 추세를 보이고 있는데 반해 고속도로에서 발생하는 사고는 증가 추세를 보이고 있다. 따라서 고속도로의 사고 특성을 파악하여 사고를 감소시키기 위한 다양한 연구가 많이 진행되고 있다. 하지만 다양한 사고 유발요인들과 사고 데이터 제공의 한계로 인해 고속도로 교통사고의 특성에 대해 명확히 규명한 연구는 부족한 실정이다. 본 연구에서는 전국고속도로 3개년도(2013~2015)의 자료를 활용하여 전국 고속도로 교통사고의 특성을 파악하고 사고건당 EPDO(Equivalent Property Damage Only)를 계산하여 EPDO 값과 사고원인별, 도로 기하구조별, 기상조건, 운전자 성별, 나이대별 등 여러 사고 조건과의 상관관계를 회귀분석을 통해 분석하였다.

  • PDF

탄소 배출량으로 인한 기후변화 분석 (Analysis of Climate Change due to Carbon Emissions)

  • 조성우;백재순;김성진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.171-172
    • /
    • 2024
  • 본 논문은 대기 중 탄소 배출로 인한 기후 변화의 분석과 개선 방안을 목적으로 하고 있다. 이 연구는 탄소 배출이 1990년부터 2020년까지 어떻게 변해왔는지를 분석하여, 세계적으로 탄소 절감을 위한 노력으로 18년도부터 탄소 배출량이 점진적으로 감소하는 추세를 확인하였다. 이러한 추세는 앞으로의 탄소 배출으로 인한 기후 변화를 예측하는 데 중요한 정보를 제공한다. 또한, 이를 통해 재산 피해를 최소화하기 위한 예측을 수행하였다. 이러한 연구 결과는 탄소 배출이 줄어들면서 기후 변화의 미래에 긍정적인 영향을 미칠 수 있음을 시사한다. 추가적으로, 더 나은 대기 환경을 위한 노력과 기술적 개선이 필요하며, 이는 우리의 지구를 보다 지속 가능한 방향으로 이끌어 갈 것이다.

  • PDF

데이터센터 네트워크의 지연시간 분석 (An Analysis of Network Latency on Datacenters)

  • 오상훈;심재균;이석한;안정호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.6-9
    • /
    • 2015
  • 유무선 네트워크 기술의 급격한 발전 및 개인용 휴대 장치의 보급 증가와 그에 맞물린 소셜네트워크 서비스 등의 활성화로 인해 데이터의 전송량이 폭발적으로 늘어나고 있으며, 이러한 추세는 향후 지속될 것으로 전망된다. 이에 데이터센터의 수요가 증가하고 있으며, 확장 및 유지보수가 쉬우면서도 높은 성능을 갖는 시스템에 대한 요구가 높아지고 있다. 본 논문에서는 데이터센터 네트워크의 구성요소를 분석하고 각각의 지연시간을 알아보았으며, 그 중 확장 및 유지보수가 쉬우나 상대적으로 지연시간이 높은 이더넷을 데이터센터에 적용하였을 때 지연시간 개선을 위한 방법으로 Intel DPDK를 적용할 경우, 미적용시와 비교하여 약 86%의 지연시간 감소를 확인하였고, 추가 향상 방안을 조망하였다.

5G 주파수 동향

  • 김대중;홍인기
    • 정보와 통신
    • /
    • 제30권12호
    • /
    • pp.17-24
    • /
    • 2013
  • 본고에서는 세계전파통신회의(WRC: World Radio Conference)에서 IMT로 지정된 주파수 현황과 국내 이동통신 주파수 현황 및 계획을 알아본다. 또한 현재 시점에서 데이터 트래픽 증가 추세에 비추어 2020년 Beyond4G(5G)시대를 대비한 ITU(국제전기통신연합) 해당 표준화그룹의 소요량 예측 및 통신방식별 분담 율을 분석하였다. 주파수 수요예측에 따라 WRC-15에서 IMT 추가 주파수 지정 목적으로 진행하고 있는 위성, 방송, 과학 및 고정 등 기존업무와의 공유 연구 진행현황을 주파수 대역별로 살펴본다. 또한 도시 밀집 지역에서 대용량 데이터 전송을 위한 서비스 기술이 중요해진 시점에서 Beyond4G(5G) 시대를 위해 우리나라가 주도하고 있는 6GHz 이상 대역을 IMT로 활용하기 위한 활동을 소개한다. 마지막으로 WRC가 주파수를 분배 할당하는 방식인 '주파수 대역에 서비스 방식 지정'과 달리 '서비스 방식에 의한 주파수 대역 점유(예: LTE 기술표준(PS-LTE)을 PPDR대역에서 활용) 가능성'등 LTE 기술표준의 확산 추세에 대응하기 위해 5G시대에 준비할 사항에 대한 시사점을 언급하였다.

빅데이터를 활용한 미세먼지와 질병 간의 상관관계 분석 (Analysis of the Correlation between Fine Dust and Disease Using Big Data)

  • 남경윤;문소영;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.368-370
    • /
    • 2022
  • WHO 산하의 국제암연구소는 2013 년부터 미세먼지를 1 급 발암 물질로 분류하고 있으며 미세먼지 노출에 대한 질병 발생의 심각성은 점점 수면 위로 드러나고 있는 추세다. 본 연구에서는 국민건강보험공단의 진료 내역 정보 데이터와 2015 년부터 2021 년까지의 미세먼지 및 초미세먼지 월 평균 농도 데이터를 이용하여 미세먼지 및 초미세먼지 농도와 순환기계와 호흡기계 질병 간의 상관 관계를 보이고, 연관성있는 질병을 찾아내었다. 이를 위해 시계열분석, 상관분석, 빈도분석을 시행하였으며 실험 결과 호흡기질환에서는 급성 부비동염, 코의 농양 등의 질병과 순환기질환에서는 상세불명의 원발성 고혈압, 폐색전증이 상관관계가 높은 질병으로 판명되었다.