• 제목/요약/키워드: Big data processing

검색결과 1,057건 처리시간 0.024초

Development Problems and Countermeasures of Rural E-Commerce Logistics in the Context of Big Data and Internet of Things

  • Xianfeng Zhu
    • Journal of Information Processing Systems
    • /
    • 제19권2호
    • /
    • pp.267-274
    • /
    • 2023
  • As the Internet has expanded and the continuous expansion of online shopping in China, many rural areas also have sales outlets. Due to the impact of economic conditions, rural locations have inadequate e-commerce logistical infrastructure, the number of outlets is small, and each other is in a decentralized state. For various reasons, the advancement of rural e-commerce logistics lags far behind that in urban areas. As the Internet of Things with big data grow in popularity, we can create and enhance the assurance system for the booming ecommerce in rural areas by building the support system of rural online shopping platform, and strengthening the joint distribution of logistics terminals based on data mining, so as to encourage the quick and healthy growth of rural online shopping.

빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향 (Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.547-552
    • /
    • 2019
  • 최근, 빅데이터 분야에서는 빅 데이터의 양적 팽창이 주요 이슈로 떠오르고 있다. 더군다나 이러한 빅데이터는 기계학습의 입력값으로 사용되어지고 있으며 이들의 성능을 향상시키기 위해 정규화 전처리가 필요하다. 이러한 성능은 빅데이터 컬럼의 범위나 정규화 전처리 방식에 따라 크게 좌우된다. 본 논문에서는 다양한 종류의 정규화 전처리 방식과 빅데이터 컬럼의 범위를 조절하면서 서포트벡터머신(SVM)의 기계학습방식에 적용함으로써 더욱 효과적인 정규화 전처리 방식을 파악하고자 하였다. 이를 위하여 파이썬언어와 주피터 노트북 환경에서 기계학습을 수행하고 분석하였다.

Spark SQL 기반 고도 분석 지원 프레임워크 설계 (Design of Spark SQL Based Framework for Advanced Analytics)

  • 정재화
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권10호
    • /
    • pp.477-482
    • /
    • 2016
  • 기업의 신속한 의사결정 및 전략적 정책 결정을 위해 빅데이터에 대한 고도 분석이 필수적으로 요구됨에 따라 대량의 데이터를 복수의 노드에 분산하여 처리하는 하둡 또는 스파크와 같은 분산 처리 플랫폼이 주목을 받고 있다. 최근 공개된 Spark SQL은 Spark 환경에서 SQL 기반의 분산 처리 기법을 지원하고 있으나, 기계학습이나 그래프 처리와 같은 반복적 처리가 요구되는 고도 분석 분야에서는 효율적 처리가 불가능한 문제가 있다. 따라서 본 논문은 이러한 문제점을 바탕으로 Spark 환경에서 고도 분석 지원을 위한 SQL 기반의 빅데이터 최적처리 엔진설계와 처리 프레임워크를 제안한다. 복수의 조건과 다수의 조인, 집계, 소팅 연산이 필요한 복합 SQL 질의를 분산/병행적으로 처리할 수 있는 최적화 엔진과 관계형 연산을 지원하는 기계학습 최적화하기 위한 프레임워크를 설계한다.

Scalable Prediction Models for Airbnb Listing in Spark Big Data Cluster using GPU-accelerated RAPIDS

  • Muralidharan, Samyuktha;Yadav, Savita;Huh, Jungwoo;Lee, Sanghoon;Woo, Jongwook
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.96-102
    • /
    • 2022
  • We aim to build predictive models for Airbnb's prices using a GPU-accelerated RAPIDS in a big data cluster. The Airbnb Listings datasets are used for the predictive analysis. Several machine-learning algorithms have been adopted to build models that predict the price of Airbnb listings. We compare the results of traditional and big data approaches to machine learning for price prediction and discuss the performance of the models. We built big data models using Databricks Spark Cluster, a distributed parallel computing system. Furthermore, we implemented models using multiple GPUs using RAPIDS in the spark cluster. The model was developed using the XGBoost algorithm, whereas other models were developed using traditional central processing unit (CPU)-based algorithms. This study compared all models in terms of accuracy metrics and computing time. We observed that the XGBoost model with RAPIDS using GPUs had the highest accuracy and computing time.

RHadoop을 이용한 빅데이터 분산처리 시스템 (Big data distributed processing system using RHadoop)

  • 신지은;정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1155-1166
    • /
    • 2015
  • 기하급수적으로 증가하는 대용량 데이터를 저장, 분석하는데 기존 방식으로는 거의 불가능하여 이를 가능케 해 주는 기술이 바로 하둡이다. 최근에 R은 하둡기술을 활용하여 분산처리에 기반한 빅데이터 분석 엔진으로 활용되고 있다. 본 논문에서는 R과 하둡의 통합환경인 RHadoop을 이용하여 실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 병렬 다중 회귀분석을 구현하고자 한다. 또한, 제안된 RHadoop 플랫폼의 성능을 평가하기 위해 기본 R 패키지의 lm 함수, bigmemory 상에서 유용한 biglm 패키지와 처리 속도를 비교하였다. 실험결과 RHadoop은 데이터 노드가 많을수록 병렬처리로 인해 빠른 처리속도를 보였고 또한 대용량의 데이터에 대해 다른 패키지들보다 빠른 처리속도를 보였다.

그리드 인덱스 기법을 이용한 교통 빅데이터 맵핑 방안 연구 (A Study on Traffic Big Data Mapping Using the Grid Index Method)

  • 정규수;성홍기
    • 한국ITS학회 논문지
    • /
    • 제19권6호
    • /
    • pp.107-117
    • /
    • 2020
  • 최근 자율주행의 발달로 차량에 장착된 다양한 센서가 일반화 되고 그 센서에서 발생되는 빅 데이터는 교통 분야에서 활용도가 높아지고 있다. 본 연구에서는 이러한 교통 빅 데이터의 활용을 위해 실시간으로 발생되는 차량 센싱 빅 데이터와 도로 기상 등 공공데이터를 지도상에 효율적으로 맵핑하기 위한 그리드 인덱스 기법을 제안하였으며, 제안한 그리드 공간 분할 방식과 그리드 ID 부여 방식에 대하여 적용 가능성 및 효과를 분석하였다. 차량 센서에서 실시간 분석된 강수 데이터를 전국 화물차의 디지털 운행기록장치(DTG, Digital Tachograph) 데이터를 기반으로 가상 생성하여 좌표기반으로 맵핑하였으며, 제안 방식과 링크 단위 처리방식의 처리 속도를 비교하였다. 제안 방식은 링크 단위의 처리 방식 대비 약 2,400배 이상의 데이터 처리 성능 개선을 나타냈다. 추가로 그리드 맵핑의 적용 가능성 및 링크 단위 맵핑과의 차별성을 확인하고자 가상 생성한 데이터를 시각화하고 비교하였다.

New Medical Image Fusion Approach with Coding Based on SCD in Wireless Sensor Network

  • Zhang, De-gan;Wang, Xiang;Song, Xiao-dong
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권6호
    • /
    • pp.2384-2392
    • /
    • 2015
  • The technical development and practical applications of big-data for health is one hot topic under the banner of big-data. Big-data medical image fusion is one of key problems. A new fusion approach with coding based on Spherical Coordinate Domain (SCD) in Wireless Sensor Network (WSN) for big-data medical image is proposed in this paper. In this approach, the three high-frequency coefficients in wavelet domain of medical image are pre-processed. This pre-processing strategy can reduce the redundant ratio of big-data medical image. Firstly, the high-frequency coefficients are transformed to the spherical coordinate domain to reduce the correlation in the same scale. Then, a multi-scale model product (MSMP) is used to control the shrinkage function so as to make the small wavelet coefficients and some noise removed. The high-frequency parts in spherical coordinate domain are coded by improved SPIHT algorithm. Finally, based on the multi-scale edge of medical image, it can be fused and reconstructed. Experimental results indicate the novel approach is effective and very useful for transmission of big-data medical image(especially, in the wireless environment).

Efficient K-Anonymization Implementation with Apache Spark

  • Kim, Tae-Su;Kim, Jong Wook
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.17-24
    • /
    • 2018
  • Today, we are living in the era of data and information. With the advent of Internet of Things (IoT), the popularity of social networking sites, and the development of mobile devices, a large amount of data is being produced in diverse areas. The collection of such data generated in various area is called big data. As the importance of big data grows, there has been a growing need to share big data containing information regarding an individual entity. As big data contains sensitive information about individuals, directly releasing it for public use may violate existing privacy requirements. Thus, privacy-preserving data publishing (PPDP) has been actively studied to share big data containing personal information for public use, while preserving the privacy of the individual. K-anonymity, which is the most popular method in the area of PPDP, transforms each record in a table such that at least k records have the same values for the given quasi-identifier attributes, and thus each record is indistinguishable from other records in the same class. As the size of big data continuously getting larger, there is a growing demand for the method which can efficiently anonymize vast amount of dta. Thus, in this paper, we develop an efficient k-anonymity method by using Spark distributed framework. Experimental results show that, through the developed method, significant gains in processing time can be achieved.

풍력발전기 상태 감시를 위한 SaaS 클라우드 인프라 내 데이터 처리 알고리즘 개선 연구 (Study on Enhancement of Data Processing Algorithm in SaaS Cloud Infrastructure to Monitor Wind Turbine Condition)

  • 이광세;최정철;강민상;박사일;이진재
    • 신재생에너지
    • /
    • 제16권1호
    • /
    • pp.25-30
    • /
    • 2020
  • In this study, an SW for the analysis of the wind-turbine vibration characteristics was developed as an application of SaaS cloud infrastructure. A measurement system for power-performance, mechanical load, and gearbox vibration as type-test class was installed at a target MW-class wind turbine, and structural meta and raw data were then acquired into the cloud. Data processing algorithms were developed to provide cloud data to the SW. To operate the SW continuously, raw data was downloaded consistently based on the algorithms. During the SW test, an intermittent long time-delay occurred due to the communication load associated with frequent access to the cloud. To solve this, a compression service for the target raw data was developed in the cloud and more stable data processing was confirmed. Using the compression service, stable big data processing of wind turbines, including gearbox vibration analysis, is expected.

도로 침수영역의 탐색을 위한 빅데이터 분석 시스템 연구 (A Study on the Big Data Analysis System for Searching of the Flooded Road Areas)

  • 송영미;김창수
    • 한국멀티미디어학회논문지
    • /
    • 제18권8호
    • /
    • pp.925-934
    • /
    • 2015
  • The frequency of natural disasters because of global warming is gradually increasing, risks of flooding due to typhoon and torrential rain have also increased. Among these causes, the roads are flooded by suddenly torrential rain, and then vehicle and personal injury are happening. In this respect, because of the possibility that immersion of a road may occur in a second, it is necessary to study the rapid data collection and quick response system. Our research proposes a big data analysis system based on the collected information and a variety of system information collection methods for searching flooded road areas by torrential rains. The data related flooded roads are utilized the SNS data, meteorological data and the road link data, etc. And the big data analysis system is implemented the distributed processing system based on the Hadoop platform.