• Title/Summary/Keyword: 빅 데이터 패턴 분석

Search Result 195, Processing Time 0.033 seconds

Recent Technique Analysis, Infant Commodity Pattern Analysis Scenario and Performance Analysis of Incremental Weighted Maximal Representative Pattern Mining (점진적 가중화 맥시멀 대표 패턴 마이닝의 최신 기법 분석, 유아들의 물품 패턴 분석 시나리오 및 성능 분석)

  • Yun, Unil;Yun, Eunmi
    • Journal of Internet Computing and Services
    • /
    • v.21 no.2
    • /
    • pp.39-48
    • /
    • 2020
  • Data mining techniques have been suggested to find efficiently meaningful and useful information. Especially, in the big data environments, as data becomes accumulated in several applications, related pattern mining methods have been proposed. Recently, instead of analyzing not only static data stored already in files or databases, mining dynamic data incrementally generated in a real time is considered as more interesting research areas because these dynamic data can be only one time read. With this reason, researches of how these dynamic data are mined efficiently have been studied. Moreover, approaches of mining representative patterns such as maximal pattern mining have been proposed since a huge number of result patterns as mining results are generated. As another issue, to discover more meaningful patterns in real world, weights of items in weighted pattern mining have been used, In real situation, profits, costs, and so on of items can be utilized as weights. In this paper, we analyzed weighted maximal pattern mining approaches for data generated incrementally. Maximal representative pattern mining techniques, and incremental pattern mining methods. And then, the application scenarios for analyzing the required commodity patterns in infants are presented by applying weighting representative pattern mining. Furthermore, the performance of state-of-the-art algorithms have been evaluated. As a result, we show that incremental weighted maximal pattern mining technique has better performance than incremental weighted pattern mining and weighted maximal pattern mining.

Design and Implementation of a Real -Time Analytics System for Network Packet Trend Analysis (네트워크 패킷 트랜드 분석을 위한 실시간 스트림 데이터 분석 시스템 설계 및 구현)

  • Park, Seoeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.72-75
    • /
    • 2016
  • 스마트폰, 센서, 소셜미디어, 웹 서비스 등으로부터 발생되는 데이터의 폭증으로 인하여 빅데이터의 분석 및 활용에 대한 요구가 커져가고 있다. 특히 스마트 기기의 발달과 사용자 이용 패턴의 변화로 인하여 스트림 데이터는 끊임없이 발생되고 있지만, 기존의 하둡을 이용한 분석 시스템은 응답시간이 지연되어 빠르게 결과를 조회할 수 없는 단점으로 인하여 데이터를 실시간으로 분석하여 바로 활용할 수 있는 시스템에 대한 요구가 점점 더 증가하면서 람다 아키텍쳐가 등장하였다. 람다 아키텍쳐는 데이터 처리 과정을 배치 레이어와 스피트 레이어로 나누고, 스피드 레이어에서는 배치 결과가 나오기 전까지 스트림으로 유입되는 데이터를 실시간으로 분석하여 가장 최근의 데이터를 빠르게 조회 할 수 있도록 결과를 제공한다. 본 논문에서는 람다 아키텍쳐를 활용하여 연속적으로 유입되는 대용량의 스트림 데이터를 효과적으로 처리하여 실시간 분석과 동시에 배치 분석을 제공하는 데이터 처리 시스템을 설계하고 구현한다.

Design and Implementation of a Big Data Analytics Framework based on Cargo DTG Data for Crackdown on Overloaded Trucks

  • Kim, Bum-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.12
    • /
    • pp.67-74
    • /
    • 2019
  • In this paper, we design and implement an analytics platform based on bulk cargo DTG data for crackdown on overloaded trucks. DTG(digital tachograph) is a device that stores the driving record in real time; that is, it is a device that records the vehicle driving related data such as GPS, speed, RPM, braking, and moving distance of the vehicle in one second unit. The fast processing of DTG data is essential for finding vehicle driving patterns and analytics. In particular, a big data analytics platform is required for preprocessing and converting large amounts of DTG data. In this paper, we implement a big data analytics framework based on cargo DTG data using Spark, which is an open source-based big data framework for crackdown on overloaded trucks. As the result of implementation, our proposed platform converts real large cargo DTG data sets into GIS data, and these are visualized by a map. It also recommends crackdown points.

A Study on data pre-processing for rainfall estimation from CCTV videos (CCTV 영상 기반 강수량 산정을 위한 데이터 전처리 방안 연구)

  • Byun, Jongyun;Jun, Changhyun;Lee, Jinwook;Kim, Hyeonjun;Cha, Hoyoung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.167-167
    • /
    • 2022
  • 최근 빅데이터에 관련된 연구에 있어 데이터의 품질관리에 대한 논의가 꾸준히 이뤄져 오고 있다. 특히 이미지 처리 및 분석에 활용되어온 딥러닝 기술의 경우, 분류 작업 및 패턴인식 등으로부터 데이터의 특징을 추출함으로써 비지도학습(Unsupervised Learning)을 가능하게 한다는 장점이 있음에도 불구하고 빅데이터를 다루는 과정에 있어 용량, 다양성, 속도 및 신뢰성 측면에서의 한계가 있었다. 본 연구에서는 CCTV 영상을 활용한 강수량 산정 모델 개발에 있어 예측 정확도 향상 및 성능 개선을 도모할 수 있는 데이터 전처리 방법을 제안하였다. 서울 근린 AWS 4개소 지역(김포장기, 하남덕풍, 강동, 성남) 및 중앙대학교 지점 내 CCTV를 설치한 후, 최대 9개월의 영상을 확보하여 강수량 산정을 위한 딥러닝 모델을 개발하였다. 배경분리, 조도조정, 영역설정, 데이터증진, 이상데이터 분류 등이 가능한 알고리즘을 개발함으로써 데이터셋 자체에 대한 전처리 작업을 수행한 후, 이에 대한 결과를 기존 관측자료와 비교·분석하였다. 본 연구에서 제안한 전처리 방법들을 적용한 결과, 강수량 산정 모델의 예측 정확도를 평가하는 지표로 선정한 평균 제곱근 편차(Root Mean Square Error; RMSE)가 약 30% 감소함을 확인하였다. 본 연구의 결과로부터 CCTV 영상 데이터를 활용한 강수량 산정의 가능성을 확인할 수 있었으며 특히, 딥러닝 모델 개발시 필요한 적정 전처리 방법들에 대한 기준을 제시할 수 있을 것으로 판단된다.

  • PDF

For Gene Disease Analysis using Data Mining Implement MKSV System (데이터마이닝을 활용한 유전자 질병 분석을 위한 MKSV시스템 구현)

  • Jeong, Yu-Jeong;Choi, Kwang-Mi
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.14 no.4
    • /
    • pp.781-786
    • /
    • 2019
  • We should give a realistic value on the large amounts of relevant data obtained from these studies to achieve effective objectives of the disease study which is dealing with various vital phenomenon today. In this paper, the proposed MKSV algorithm is estimated by optimal probability distribution, and the input pattern is determined. After classifying it into data mining, it is possible to obtain efficient computational quantity and recognition rate. MKSV algorithm is useful for studying the relationship between disease and gene in the present society by simulating the probabilistic flow of gene data and showing fast and effective performance improvement to classify data through the data mining process of big data.

Personalized Service using Local-Storage in HTML5 (HTML5의 Local-Storage를 이용한 개인화 서비스 제공 연구)

  • Kim, Min-Su;Lee, Gyu-Seok;Choi, Jin-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.981-984
    • /
    • 2015
  • 최근 온라인 마케팅 트렌드는 개인화된 서비스의 제공이다. 인터넷 환경의 대중화와 SNS(Social Networking Service), 모바일 환경의 보급으로 사용자는 쉽게 정보에 노출된다. 이런 환경에서 웹사이트나 애플리케이션, SNS에 대해 사용자의 패턴과 관심사를 분석하여 개인화된 서비스를 제공하게 된다. 데이터 분석은 빅 데이터 환경으로 분석되며 이렇게 분석된 개인화 정보는 사용자와 연관성이 높은 정보를 노출함으로 인해 효율적인 정보의 소비와 더불어 마케팅 효과를 누릴 수 있고, 온라인 서비스나 애플리케이션 제공자에게 사용자도 모르게 제공된 개인의 정보 소비 패턴으로 나타내어진다. 현재 널리 사용되고 있는 서버에 저장된 개인화 데이터는 보안적으로 해킹에 취약할 수 있고, 관리하는 서비스 제공자에게 있어서도 유지보수에 비용이 발생함과 동시에 사용자의 개인정보를 과도하게 수집하게 되는 우려가 나타난다. 개인화 서비스 제공의 단점을 극복하고자 HTML5 Local-Storage 기능을 사용하여 브라우저 환경에서 웹 기반 서비스를 이용하는 사용자의 정보이용 패턴을 저장하여 데이터를 사용자 측면의 저장소에 보관함으로 보다 안전하고 적은 비용으로 개인화 서비스를 제공할 수 있다.

Design of the student Career prediction program using the decision tree algorithm (의사결정트리 알고리즘을 이용한 학생진로 예측 프로그램의 설계)

  • Kim, Geun-Ho;Jeong, Chong-In;Kim, Chang-Seok;Kang, Shin-Chun;Kim, Eui-Jeong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.05a
    • /
    • pp.332-335
    • /
    • 2018
  • In recent years, artificial intelligence using big data has become a big issue in IT. Various studies are being conducted on services or technologies to effectively handle big data. The educational field, there is big data about students, but it is only a simple process to collect, lookup and store such data. In the future, it makes extensive use of artificial intelligence, machine learning, and statistical analysis to find meaningful rules, patterns, and relationships in the big data of the educational field, and to produce intelligent and useful data for the actual students. Accordingly, this study aims to design a program to predict the career of students using a decision tree algorithm based on the data from the student's classroom observations. Through a career prediction program, it is believed to be helpful to present application paths to students ' counseling and to also provide classroom behavior and direction based on the desired courses.

  • PDF

Implementation of a pet product recommendation system using big data (빅 데이터를 활용한 애완동물 상품 추천 시스템 구현)

  • Kim, Sam-Taek
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.11
    • /
    • pp.19-24
    • /
    • 2020
  • Recently, due to the rapid increase of pets, there is a need for an integrated pet-related personalized product recommendation service such as feed recommendation using a health status check of pets and various collected data. This paper implements a product recommendation system that can perform various personalized services such as collection, pre-processing, analysis, and management of pet-related data using big data. First, the sensor information worn by pets, customer purchase patterns, and SNS information are collected and stored in a database, and a platform capable of customized personalized recommendation services such as feed production and pet health management is implemented using statistical analysis. The platform can provide information to customers by outputting similarity product information about the product to be analyzed and information, and finally outputting the result of recommendation analysis.

Clustering Algorithm using the DFP-Tree based on the MapReduce (맵리듀스 기반 DFP-Tree를 이용한 클러스터링 알고리즘)

  • Seo, Young-Won;Kim, Chang-soo
    • Journal of Internet Computing and Services
    • /
    • v.16 no.6
    • /
    • pp.23-30
    • /
    • 2015
  • As BigData is issued, many applications that operate based on the results of data analysis have been developed, typically applications are products recommend service of e-commerce application service system, search service on the search engine service and friend list recommend system of social network service. In this paper, we suggests a decision frequent pattern tree that is combined the origin frequent pattern tree that is mining similar pattern to appear in the data set of the existing data mining techniques and decision tree based on the theory of computer science. The decision frequent pattern tree algorithm improves about problem of frequent pattern tree that have to make some a lot's pattern so it is to hard to analyze about data. We also proposes to model for a Mapredue framework that is a programming model to help to operate in distributed environment.