• 제목/요약/키워드: Stream Analytics

검색결과 8건 처리시간 0.073초

Multi-dimensional Query Authentication for On-line Stream Analytics

  • Chen, Xiangrui;Kim, Gyoung-Bae;Bae, Hae-Young
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제4권2호
    • /
    • pp.154-173
    • /
    • 2010
  • Database outsourcing is unavoidable in the near future. In the scenario of data stream outsourcing, the data owner continuously publishes the latest data and associated authentication information through a service provider. Clients may register queries to the service provider and verify the result's correctness, utilizing the additional authentication information. Research on On-line Stream Analytics (OLSA) is motivated by extending the data cube technology for higher multi-level abstraction on the low-level-abstracted data streams. Existing work on OLSA fails to consider the issue of database outsourcing, while previous work on stream authentication does not support OLSA. To close this gap and solve the problem of OLSA query authentication while outsourcing data streams, we propose MDAHRB and MDAHB, two multi-dimensional authentication approaches. They are based on the general data model for OLSA, the stream cube. First, we improve the data structure of the H-tree, which is used to store the stream cube. Then, we design and implement two authentication schemes based on the improved H-trees, the HRB- and HB-trees, in accordance with the main stream query authentication framework for database outsourcing. Along with a cost models analysis, consistent with state-of-the-art cost metrics, an experimental evaluation is performed on a real data set. It exhibits that both MDAHRB and MDAHB are feasible for authenticating OLSA queries, while MDAHRB is more scalable.

실시간 스트림 데이터 분석을 위한 시각화 가속 기술 및 시각적 분석 시스템 (Fast Visualization Technique and Visual Analytics System for Real-time Analyzing Stream Data)

  • 정성민;연한별;정대교;유상봉;김석연;장윤
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제22권4호
    • /
    • pp.21-30
    • /
    • 2016
  • 위험관리 시스템은 단 시간에 의사결정하기 위해 스트림 데이터를 실시간으로 분석 할 수 있어야 한다. 많은 데이터 분석 시스템은 CPU와 디스크 데이터베이스로 구성되어 있다. 하지만, cpu 기반 시스템은 스트림 데이터를 실시간으로 분석하는데 어려움이 있다. 스트림 데이터는 1ms부터 1시간, 1일까지 생성주기가 다양하다. 한 개의 센서가 생성하는 데이터는 작다. 하지만 수 만개의 센서가 생성하는 데이터는 매우 크다. 예를 들어 10만개 센서가 1초에 1GB 데이터를 생성한다면, CPU 기반 시스템은 이를 분석 할 수 없다. 이러한 이유로 실시간 스트림 데이터 분석 시스템은 빠른 처리 속도와 확장성이 필요하다. 본 논문에서는 GPU와 하이브리드 데이터베이스를 이용한 시각화 가속 기술을 제안한다. 제안한 기술을 평가하기 위해 우리는 지하 파이프라인에 설치된 센서와 트윗 데이터를 활용하여 실시간 릭 탐지 시각적 분석 시스템에 적용했다.

ADA: Advanced data analytics methods for abnormal frequent episodes in the baseline data of ISD

  • Biswajit Biswal;Andrew Duncan;Zaijing Sun
    • Nuclear Engineering and Technology
    • /
    • 제54권11호
    • /
    • pp.3996-4004
    • /
    • 2022
  • The data collected by the In-Situ Decommissioning (ISD) sensors are time-specific, age-specific, and developmental stage-specific. Research has been done on the stream data collected by ISD testbed in the recent few years to seek both frequent episodes and abnormal frequent episodes. Frequent episodes in the data stream have confirmed the daily cycle of the sensor responses and established sequences of different types of sensors, which was verified by the experimental setup of the ISD Sensor Network Test Bed. However, the discovery of abnormal frequent episodes remained a challenge because these abnormal frequent episodes are very small signals and may be buried in the background noise of voltage and current changes. In this work, we proposed Advanced Data Analytics (ADA) methods that are applied to the baseline data to identify frequent episodes and extended our approach by adding more features extracted from the baseline data to discover abnormal frequent episodes, which may lead to the early indicators of ISD system failures. In the study, we have evaluated our approach using the baseline data, and the performance evaluation results show that our approach is able to discover frequent episodes as well as abnormal frequent episodes conveniently.

Scalable Big Data Pipeline for Video Stream Analytics Over Commodity Hardware

  • Ayub, Umer;Ahsan, Syed M.;Qureshi, Shavez M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권4호
    • /
    • pp.1146-1165
    • /
    • 2022
  • A huge amount of data in the form of videos and images is being produced owning to advancements in sensor technology. Use of low performance commodity hardware coupled with resource heavy image processing and analyzing approaches to infer and extract actionable insights from this data poses a bottleneck for timely decision making. Current approach of GPU assisted and cloud-based architecture video analysis techniques give significant performance gain, but its usage is constrained by financial considerations and extremely complex architecture level details. In this paper we propose a data pipeline system that uses open-source tools such as Apache Spark, Kafka and OpenCV running over commodity hardware for video stream processing and image processing in a distributed environment. Experimental results show that our proposed approach eliminates the need of GPU based hardware and cloud computing infrastructure to achieve efficient video steam processing for face detection with increased throughput, scalability and better performance.

실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델 연구 (A Study on Adaptive Learning Model for Performance Improvement of Stream Analytics)

  • 구진희
    • 융합정보논문지
    • /
    • 제8권1호
    • /
    • pp.201-206
    • /
    • 2018
  • 최근 인공지능을 구현하기 위한 기술들이 보편화되면서 특히, 기계 학습이 폭넓게 사용되고 있다. 기계 학습은 대량의 데이터를 수집하고 일괄적으로 처리하며 최종 조치를 취할 수 있는 통찰력을 제공하나, 작업의 효과가 즉시 학습 과정에 통합되지는 않는다. 본 연구에서는 비즈니스의 큰 이슈로서 실시간 데이터 분석의 성능을 개선하기 위한 적응형 학습 모델을 제안하였다. 적응형 학습은 데이터세트의 복잡성에 적응하여 앙상블을 생성하고 알고리즘은 샘플링 할 최적의 데이터 포인트를 결정하는데 필요한 데이터를 사용한다. 6개의 표준 데이터세트를 대상으로 한 실험에서 적응형 학습 모델은 학습 시간과 정확도에서 분류를 위한 단순 기계 학습 모델보다 성능이 우수하였다. 특히 서포트 벡터 머신은 모든 앙상블의 후단에서 우수한 성능을 보였다. 적응형 학습 모델은 시간이 지남에 따라 다양한 매개변수들의 변화에 대한 추론을 적응적으로 업데이트가 필요한 문제에 폭넓게 적용될 수 있을 것으로 기대한다.

The Big Data Analytics Regarding the Cadastral Resurvey News Articles

  • Joo, Yong-Jin;Kim, Duck-Ho
    • 한국측량학회지
    • /
    • 제32권6호
    • /
    • pp.651-659
    • /
    • 2014
  • With the popularization of big data environment, big data have been highlighted as a key information strategy to establish national spatial data infrastructure for a scientific land policy and the extension of the creative economy. Especially interesting from our point of view is the cadastral information is a core national information source that forms the basis of spatial information that leads to people's daily life including the production and consumption of information related to real estate. The purpose of our paper is to suggest the scheme of big data analytics with respect to the articles of cadastral resurvey project in order to approach cadastral information in terms of spatial data integration. As specific research method, the TM (Text Mining) package from R was used to read various formats of news reports as texts, and nouns were extracted by using the KoNLP package. That is, we searched the main keywords regarding cadastral resurvey, performing extraction of compound noun and data mining analysis. And visualization of the results was presented. In addition, new reports related to cadastral resurvey between 2012 and 2014 were searched in newspapers, and nouns were extracted from the searched data for the data mining analysis of cadastral information. Furthermore, the approval rating, reliability, and improvement of rules were presented through correlation analyses among the extracted compound nouns. As a result of the correlation analysis among the most frequently used ones of the extracted nouns, five groups of data consisting of 133 keywords were generated. The most frequently appeared words were "cadastral resurvey," "civil complaint," "dispute," "cadastral survey," "lawsuit," "settlement," "mediation," "discrepant land," and "parcel." In Conclusions, the cadastral resurvey performed in some local governments has been proceeding smoothly as positive results. On the other hands, disputes from owner of land have been provoking a stream of complaints from parcel surveying for the cadastral resurvey. Through such keyword analysis, various public opinion and the types of civil complaints related to the cadastral resurvey project can be identified to prevent them through pre-emptive responses for direct call centre on the cadastral surveying, Electronic civil service and customer counseling, and high quality services about cadastral information can be provided. This study, therefore, provides a stepping stones for developing an account of big data analytics which is able to comprehensively examine and visualize a variety of news report and opinions in cadastral resurvey project promotion. Henceforth, this will contribute to establish the foundation for a framework of the information utilization, enabling scientific decision making with speediness and correctness.

웹 사이트 이용 고객의 행동 정보를 기반으로 한 고객 선호지수 산출 방법 (Method for Preference Score Based on User Behavior)

  • 서동렬;김두진;윤정기;김재훈;문강식;오재훈
    • CRM연구
    • /
    • 제4권1호
    • /
    • pp.55-68
    • /
    • 2011
  • 최근 웹 서비스의 발달과 함께 웹 컨텐츠를 다양하게 활용함으로써, 사용자의 경험을 기반으로 한 개인화 분석이 주목 받고 있다. 기존의 개인화 분석은 주로 데이터베이스의 데이터를 활용한 규칙 및 통계 모형을 기준으로 수행되고 있다. 이에 시장조사 소요기간에 따른 적시성을 반영하는데 어려움이 있었으며, 데이터베이스 적재 데이터가 고객 행동에 대한 결과였기 때문에 고객의 이용 특성을 반영하는데 한계가 지적되어 왔다. 그러나, 최근 고객의 사이트 방문에서부터 방문을 종료할 때까지의 모든 행동을 추적하고 분석하여 개인화된 서비스를 제공하기 위한 많은 연구와 상용화된 기술 개발이 진행되었다. 본 연구에서는 온라인상에서의 고객 행동을 웹 로그 분석을 이용하여 분석함으로써 고객의 행동정보를 U-Score(Usage Score, 이용지수), P-Score(Preference Score, 선호지수), M-Score(Mania Score, 마니아지수) 등 다양한 고객 선호지수를 도출하였다. 이러한 고객의 선호지수를 통해 웹 컨텐츠에 대한 고객의 선호정보를 파악함으로써, 고객에 대한 심도 있는 리포팅과 고객관계관리가 가능하며 개인화 추천 서비스에 유용하게 사용할 수 있다.

  • PDF

디바이스 유형을 고려한 온라인 멀티 채널 마케팅 효과 (The Effect of Online Multiple Channel Marketing by Device Type)

  • 신하정;남기환
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.59-78
    • /
    • 2018
  • 다양한 디바이스 유형과 마케팅 커뮤니케이션의 등장으로 온라인 환경에서 고객들의 탐색 및 구매 행동은 더욱 세분화 되었다. 하지만 기존 연구들은 고객 구매여정에서의 마케팅 채널 효과를 분석하는 과정에서 디바이스 종류에 따라 드러나는 UI(User Interface)와 UX(User Experience) 특성을 반영하지 못하였다. 본 연구는 글로벌 쇼핑몰의 대규모 클릭스트림 데이터를 활용하여 다양한 디바이스를 사용하는 고객들의 유입 채널 효과를 분석하였다. 온라인 쇼핑을 활성화 시키는 디바이스 유형을 구별하고, 디바이스 유형에 따라 방문을 증진시키는 유입 채널 간의 차이를 비교하였다. 고객의 과거 쇼핑 누적 경험과 유입 채널 전환 행태를 통해 방문과 구매액 미치는 직접효과 간접효과를 판별하였다. 그 결과 동일한 고객이더라도 디바이스 선택에 따라 활용하는 마케팅 채널이 달라지는 것을 발견할 수 있었다. 온라인 소매업체는 이러한 결과를 통해 디바이스 유형을 고려하여 멀티 마케팅 채널 환경에서의 고객 의사결정과정을 더욱 잘 이해하고 최적의 전략을 세울 수 있을 것이다. 본 연구는 실제 글로벌 빅 데이터를 분석하여 얻어진 유의미한 결과를 기반으로 경영학적 시사점을 도출하고, 계량 경제 모델을 활용하여 의미 있는 이론적립에 학문적으로 기여한다. 실제 온라인 쇼핑 마케팅 담당자들이 시도할 수 있는 전략적 통찰력을 제시한다는 점에서 실용적으로 활용할 가치가 있다.