• 제목/요약/키워드: Streaming Data Mining

검색결과 13건 처리시간 0.027초

패턴의 변화를 가지는 연속성 데이터를 위한 스트리밍 의사결정나무 (Streaming Decision Tree for Continuity Data with Changed Pattern)

  • 윤태복;심학준;이지형;최영미
    • 한국지능시스템학회논문지
    • /
    • 제20권1호
    • /
    • pp.94-100
    • /
    • 2010
  • 데이터 마이닝(Data Mining)은 환경으로부터 수집된 데이터에서 패턴을 추출하고 의미 있는 정보를 발견하기 위하여 주로 사용된다. 하지만, 기존의 방법은 데이터의 수집이 완료된 상태에서 분석하는 것을 기반으로 하고 있으며, 시간의 흐름에 따른 패턴의 변화를 반영하기 어렵다. 본 논문은 연속성(Continuity data), 대량성(Large scale) 그리고 패턴의 가변성(Changed pattern)과 같은 특성을 가지는 스트림 데이터(Stream Data)의 분석을 위한 스트리밍 의사결정 나무(Streaming Decision Tree : SDT) 방법을 소개한다. SDT는 연속적으로 발생하는 데이터를 블록으로 정의하고, 각 블록은 의사결정나무 학습 방법을 이용하여 규칙을 추출한다. 추출된 규칙은 발생 시간, 빈도 그리고 모순 등을 고려하여 결합하였다. 실험에서는 시계열 데이터를 이용하여 분석하였고, 적절한 결과를 확인하였다.

Mining Frequent Itemsets with Normalized Weight in Continuous Data Streams

  • Kim, Young-Hee;Kim, Won-Young;Kim, Ung-Mo
    • Journal of Information Processing Systems
    • /
    • 제6권1호
    • /
    • pp.79-90
    • /
    • 2010
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. The continuous characteristic of streaming data necessitates the use of algorithms that require only one scan over the stream for knowledge discovery. Data mining over data streams should support the flexible trade-off between processing time and mining accuracy. In many application areas, mining frequent itemsets has been suggested to find important frequent itemsets by considering the weight of itemsets. In this paper, we present an efficient algorithm WSFI (Weighted Support Frequent Itemsets)-Mine with normalized weight over data streams. Moreover, we propose a novel tree structure, called the Weighted Support FP-Tree (WSFP-Tree), that stores compressed crucial information about frequent itemsets. Empirical results show that our algorithm outperforms comparative algorithms under the windowed streaming model.

스트리밍 XML 데이터의 빈발 구조 마이닝 (Mining of Frequent Structures over Streaming XML Data)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.23-30
    • /
    • 2008
  • 유비쿼터스 환경에서 상황정보 인식 분야를 연구하면서 가장 밑바탕에서 기초가 될 수 있는 것은 인터넷 기술과 XML(Extensible Markup Language)이다. 인터넷을 통한 통신에서 XML 데이터의 사용이 일반화되고 있으며 데이터의 형태는 연속적이다. 그리고 XML 스트림 데이터에 대한 질의를 처리하기 위한 방안들이 제시되고 있다. 이 논문에서는 스트림 데이터에 대한 질의처리를 효율적으로 수행하기 위한 기반연구로써 XML을 레이블의 순서화된 트리로 모델링하여 온라인 환경에서 빈발한 구조를 추출하는 마이닝 방법을 제안한다. 즉, 지속적으로 입력되는 XML 데이터의 구조를 트리로 모델링하고 각각의 트리를 하나의 트리 집합의 구조로 표현하여 현재 윈도우 시점에서 빈발한 구조를 정확하고 빠르게 추출하는 방법을 제시한다. 제시하는 방법은 XML의 질의 처리 및 색인 구성의 기초 자료로 활용될 수 있다.

스트리밍 빅데이터의 프라이버시 보호 동반 실용적 분석을 통한 지식 활용과 재사용 연구 (Research of Knowledge Management and Reusability in Streaming Big Data with Privacy Policy through Actionable Analytics)

  • 백주련;이영숙
    • 디지털산업정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.1-9
    • /
    • 2016
  • The current meaning of "Big Data" refers to all the techniques for value eduction and actionable analytics as well management tools. Particularly, with the advances of wireless sensor networks, they yield diverse patterns of digital records. The records are mostly semi-structured and unstructured data which are usually beyond of capabilities of the management tools. Such data are rapidly growing due to their complex data structures. The complex type effectively supports data exchangeability and heterogeneity and that is the main reason their volumes are getting bigger in the sensor networks. However, there are many errors and problems in applications because the managing solutions for the complex data model are rarely presented in current big data environments. To solve such problems and show our differentiation, we aim to provide the solution of actionable analytics and semantic reusability in the sensor web based streaming big data with new data structure, and to empower the competitiveness.

댓글이 음원 판매량에 미치는 차별적 영향에 관한 텍스트마이닝 분석 (The Impact of Comments on Music Download and Streaming: A Text Mining Analysis)

  • 박명석;권영진;이상용
    • 지식경영연구
    • /
    • 제19권2호
    • /
    • pp.91-108
    • /
    • 2018
  • This study mainly focused on measuring the impact of comments for a particular song on the number of streamings and downloads. We modeled multiple regression equations to perform this analysis. We chose digital music market for the object of analysis because of its inherent characteristics, such as experience goods, high bandwagon effect, and so on. We carefully utilized text mining technique in accordance with the algorithm of Naïve Bayes classifier to distinguish whether a comment for a piece of music be regarded as positive or negative. In addition, we used 'size of agency' and 'existence of hit song' as moderating variables. The reason for usage of those variables is that those are assumed to affect users' decision for selecting particular song especially when downloading or streaming via music sites. We found empirical evidences that positive comments for a particular song increase the number of both downloads and streamings. However, positive comments may decrease the number of downloads when the size of agency of the artist is big. As a result, we were able to say that a positive comment for a particular song functioned as 'word-of-mouth' effect, inducing other users' behavioral response. We also found that other features of an artist such as size of the agency that the artist belongs to functioned as an external factor along with feature of the song itself.

Novel Push-Front Fibonacci Windows Model for Finding Emerging Patterns with Better Completeness and Accuracy

  • Akhriza, Tubagus Mohammad;Ma, Yinghua;Li, Jianhua
    • ETRI Journal
    • /
    • 제40권1호
    • /
    • pp.111-121
    • /
    • 2018
  • To find the emerging patterns (EPs) in streaming transaction data, the streaming is first divided into some time windows containing a number of transactions. Itemsets are generated from transactions in each window, and then the emergence of itemsets is evaluated between two windows. In the tilted-time windows model (TTWM), it is assumed that people need support data with finer accuracy from the most recent windows, while accepting coarser accuracy from older windows. Therefore, a limited array's elements are used to maintain all support data in a way that condenses old windows by merging them inside one element. The capacity of elements that accommodates the windows inside is modeled using a particular number sequence. However, in a stream, as new data arrives, the current array updating mechanisms lead to many null elements in the array and cause data incompleteness and inaccuracy problems. Two models derived from TTWM, logarithmic TTWM and Fibonacci windows model, also inherit the same problems. This article proposes a novel push-front Fibonacci windows model as a solution, and experiments are conducted to demonstrate its superiority in finding more EPs compared to other models.

Improving Video Quality by Diversification of Adaptive Streaming Strategies

  • Biernacki, Arkadiusz
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권1호
    • /
    • pp.374-395
    • /
    • 2017
  • Users quite often experience volatile channel conditions which negatively influence multimedia transmission. HTTP adaptive streaming has emerged as a new promising technology where the video quality can be adjusted to variable network conditions. Nevertheless, the new technology does not remain without drawbacks. As it has been observed, multiple video players sharing the same network link have often problems with achieving good efficiency and stability of play-out due to a mutual interference and competition among video players. Our investigation indicates that there may be another cause for under-performance of the streamed video. In an emulated environment, we implemented three algorithms of adaptive video play-out based on bandwidth or buffer assessment. As we show, traffic generated by players employing the same or similar play-out strategies is positively correlated and synchronised (clustered), whereas traffic originated from different play-out strategies shows negative or no correlations. However, when some of the parameters of the play-out strategies are randomised, the correlation and synchronisation diminish what has a positive impact on the smoothness of the traffic and on the video quality perceived by end users. Our research shows that non-correlated traffic flows generated by play-out strategies improve efficiency and stability of streamed adaptive video.

The Study of Comparing Korean Consumers' Attitudes Toward Spotify and MelOn: Using Semantic Network Analysis

  • Namjae Cho;Bao Chen Liu;Giseob Yu
    • Journal of Information Technology Applications and Management
    • /
    • 제30권5호
    • /
    • pp.1-19
    • /
    • 2023
  • This study examines Korean users' attitudes and emotions toward Melon and Spotify, which lead the music streaming market. We used Text Mining, Semantic Network Analysis, TF-IDF, Centrality, CONCOR, and Word2Vec analysis. As a result of the study, MelOn was used in a user's daily life. Based on Melon's advantages of providing various contents, the advantage is judged to have considerable competitiveness beyond the limits of the streaming app. However, the MelOn users had negative emotions such as anger, repulsion, and pressure. On the contrary, in the case of Spotify, users were highly interested in the music content. In particular, interest in foreign music was high, and users were also interested in stock investment. In addition, positive emotions such as interest and pleasure were higher than MelOn users, which could be interpreted as providing attractive services to Korean users. While previous studies have mainly focused on technical or personal factors, this study focuses on consumer reactions (online reviews) according to corporate strategies, and this point is the differentiation from others.

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법 (An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams)

  • 김영희;김원영;김응모
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1998-2004
    • /
    • 2009
  • 다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

하저 지반특성 규명을 위한 수상 전기비저항 탐사에 관한 연구 (A Study on the DC Resistivity Method to Image the Underground Structure Beneath River or Lake Bottom)

  • 김정호;이명종;송윤호;조성준;이성곤;손정술;정승환
    • 지구물리와물리탐사
    • /
    • 제5권4호
    • /
    • pp.223-235
    • /
    • 2002
  • 수로는 약선대를 따라 형성되는 경우가 많으며, 특히 강을 따라 단층이 발달하는 경우가 많다. 교량과 같은 수상 구조물의 건설을 위하여 탐사의 필요성이 높음에도 불구하고 육상과는 달리 수상 전기비저항 탐사가 활발하게 적용되지 못한 것은 현장탐사와 자료해석의 어려움 때문이었다고 볼 수 있다. 그러나 무엇보다도 중요한 것은 양질의 자료 획득이며, 양질의 자료 획득이 육상 탐사보다 어려운 것은 영상화하고자 하는 지하구조가 물로 덮여 있다는 점에서 연유한다. 이 연구에서는 이와 같은 점에 중점을 두고 수치 모델링과 현장탐사 사례 분석을 통하여 수상 전기비저항 탐사 자료의 특성, 현장 탐사와 해석 방법에 대하여 논하였다. 수상 전기비저항 탐사는 전극이 물 표면에 혹은 물 바닥에 설치되어 있는가에 따라 탐사자료의 획득방법, 고려할 사항, 해석 방법이 달라지므로, 전극을 물 표면에 띄운 경우와 바닥에 설치한 경우로 나누어 논의를 전개하였다. 이를 통하여 하상 전기비저항 탐사는 수층 하부 지반을 정확하게 영상화할 수 있음을 보였다. 또한 수상 전기비저항 탐사에서 전극을 물 바닥에 설치하는 것이 물 표면에 설치하는 것보다 훨씬 더 분해능이 높은 영상을 획득할 수 있다. 그러나 두 방법 모두 육상 탐사에 비하여 지하구조에 대한 민감도는 낮고, 유동전위 등에 의하여 전기잡음이 높을 가능성이 높기 때문에 육상 탐사보다 높은 S/N 비를 갖는 현장 탐사자료의 획득이 필수적이며 가능한 한 높은 분해능을 갖는 전극배열을 선택하여야 하는 것으로 나타났다. 변형된 전극배열법은 원거리 접지가 불필요하다는 점과 아울러 그의 원천이 되는 전극배열보다 높은 신호대 잡음비를 갖는 자료 획득이 가능하다는 점에서 수상 전기비저항 탐사에 많은 활용이 기대된다.