• 제목/요약/키워드: 데이터스트림

검색결과 917건 처리시간 0.031초

RSP-DS: 데이터 스트림에서의 실시간 순차 패턴 분석 (RSP-DS: Real Time Sequential Patterns Analysis in Data Streams)

  • 신재진;김호석;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1118-1130
    • /
    • 2006
  • 데이터 스트림에 대한 기존의 패턴 분석 알고리즘은 대부분 속도 향상과 효율적인 메모리 사용에 대하여 연구되어 왔다. 그러나 기존의 연구들은 새로운 패턴을 가진 데이터 스트림이 입력되었을 경우, 이 전에 분석된 패턴을 버리고 다시 패턴을 분석하여야 한다. 이러한 방법은 데이터의 실시간적인 패턴 분석을 필요로 하는 실제 환경에서는 많은 속도와 계산 비용이 소모된다. 본 논문에서는 끊임없이 입력되는 데이터 스트림의 패턴을 실시간으로 분석하는 방법을 제안한다. 이 것은 먼저 빠르게 패턴을 분석하고 그 다음부터는 이전에 분석된 패턴을 효율적으로 갱신하여 실시간적인 패턴을 얻어내는 방법이다. 데이터 스트림이 입력되면 시간 기반 윈도우로 나누어 여러 개의 순차들을 생성한다. 그리고 생성된 순차들의 정보는 해시 테이블에 입력되어 정해진 개수의 순차가 해시 테이블에 채워질 때마다 해시 테이블에서 패턴을 분석해 낸다. 이렇게 분석된 패턴은 패턴 트리를 형성하게 되고, 이 후에 새로 분석된 패턴들은 이 패턴 트리 안의 패턴 별로 갱신하여 현재 패턴을 유지하게 된다. 새로운 패턴 추가를 위해 패턴을 분석할 때 이전에 이미 발견된 패턴이 Suffix로 나올 수 있다. 그러면 패턴 트리에서 이 전 패턴으로의 포인터를 생성하여 중복되는 패턴 분석으로 인한 계산 시간의 낭비를 방지한다. 그리고 FIFO방법을 사용하여 오랫동안 입력이 안 된 패턴을 손쉽게 제거한다. 패턴이 조금씩 바뀌는 데이터 스트림 환경에서 RSP-DS가 기존의 알고리즘보다 우수하다는 것을 성능 평가를 통하여 증명하였다. 또한 패턴 분석을 수행할 데이터 순차의 개수와 자주 등장하는 데이터를 판별하는 기준을 조절하여 성능의 변화를 살펴보았다.

  • PDF

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법 (Finding Frequent Itemsets Over Data Streams in Confined Memory Space)

  • 김민정;신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.741-754
    • /
    • 2008
  • 지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

무선 XML 스트리밍을 위한 시뮬레이션 시스템의 설계 및 구현 (Design and Implementation of a Simulation System for Wireless XML Streaming)

  • 박정현;김충수;정연돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.154-156
    • /
    • 2005
  • XML은 데이터 교환을 위한 표준으로서 데이터를 효과적으로 조직하고 표현 할 수 있다. 본 논문에서는 XML 데이터를 무선방송하기위한 스트림을 생성하는 시뮬레이션 시스템을 설계하고 구현한다. 구현한 시스템은 서버 모듈과 클라이언트 모듈로 구성되는데 서버 모듈은 XML 데이터에 대하여 스트림을 생성하는 역할을 하고 클라이언트 모듈은 생성된 스트링에 대해서 질의를 수행하고 생성된 스트림으로부터 XML 데이터를 복구하는 역할을 한다. 질의 수행에 대한 결과로 결과 XML 데이터가 출력되고 성능 평가요소로 질의를 수행하는 동안 걸린 수행시간을 측정할 수 있다.

  • PDF

스트림 데이터의 다차원 분석에서 평균응답시간을 줄이는 스트림 큐브 (A stream cube to reduce the average response time in the multi-dimensional analysis of stream data)

  • 도기석;박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.55-57
    • /
    • 2005
  • 유비쿼터스 환경이 도래함에 따라 데이터 흐름이 신속하고 연속적으로 변화하고 있다. 이러한 스트림형태의 데이터는 데이터의 치명적 변화, 자주 발생하지 않는 패턴 등의 관점에서 데이터 분석을 필요로 하고 있다. 본 논문에서는 다단계의 추상화 데이터 분석이 용이한 다차원 분석에 기반하여 고정적인 공간활용만이 가능했던 기존 방식을 살펴본 후 이를 유동적으로 보완하여 공간 비용을 최소화 하면서 평균응답시간을 줄여주는 방법에 대해 논의한다. 또한 제안 방법의 시공간 비용을 수식으로 증명하고 기존 방법과의 비교 실험을 통하여 성능을 평가해 본다.

  • PDF

스트리밍 빅데이터 처리 시스템 설계 (A Design on a Streaming Big Data Processing System)

  • 김성숙;김경태;박기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

윈도우를 이용한 스트림 데이터의 실시간 모니터링 기법 (Real-time Stream Data Monitoring Using Windows)

  • ;최옥주;이민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1231-1233
    • /
    • 2011
  • WBAN(Wireless Body Area Network)과 같은 스트림 데이터의 환경에서는 데이터가 아닌 질의들이 등록되어 있고 데이터들이 끊임없이 시스템에 도착한다. 때문에 도착한 데이터에 대해서 처리할 수 있는 질의만을 찾아 해당 질의들만을 수행하도록 해서 시스템의 질의 부담을 덜어주는 방법이 필요하다. 기존의 단순하고 단편적인 질의의 문제점을 해결하고자 본 연구에서는 Interval Skip List 자료 구조와 시간기반 윈도우를 이용하여 효율적인 실시간 모니터링 시스템을 구현하였다. 특히 산소포화도 생체 센서들로부터 연속적으로 전송되는 스트림 데이터에 대해 다양한 조건을 포함하는 질의들이 실행 되는데 이러한 실시간 모니터링 질의들을 효율적으로 식별하기 위한 질의 인덱스를 설계하였다.

Spark 클러스터 환경에서 분산 처리 성능 향상을 위한 Buffer 최적화 시스템 연구 (A Study on Buffer Optimization System for Improving Performance in Spark Cluster)

  • 홍석민;이소영;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.396-398
    • /
    • 2023
  • Statista 통계 조사에 따르면 데이터의 규모는 매년 증가할 것으로 예상하고 빅데이터 처리 프레임워크의 관심이 높아지고 있다. 빅데이터 처리 프레임워크 Spark는 Shuffle 과정에서 노드 간 데이터 전송이 일어난다. 이때 분산 처리한 데이터를 네트워크로 전송하기 위해 객체를 바이트 스트림으로 변환하여 메모리 buffer에 담는 직렬화 작업이 필요하다. 그러나 바이트 스트림을 buffer에 담는 과정에서 바이트 스트림의 크기가 메모리 buffer보다 클 경우, 메모리 할당 과정이 추가로 발생하여 전체적이 Spark의 성능 저하로 이어질 수 있다. 이에 본 논문에서는 Spark 환경에서 분산 처리 성능 향상을 위한 직렬화 buffer 최적화 시스템을 제안한다. 제안하는 방법은 Spark Driver가 Executor에게 작업을 할당하기 전 직렬화된 데이터 크기 측정과 직렬화 옵션 설정을 통해 Executor에게 적절한 buffer를 할당할 수 있다. 향후 제안하는 방법의 검증을 위해 실제 Spark 클러스터 환경에서 성능 평가가 필요하다.

연속질의 처리 시스템을 위한 트리거의 슬라이딩 윈도우 지원 (Supporting Sliding Windows of Trigger for Continuous Query Processing System)

  • 이근주;진성일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.171-176
    • /
    • 2006
  • 데이터 스트림(data stream)을 처리하기 위해서는 기본적으로 질의 대상이 되는 슬라이딩 윈도우에 대한 지원과 이에 대한 연속질의를 수행할 수 있어야 한다. 기존의 관계형 DBMS는 성능 문제로 인하여 데이터 스트림 처리에 한계가 있었으나 고성능 메인메모리 DBMS의 등장으로 빈번히 발생하는 스트림에 대한 충분한 질의 처리 능력을 갖추게 되었다. 본 논문에서는 메인메모리 DBMS기반에서의 데이터 스트림에 대한 연속질의 처리를 위해서 새로운 접근방법을 제공한다. 즉. 고성능 메인 메모리 DBMS의 높은 삽입과 갱신 성능을 전제로 트리거를 통한 슬라이딩 윈도우의 지원방법을 제시하고. 윈도우에 대한 연속질의는 응용에서 지원하되 효율적인 질의처리를 위해 저장프로시저를 적용한다. 이러한 메커니즘의 연속질의 처리 시스템은 CQL에서 정의한 세 가지 윈도우 유형을 모두 지원할 수 있다.

  • PDF

연동형 데이터 방송 애플리케이션의 구조 (The Structure of Synchronized Data Broadcasting Applications)

  • 정문열;백두원
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.74-82
    • /
    • 2004
  • 디지털 방송에서 애플리케이션은 셋톱박스(TV 수신기)에서 수행되는 응용프로그램을 말하며, 연동형 애플리케이션은 비디오내의 특정 시각에 정해진 일을 수행하는 애플리케이션이다. 본 논문에서는 연동형 애플리케이션을 구현하는데 필요한 개념, 표준 및 기술을 분석하고, 이들을 통합하여 연동형 애플리케이션을 구현하는 방법을 제안한다. 본 논문은 특히 유럽식 데이터 방송 표준인 DVB-MHP를 염두에 두고 기술한다. DVB-MHP 규약에서는 비디오와 애플리케이션을 동기화 시키는 방법으로 스케줄드 스트림 이벤트 방법을 권장하고 있다. 이 방법은 방송중간에 스케줄드 스트림 이벤트를 전송하고 애플리케이션이 스트림 이벤트를 수신, 스트림 이벤트에 명시된 시각에 스트림 이벤트를 처리하는 방법이다. 현재 상용으로 사용되고 있는 전송 스트림 생성기, 즉, 다중화기는 스트림 이벤트를 사용할 수 있도록 전송 스트림을 생성해 주지 않기 때문에 본 논문에서는 본 연구팀이 개발한 실험실용 스트림 생성기를 이용하여 필요한 전송 스트림을 생성하였다. 그리고 실제로 하나의 연동형 애플리케이션을 구현하여 테스트했다. 그 결과 연동형 애플리케이션이 스트림 이벤트를 성공적으로 처리함을 확인하였다. 구현된 애플리케이션에서 스트림 이벤트들은 의도한 시점으로부터 240ms 이내에서 비디오와 동기화 되었는데, 이 시간은 비디오와 그래픽 이미지간의 동기화 오차에 대한 허용치이다.

이중 스트림 기술이 지상파 DTV 수신 성능 개선에 미치는 영향 분석 (Analysis on the reception performance of using dual stream for terrestrial DTV)

  • 지금란;김대진;김성훈;심용훈;김승원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2002년도 정기총회 및 학술대회
    • /
    • pp.37-42
    • /
    • 2002
  • 본 논문은 ATSC T3/S9에 수신 성능 개선을 위해 제안된 방식 중 이중 스트림 기술을 알아보고 Robust 8-VSB와 Pseudo 2-VSB의 등화기에서 강인 데이터가 일반 데이터의 성능에 미치는 영향을 비교 분석하기 위해 전산 모의 실험을 실시하였다. 그 결과 Robust 8-VSB 방식은 이용된 모든 채널 환경에서 강인 데이터가 일반데이터의 성능 개선에 도움을 주지만, Pseudo 2-VSB방식의 경우는 채널 환경이 나쁜 경우에 강인 데이터가 일반 데이터의 성능 개선에 도움을 주는 것을 보여주었다.

  • PDF