• 제목/요약/키워드: 데이터스트림

검색결과 917건 처리시간 0.027초

데이터 스트림에 대한 키워드 검색을 위한, 효율적인 갱신이 가능한 디스크 기반 역색인 구조 (An Update-Efficient, Disk-Based Inverted Index Structure for Keyword Search on Data Streams)

  • 박은주;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권4호
    • /
    • pp.171-180
    • /
    • 2016
  • 트위터와 같은 소셜 네트워킹 서비스(social networking service)의 확산으로 스트림 형태의 데이터가 크게 증가하고 있다. 스트림 형태로 들어와 누적되는 데이터를 효율적으로 검색하기 위해서는 색인이 반드시 필요하다. 본 논문에서는 스트림 형태로 들어와 계속 누적되는 데이터에 대한 키워드 검색을 효율적으로 할 수 있게 해주는, 효율적인 갱신이 가능한 디스크 기반 역색인(inverted index) 구조를 제안한다. 데이터 스트림을 검색하기 위해서는 데이터의 유입에 따라 역색인을 계속해서 갱신해 주어야 한다. 전통적인 역색인을 사용하는 경우, 역색인을 갱신하기 위해서는 매번 디스크에 저장된 모든 색인 데이터를 읽고 다시 써야 하므로 디스크 I/O 측면에서 매우 비효율적이다. 이러한 문제를 해결하기 위해 본 논문에서는 역색인을 크기가 지수적으로 증가하는 여러 역색인들로 나누어 저장한다. 새로운 데이터가 들어오면 우선 가장 작은 크기의 역색인에 삽입하고, 작은 크기의 역색인들을 더 큰 크기를 가진 역색인들과 나중에 병합함으로써 평균적으로 역색인을 갱신하는 비용을 크게 낮춘다. 또한 디스크에 저장된 역색인들을 병합할 때 발생하는 디스크 I/O 비용을 최소화함으로써 역색인의 갱신 비용을 더욱 낮춘다. 다양한 실험을 통해 기존 방법과 제안 방법의 효율성을 비교하고, 제안 방법이 갱신 비용에 있어 기존 방법에 비해 훨씬 효율적임을 보인다.

클라우드 기반 UHD 영상 트랜스코딩 시스템 (UHD Video Transcoding System in Cloud Computing Environment)

  • 문희철;김용환;김동혁
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 추계학술대회
    • /
    • pp.203-205
    • /
    • 2014
  • UHD 영상 콘텐츠는 FHD 영상에 비해 생생하고 더 좋은 고화질의 영상을 제공하지만 영상정보의 데이터 양은 4K UHD 경우 4 배 이상이다. 이러한 초대용량의 UHD 영상을 기존의 병렬/분산 처리를 이용하여 비디오 코딩 한다면 UHD 의 초대용량 특성으로 인하여 연산량 부하가 발생하게 된다. 따라서 UHD 영상은 기존의 분산처리 방식이 아닌 초대용량 데이터를 빠르게 처리 할 수 있는 새로운 분산 처리기술이 필요하다. 본 논문은 UHD 콘텐츠를 빠르게 트랜스코딩 할 수 있는 클라우드 기반 UHD 영상 트랜스코딩 시스템을 제안한다. 본 논문에서 제안하는 UHD 영상 트랜스코딩 시스템은 다음 3 가지 패킷 분석기, 분산 트랜스코더, 스트림 합성기로 구성된다. 패킷 분석기는 입력 영상을 분석하여 오디오와 비디오 스트림을 분할하고 비디오 스트림은 분산처리를 할 수 있도록 영상 패킷을 분할한다. 분산 트랜스코더는 클라우드 환경을 이용하여 분할된 영상 패킷들을 분산 디코드 및 인코드 처리한다. 스트림 합성기는 트랜스코딩이 완료된 비디오 스트림과 패킷 분석기에서 획득하였던 오디오 스트림을 합성하는 기능을 한다. 제시하는 방안을 적용하여 클라우드 기반 영상 트랜스 코딩 시스템을 구현하였으며, 구현된 시스템은 대용량의 UHD 영상을 빠른 속도로 트랜스코딩이 가능하다.

  • PDF

클러스터링 해쉬 테이블을 이용한 다차원 선박 USN 스트림 데이터의 효율적인 처리 (Efficient Processing of Multidimensional Vessel USN Stream Data using Clustering Hash Table)

  • 송병호;오일환;이성로
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.137-145
    • /
    • 2010
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 그러나, 센서 네트워크에서 대용량 스트림 데이터를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이터를 전송하고 분석하는 것은 어렵고 효율적이지 못하다. 그러므로, 연속적으로 입력되는 데이터를 사전에 분류하여 특성에 따라 선택적으로 데이터를 처리하는 데이터 분류 기법이 요구된다. 본 논문에서는 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 다중 Support Vector Machine(SVM) 알고리즘을 이용하여 사전 분류(pre-clustering)한 후 요약된 정보를 해쉬 테이블로 관리하는 효율적인 처리 기법을 제안한다. 해쉬테이블을 이용하여 다차원 스트림 데이터의 저장될 레코드 순서를 빠르게 찾아 저장 및 검색함으로서 처리 속도가 향상되고 메모리에 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 35,912개의 데이터 집합을 사용하여 실험한 결과 제안 기법의 정확도와 처리 성능이 향상되었다.

OSGi를 위한 실시간 센서 데이터스트림 처리 방법 (Processing of Sensor Data Stream for OSGi Frameworks)

  • 차지윤;변영철;이동철
    • 한국정보통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.1014-1021
    • /
    • 2009
  • 이절적인 하드웨어 플랫폼, 네트워킹, 프로토콜, 미들웨어 등 다양한 기술들이 존재하는 홈 네트워크에서 OSGi는 로컬 네트워크에서 상호 호환성을 보장하고, 각 하드웨어에서 관리되는 서비스들의 배포 및 공유에 대한 플랫폼을 제공한다. 하지만 현재 OSGi를 이용한 홈 네트워크에서는 단순한 제어와 이벤트성 데이터 처리에 대한 고려만 있을 뿐, RFID/USN 센서 등을 이용한 실시간 데이터스트림 처리에 대한 고려가 충분치 않다. 따라서 OSGi를 이용한 홈 네트워크 환경에서 개발자로 하여금 실시간 데이터스트림 생성 장치를 효과적으로 활용하여 OSGi 응용을 개발할 수 있도록 하기 위한 아키텍처 및 API 제공 방법 등에 관한 연구가 필요하다. 본 논문은 OSGi 프레임워크로 제공되는 다양한 형태의 실시간 데이터스트림을 필터링, 그룹핑, 그리고 카운팅 등 효과적으로 처리하기 위한 방법을 제안한다.

스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사 (Discovering Frequent Itemsets Reflected User Characteristics Using Weighted Batch based on Data Stream)

  • 서복일;김재인;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.56-64
    • /
    • 2011
  • 스트림데이터는 무한하고 연속적인 특성을 지니고 있기 때문에 전체 데이터를 기반으로 빈발 항목 집합을 탐사하는 것은 어렵다. 이 때문에 데이터의 특성과 사용자의 특성을 반영한 특수한 데이터마이닝 방법이 필요하다. 이 논문에서는 사용자가 최근에 발생한 데이터에 더 많은 관심이 있다는 특성을 반영하여 빈발 항목을 탐사하는 FIMWB 방법을 제안한다. FIMWB는 과거 데이터의 발생 시점과 현재 시점과의 시간 간격에 따라 가변적인 가중치를 배치에 부여하여 최신 데이터에 더 많은 관심과 중요성을 반영한다. FP-Digraph는 FIMWB를 통해 탐사된 빈발 항목으로 그래프를 구성하여 빈발 항목 집합을 탐사한다. 실험 결과로 FIMWB 방법이 불필요한 항목의 생성을 감소시키고 트리기반(FP-Tree)의 빈발 항목 집합 탐사에 비해 제안하는 FP-Digraph 방법이 스트림 데이터 환경에 더 적합함을 알 수 있다.

다중 사용자 MIMO 환경에서 균등한 성능을 보장하는 데이터 스트림 할당 기법 (Data Stream Allocation for Fair Performance in Multiuser MIMO Systems)

  • 임동호;최권휴
    • 한국통신학회논문지
    • /
    • 제34권12A호
    • /
    • pp.1006-1013
    • /
    • 2009
  • 본 논문에서는 블록 대각화 기법을 사용하는 다중 사용자 MIMO (Multiple-Input Multiple-Output) 하향링크 채널 환경에서 모든 사용자의 성능을 동일하게 보장하기 위하여 데이터 스트림의 수를 할당하는 기법을 제안한다. 기존의 연구들은 전체 채널 용량의 최대화에 중점을 두고 있고, 각 사용자의 채널 환경에 따라서 채널 용량이 불균등하게 분배되어 사용자 간의 차이가 크다. 뿐만 아니라, water-filling 기법을 사용하여 전력을 제어함으로써, 채널 이득이 작은 사용자는 매우 작은 채널 용량만을 가질 수 있었다. 또한, 대부분의 연구에서는 모든 사용자에 대해 동일한 수의 데이터 스트림을 사용함으로써, 스스로 데이터 스트림의 분배에 의한 추가적인 이득을 제한했다. 본 논문에서는 사용자 채널의 크기에 따라 데이터 스트림을 분배하여 모든 사용자에게 균등한 채널 용량을 보장하는 조건에서 이를 최대화하는 기법을 제안하고 모의실험을 통하여 제안된 기법이 기존의 기법에 비해 송신전력과 채널 용량의 이득이 더 큰 것을 확인한다.

다차원 스트림 데이터 환경에서 이벤트 가중치를 고려한 시간 관계 탐사 (Discovering Temporal Relation Considering the Weight of Events in Multidimensional Stream Data Environment)

  • 김재인;김대인;송명진;한대영;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.99-110
    • /
    • 2010
  • 이벤트는 환자의 증상과 같은 시간 속성을 갖는 흐름을 의미하며 센서를 통하여 수집된 스트림 데이터는 시작과 종료 시점을 갖는 인터벌 이벤트로 요약 가능하다. 그러나 대부분의 시간 마이닝 기법은 빈발 이벤트만을 고려하며, 빈발하지 않는 이벤트는 중요하더라도 제외되는 문제가 있다. 이 논문에서는 다차원 스트림 데이터 환경에서 인터벌 이벤트에 기초하여 의미있는 시간 관계에 대한 연관 규칙 마이닝 기법을 제안한다. 제안 방법은 이벤트 가중치와 이상 이벤트가 감지된 시점의 스트림 데이터만 고려하여 이벤트의 발생 횟수에 상관없이 의미있는 시간 관계에 대한 연관 규칙을 탐사한다. 그리고 성능 평가를 통하여 제안 방법이 기존의 방법에 비하여 보다 유용한 지식을 탐사함을 보인다.

데이터 스트림에서 그래프 기반 기법을 이용한 슬라이딩 윈도우 다중 조인 처리 (Processing Sliding Window Multi-Joins using a Graph-Based Method over Data Streams)

  • 장량;거준위;김경배;이순조;배해영;유병섭
    • 한국공간정보시스템학회 논문지
    • /
    • 제9권2호
    • /
    • pp.25-34
    • /
    • 2007
  • 데이터 스트림 환경에서 셋 이상의 스트림들에 대한 조인연산을 위해 순서를 선택하는 기존 기법들은 항상 간단한 휴리스틱 방법을 이용하였다 그러나 기존 기법들은 조인 선택도나 데이터 수신 비율과 같은 것만 고려하여 일반적인 응용에서 비효율적이며 낮은 성능을 갖는다. 본 논문에서는 최적의 조인 순서로 그래프 기반의 슬라이딩 윈도우 다중 조인 알고리즘을 제안한다. 이 기법에서 슬라이딩 윈도우 조인 그래프를 먼저 생성하는데, 정점(vertex)은 조인 연산으로 표현되고 엣지(edge)는 슬라이딩 윈도우들 사이의 조인관계를 나타낸다. 그리고 정점 가중치(vertex weight)와 엣지 가중치(edge weight)는 각각의 조인의 비용과 조인 연산들의 상호관계를 표현한다. 이때 데이터 스트림은 빠른 처리를 해야 하므로 메모리 기반의 그래프 기법을 사용한다. 이를 이용하여 최대값만을 이용하여 조인 연산을 수행하는 MVP 알고리즘을 개선하고 이의 그래프에서 최적의 조인 순서를 찾는다. 이를 통한 최종 결과는 중첩-루프(nested loop) 조인 계획을 수행하여 얻어진다. 성능비교를 통하여 제안기법이 기존 기법들보다 우수함을 증명한다.

  • PDF

센서 네트워크의 데이터 스트림 마이닝을 위한 온톨로지 기반의 전처리 기법 (Ontology based Preprocessing Scheme for Mining Data Streams from Sensor Networks)

  • 정재은
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.67-80
    • /
    • 2009
  • 다양한 센서의 개발과 센서 네트워크 구축으로 인해 특정 공간의 환경 데이터를 수집할 수 있다. 보다 유용한 정보 및 지식의 발견을 위하여 데이터 마이닝(Data mining) 기법이 활용되는 연구들이 소개되었다. 본 연구에서는 이와 같은 데이터 마이닝 기법의 효율성 증대를 위하여 센서 네트워크로부터의 데이터 스트림의 전처리 과정(Preprocessing)을 수행하고자 한다. 제안하는 센서 스트림 데이터의 전처리 과정은 i) 세션확인(Session identification)과 ii) 오류검증(Error detection) 문제를 해결하고자 한다. 특히, 이를 위해 각센서 장비로부터 수집되는 데이터의 의미(Semantics)를 표현하고 있는 온톨로지(Ontology)를 적용한다. 본 연구 결과의 성능 평가를 위하여 센서 네트워크 테스팅 환경을 교내에 설치하였으며 30여일 동안 수집된 데이터를 이용하여 시뮬레이션을 실행하였다.

  • PDF

스트리밍 XML 데이터의 빈발 구조 마이닝 (Mining of Frequent Structures over Streaming XML Data)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.23-30
    • /
    • 2008
  • 유비쿼터스 환경에서 상황정보 인식 분야를 연구하면서 가장 밑바탕에서 기초가 될 수 있는 것은 인터넷 기술과 XML(Extensible Markup Language)이다. 인터넷을 통한 통신에서 XML 데이터의 사용이 일반화되고 있으며 데이터의 형태는 연속적이다. 그리고 XML 스트림 데이터에 대한 질의를 처리하기 위한 방안들이 제시되고 있다. 이 논문에서는 스트림 데이터에 대한 질의처리를 효율적으로 수행하기 위한 기반연구로써 XML을 레이블의 순서화된 트리로 모델링하여 온라인 환경에서 빈발한 구조를 추출하는 마이닝 방법을 제안한다. 즉, 지속적으로 입력되는 XML 데이터의 구조를 트리로 모델링하고 각각의 트리를 하나의 트리 집합의 구조로 표현하여 현재 윈도우 시점에서 빈발한 구조를 정확하고 빠르게 추출하는 방법을 제시한다. 제시하는 방법은 XML의 질의 처리 및 색인 구성의 기초 자료로 활용될 수 있다.