• Title/Summary/Keyword: 데이터 처리

Search Result 17,433, Processing Time 0.048 seconds

The Parallel Processing Method of the Continuous Data Stream Processing Tasks (데이터 스트림 연속 처리 태스크의 병렬 처리 방법)

  • Yang, Kyungah;Lee, Daewoo;Kim, Kiheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.

Adaptive Processing of Queries over XML Streaming Data (적응력 있는 XML 스트림 데이터 질의처리 기법)

  • Kim, Young-Hyun;Kang, Hyun-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.4-6
    • /
    • 2005
  • 스트림 데이터를 생성하는 응용의 증가로 스트림 데이터 처리에 대한 연구가 활발히 진행되고 있다. 이러한 응용의 예로 센서네트워크, 모니터링, Selective dissemination of information(SDI)등이 있다. 특히 SDI와 같은 웹 환경의 응용은 XML을 기반으로 스트림 데이터 처리에 대한 연구를 진행하고 있다. XML은 웹상의 데이터 교환의 표준으로 웹 응용의 증가로 인해 스트림 데이터 처리 분야에서도 XML을 사용하는 스트림 데이터 처리 시스템에 대한 연구가 많이 진행되고 있는 실정이다. 하지만 XML을 기반으로 하는 기존의 시스템들은 정적인 질의계획을 사용하여 스트림 데이터를 처리하기 때문에 동적으로 변하는 스트림 데이터에 적응력있게 대처할 수 있다. 이와 달리 관계 데이터 모델을 사용하는 스트림 데이터 처리 시스템은 동적인 질의 계획과 질의 처리 연산자의 라우팅(스케쥴링) 기법을 사용하여 적응력있는 질의처리를 지원한다. 본 논문에서는 관계 데이터 모델을 사용하는 시스템의 적응력있는 질의처리 모델을 XML을 기반으로 하는 시스템에 적용하는 기법들에 대하여 설명한다. 그리고 XML을 기반으로 하는 기존의 대표적인 시스템인 YFilter[7]와 본 논문의 제안하는 시스템과의 질의처리 성능을 비교 평가한다.

  • PDF

Design of the Medical Bigdata Processing and Management System (의료 빅데이터 처리 및 관리 시스템 설계)

  • Lee, Seung-Jin;Shin, Young-Rok;Park, Jun-Young;Huh, Eui-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.431-434
    • /
    • 2013
  • 최근에는 네트워크가 진화하고 데이터 처리기술이 발달하여 디지털 데이터가 활성화되면서, 기존 데이터 처리 방식으로 감당하기 힘든 규모의 데이터인 빅데이터가 매일 생산되고 있다. 이러한 대규모 데이터는 분석 및 관리를 하는데 어렵고 시간이 많이 걸리지만, 분석을 함으로써 새롭고 유용한 많은 정보를 얻을 수가 있다. 이처럼 빅데이터 분석을 통해 얻어지는 정보가 기존 분석 방식에서 얻어지는 정보와 다른 새로운 정보이기에 많은 산업분야에서 빅데이터 처리에 대한 관심이 많아지고 있다. 이러한 흐름에 따라, 의료분야에서도 빅데이터를 효율적으로 처리 및 관리하기 위한 시스템 구축을 시도하고 있다. 즉, 기존에 정형화 되어 있는 의료 데이터를 분석하여 얻는 정보에 비정형화 되어있는 의료 데이터를 추가하여 새로운 정보를 도출하려 시도하고 있다. 하지만, 여러 병원에서 서로 호환이 가능한 의료 빅데이터 처리 및 관리 시스템을 사용하기 위해서는 명확한 의료 빅데이터 처리 및 관리에 대한 요구사항과 기능정의가 필요하다. 이에 본 논문에서는 의료 빅데이터 처리 및 관리를 위한 요구사항과 기능정의를 하고 의료 빅데이터 처리 및 관리 시스템 구조를 구축하고자한다.

Suggestion of BigData Processing System for Enhanced Data Processing on ETL (ETL 상에서 처리속도 향상을 위한 빅데이터 처리 시스템 제안)

  • Lee, Jung-Been;Park, Seok-Cheon;Kil, Gi-Beom;Chun, Seung-Tea
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.170-171
    • /
    • 2015
  • 최근 디지털 정보량의 기하급수적인 증가에 따라 대규모 데이터인 빅데이터가 등장하였다. 빅데이터는 데이터가 실시간으로 매우 빠르게 생성되며 다양한 형태의 데이터를 가지며 이 데이터를 수집, 처리, 분석을 통해 새로운 지식을 창출한다. 그러나 기존의 ETL(Exact/Transform/Load) 연구에서 이러한 빅데이터를 처리 하는데 성능 저하가 발생되고 있으며 비정형 데이터를 관리할 수 없다. 따라서 본 논문에서는 기존의 ETL 처리의 한계를 극복하기 위해서 하둡을 이용하여 ETL 상에서 처리 속도를 높이고 비정형 데이터를 처리할 수 있는 빅데이터 처리 시스템을 제안하고자 한다.

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • Kim, Hui-Jae;Ju, Gyeong-No;Yun, Chan-Hyeon
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

A Method to Access Data for Spatial Operation in Parallel Distributed Processing System (병렬 분산 처리 시스템에서 공간 연산을 위한 데이터 접근 방안)

  • Kim, Jindeog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.442-444
    • /
    • 2016
  • 과거에 비해 비약적으로 생산되는 공간 데이터에 대한 처리를 위한 공간 연산은 빠른 처리 응답성을 요구하는 경우가 많다. 그래서 최근 하둡(Hadoop)과 같은 빅데이터 처리 시스템을 이용하여 처리하고자 하는 시도가 많다. 한편, 공간 조인은 데이터 분할(Partitioning)과 공간 색인의 이용 여부, 여과 단계와 정제 단계를 거치는 등 그 복잡도가 강한 공간 연산이다. 그래서 빅데이터 처리 시스템을 이용한 공간 조인의 처리 방식은 매우 다양하다. 그러나 지금까지 이러한 공간 조인의 처리 방식에 다른 리소스 활용에 대한 비교는 거의 없다. 이 논문에서는 다양한 공간 연산의 수행 방법에 따른 빅데이터 시스템 클러스터에서 데이터 전송 방식을 고찰하고 데이터 전송에 따른 네트워크 리소스의 효율적인 사용 방안을 제안하고자 한다. 구체적으로 단일할당과 다중할당 색인 기법의 비교, 파티셔닝 방법의 비교, 맵리듀스 시스템의 태스크 할당 방법에 따른 비교를 통해 다양한 연산 유형에 따른 공간 조인의 처리 방안 선정에 고려 요소를 제시하고자 한다.

  • PDF

A study on DID metadata processing method according to distance learning data weight (원격교육 학습데이터 가중치에 따른 DID 메타데이터 처리방법 연구)

  • Youn-A Min
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.567-568
    • /
    • 2023
  • 본 논문에서는 블록체인 기반 DID기술을 이용하여 원격교육에서 발생하는 학습데이터를 효율적으로 관리하기 위한 방법으로, 학습데이터 가중치를 고려한 DID 메타데이터관리방법을 제안하였다. 메타데이터의 식별자에 대하여 특정위치로 데이터 가중치를 검색하도록 하고 해당 가중치에 따라 처리방법을 다양화 할 수 있다. 본문에서는 블록체인의 Zero Knowledge Proof 방식 처리에 차별화를 두어 메타데이터를 처리하였으며 데이터 처리속도 및 데이터관리에 효율성높일 수 있다.

  • PDF

Image Data Processing for Ubiquitous Database (유비쿼터스 데이터베이스를 위한 이미지 데이터 처리 기법)

  • Seo Dong-Wun;Choi Jin-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.81-84
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 환경으로 발전하면서 문자열 위주의 획일적 형태에서 음성, 이미지 등 다양한 형태의 데이터들을 처리하게 되었으며, 또한 빠르고 정확하게 처리되기를 요구하고 있다. 현재 데이터 처리 중심부에 있는 Database는 대부분이 Relation DB 위주로 되어 있어 Datafile 에 데이터를 저장하고 있어 대용량의 이미지 데이터 처리에 적합하지가 않다. 본 논문에서는 이러한 단점을 보강하기 위해 Relation DB 하에서 대용량의 이미지 데이터 처리를 가능하게 하는 기법을 제시한다. 이렇게 함으로써 이미지 데이터를 Upload, Download 시 따른 응답 속도를 보장 할 수 있도록 LRU 알고리즘 기반으로 제안을 하였다. 본 논문에서 제안된 기법은 시뮬레이션을 통해 (1)기존 RDB(Relational Database)의 BLOB(Binary Large Object)필드를 이용한 이미지 데이터 처리 방식, (2)별도의 저장 공간에 이미지 데이터를 입/출하는 방식, (3)별도의 저장 공간에 이미지 데이터를 입/출력할 때 LRU(least Recently Used)알고리즘을 이용하는 방식에 대하여 성능 평가를 하였다. 그 결과 (3)별도의 저장 공간에 LRU(least Recently Used)알고리즘을 이용하여 입/출력하는 방식이 (1)기존의 RDB(Relational Database)형태에 BLOB(binary large object)필드를 이용한 것 보다 성능이 높음을 확인하였다.

  • PDF

A Study on Solutions for TCP Incast Problem (TCP Incast 문제 해결방안에 관한 연구)

  • Um, Jin-Yeong;Seok, Min-Su;Choi, Tae-Hwan;Ahn, Jong-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.64-66
    • /
    • 2016
  • 대규모 데이터 센터는 클라우드 컴퓨팅을 가능하게 하고, 빅데이터 처리를 위해 널리 쓰이는 HDFS 혹은 MapReduce, Dryad와 같은 프레임워크는 분산 처리 환경에서 운영하는 것을 기반으로 설계되어 있어 일대일이 아닌 다대일 통신이 빈번히 발생한다. TCP Incast 문제는 다대일 통신에서 발생하는 문제로 단일 상위 서버에서 다수의 하위 서버로 일을 요청할 때, 요청된 결과가 단일 상위 서버로 동시에 응답할 때 발생한다. 기존의 분산 처리 환경에서는 작은 데이터를 처리하기 때문에 단일 상위 서버에서의 데이터 처리 부담이 적었다. 하지만 빅데이터를 처리하는 분산 처리 환경에서는 블록 단위의 큰 데이터를 처리하므로 데이터 처리 시간에 민감한 메시지 데이터에서 지연이 발생할 수 있다. 본 논문에서는 급격한 처리량 붕괴를 일으킬 수 있는 TCP Incast 문제 완화 알고리즘에 대하여 기술한다.

Efficient Binary Join Processing for Large Data Streams (대용량 데이터 스트림을 처리하기 위한 효율적 이진 조인 처리 기법)

  • Park, Hong-Kyu;Lee, Won-Suk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2008.06a
    • /
    • pp.189-192
    • /
    • 2008
  • 최근에 제한된 데이터 셋보다 센서 데이터 처리, 웹 서버 로그나 전화 기록과 같은 다양한 트랜잭션 로그 분석등과 관련된 대용량 데이터 스트림을 실시간으로 처리하는 것에 많은 관심이 집중되고 있으며, 특히 데이터 스트림의 조인 처리에 대한 관심이 증가하고 있다. 본 논문에서는 조인 연산을 빠르게 처리하기 위한 효율적인 해시 구조와 조인 방법에 대해서 연구하고 다양한 환경에서 제안 방법을 검증한다.

  • PDF