• Title/Summary/Keyword: 데이터 처리

Search Result 17,628, Processing Time 0.047 seconds

Improving Read Latency for Stream Data Processing via Parallel Access of Time Series Database (스트림 데이터 처리를 위한 시계열 데이터베이스 병렬 접근 기반 읽기 지연 개선 기법)

  • Hwang, Yong-Ha;Noh, Soon-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.44-47
    • /
    • 2018
  • 시계열 데이터 처리를 위해 방대한 양의 데이터를 스토리지에서 빠르게 읽어와 처리하려는 움직임이 많아지고 있다. 이를 위해 스토리지의 read latency 를 개선하기 위한 여러 기법들이 제안되었지만, 이 기법들은 분산 노드의 스토리지 자원을 충분히 활용하지 못한다는 한계가 있다. 따라서 우리는 시계열 데이터를 실시간으로 처리하기 위해 스토리지에 병렬적으로 접근하여 read latency 를 개선하는 기법을 제안한다. 제안된 기법은 분산 환경에서 스토리지에 병렬적으로 접근하여, 각 노드에서 부분적으로 데이터를 읽어와 전체 데이터를 읽어오는 지연시간을 줄인다. 우리는 제안된 기법을 여러 노드로 구성된 분산 환경에서 구현하였다. 제안된 기법을 적용한 결과, 전체 데이터를 읽어오는 read latency 가 기존 기법보다 28.04% 줄어든 것을 확인하였다.

A Study on Distributed Semantic Web Data Repository Using HBase (HBase를 이용한 분산 시맨틱 웹 데이터 저장소에 대한 연구)

  • Jo, Daewoong;Kim, Myung Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.111-114
    • /
    • 2012
  • 실시간으로 발생되는 대량의 데이터를 효율적으로 저장하기 위한 연구는 분산/병렬 처리를 위한 하둡 및 NoSQL과 관련한 빅 데이터 처리 기술을 통해 진행 중에 있다. 하지만 시맨틱 웹 분야에서 발생되는 대량의 데이터를 처리하기 위한 모델은 현재 연구가 진행되고 있지 않다. 본 논문에서는 시맨틱 웹 환경에서 발생되는 대량의 온톨로지 데이터를 빅 데이터 처리가 가능한 NoSQL 분야인 HBase 데이터베이스에 분산 저장할 수 있는 매핑 규칙을 제안한다. 이와 같은 매핑 규칙을 통해 시맨틱 웹 환경에서도 대량으로 발생될 수 있는 데이터들을 효율적으로 분산 저장 할 수 있다.

Implement of Job Processing Using GPU for Hadoop Environment (하둡 환경에서 GPU를 사용한 Job 처리 방법)

  • Hong, Seok-min;Yoo, Yeon-jun;Lee, Hyeop Geon;Kim, Young Woon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.77-79
    • /
    • 2022
  • IT기술이 발전함에 따라 전 세계 데이터의 규모는 매년 증가하고 있다. 빅데이터 플랫폼을 사용하는 기업들은 더욱 빠른 빅데이터 처리를 원하고 있다. 이에 본 논문은 하둡 환경에서 GPU를 사용한 Job 처리 방법을 제안한다. 제안하는 방법은 CPU, GPU 클러스터를 따로 구성하여 세 가지 크기로 분류한 Job들을 알맞은 클러스터에 할당하여 처리한다. 향후, 제안하는 방법의 실질적인 검증을 위해 실제 구현과 성능 평가가 필요하다.

Using Data Deduplication In A Cloud Environment, Efficient Data Synchronization Algorithm Design (클라우드 환경에서 데이터 중복제거를 활용한 효율적인 데이터 동기화 알고리즘 설계)

  • Lim, Kwang-Soo;Park, Suk-chun;Kim, Young-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.626-628
    • /
    • 2015
  • 빅 데이터의 시대가 도래 하면서 데이터의 양이 기하급수적으로 증가 하고 있으며, 이에 따라 데이터를 효율적으로 처리하는 기술의 중요성이 부각 되고 있다. 데이터를 효율적으로 처리하기 위한 기술 중 하나인, 데이터 중복제거 기술은 저장 시스템 공간을 효율적으로 사용 할 수 있게 할 뿐만 아니라, 네트워크 환경에서 전송되는 데이터의 양도 획기적으로 줄여 주어 통신비용을 절감하게 한다. 기존의 데이터 중복제거 기술과 데이터 동기화 기법을 분석하고, 이를 바탕으로 클라우드 환경에서 데이터 중복제거를 통한 효율적인 데이터 동기화 기법을 제안하고자 한다.

A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce (맵리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법)

  • Son, Ingook;Ryu, Eunkyung;Park, Junho;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.11-12
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리시스템으로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스에서 테스크 할당은 데이터의 로컬리티를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 로컬리티로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 로컬리티를 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 제안하는 기법은 기존 기법에 비해 모든 노드의 데이터 이동이 감소하여 접근빈도의 분포가 균형적인 것을 확인하였다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 약 8% 감소하는 것을 확인하였다.

  • PDF

Research on Data Preprocessing Techniques for Efficient Decision-Making in Food Import Procedures (식품 수입 절차에서의 효율적 의사결정을 위한 데이터 전처리 기술에 관한 연구)

  • Jae-Hyeong Park;Yong-Uk Song;Ju-Young Kang
    • The Journal of Bigdata
    • /
    • v.8 no.1
    • /
    • pp.61-71
    • /
    • 2023
  • With the development of data-driven decision-making and sophisticated big data processing technique, there is a growing demand for information on how to process data. However, recent studies with data preprocessing mentioned only as a means to achieve a result. Therefore, in this study, we aimed to write in detail about the data processing pipeline, include preprocessing data. In particular, we shares the context and domain knowledge to aid fluent understand of the research.

Verification of Limit Range for GPS Baseline Processing (GPS 기선처리에 대한 한계범위 검증)

  • 홍정수;박운용;이용희;오창수
    • Proceedings of the Korean Society of Surveying, Geodesy, Photogrammetry, and Cartography Conference
    • /
    • 2004.04a
    • /
    • pp.97-102
    • /
    • 2004
  • 현재 4차원 정밀측정이 가능한 GPS는 데이터 처리와 사용기기 면에서 많은 발전을 이루고 있으며, 정밀한 데이터 결과를 제공하고 있다. 처리 방식에 따른 기선거리별 한계치에 대한 재검증을 실시하고자 하였으며, 측지용 GPS 수신기를 이용한 기선측정에 있어, L$_1$주파수 수신 GPS 시스템의 유효측정거리에 대하여 논하였다. 또한 일반적인 기선처리방식 이외의 다양한 처리기법들을 적용하여 각 단ㆍ중ㆍ장기선에 대해 가장 알맞은 처리방식을 도출하려고 하였으며 결과를 도출하는 과정에서 GPS 상대거리 관측데이터에 대해 양호한 데이터를 선별할 수 있는 기준 안을 마련하고자 하였다.

  • PDF

A Study on Buffer Optimization System for Improving Performance in Spark Cluster (Spark 클러스터 환경에서 분산 처리 성능 향상을 위한 Buffer 최적화 시스템 연구)

  • Seok-Min Hong;So-Yeoung Lee;Yong-Tae Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.396-398
    • /
    • 2023
  • Statista 통계 조사에 따르면 데이터의 규모는 매년 증가할 것으로 예상하고 빅데이터 처리 프레임워크의 관심이 높아지고 있다. 빅데이터 처리 프레임워크 Spark는 Shuffle 과정에서 노드 간 데이터 전송이 일어난다. 이때 분산 처리한 데이터를 네트워크로 전송하기 위해 객체를 바이트 스트림으로 변환하여 메모리 buffer에 담는 직렬화 작업이 필요하다. 그러나 바이트 스트림을 buffer에 담는 과정에서 바이트 스트림의 크기가 메모리 buffer보다 클 경우, 메모리 할당 과정이 추가로 발생하여 전체적이 Spark의 성능 저하로 이어질 수 있다. 이에 본 논문에서는 Spark 환경에서 분산 처리 성능 향상을 위한 직렬화 buffer 최적화 시스템을 제안한다. 제안하는 방법은 Spark Driver가 Executor에게 작업을 할당하기 전 직렬화된 데이터 크기 측정과 직렬화 옵션 설정을 통해 Executor에게 적절한 buffer를 할당할 수 있다. 향후 제안하는 방법의 검증을 위해 실제 Spark 클러스터 환경에서 성능 평가가 필요하다.

Queuing Time Computation Algorithm for Sensor Data Processing in Real-time Ubiquitous Environment (실시간 유비쿼터스 환경에서 센서 데이터 처리를 위한 대기시간 산출 알고리즘)

  • Kang, Kyung-Woo;Kwon, Oh-Byung
    • Journal of Intelligence and Information Systems
    • /
    • v.17 no.1
    • /
    • pp.1-16
    • /
    • 2011
  • The real-time ubiquitous environment is required to be able to process a series of sensor data within limited time. The whole sensor data processing consists of several phases : getting data out of sensor, acquiring context and responding to users. The ubiquitous computing middleware is aware of the context using the input sensor data and a series of data from database or knowledge-base, makes a decision suitable for the context and shows a response according to the decision. When the real-time ubiquitous environment gets a set of sensor data as its input, it needs to be able to estimate the delay-time of the sensor data considering the available resource and the priority of it for scheduling a series of sensor data. Also the sensor data of higher priority can stop the processing of proceeding sensor data. The research field for such a decision making is not yet vibrant. In this paper, we propose a queuing time computation algorithm for sensor data processing in real-time ubiquitous environment.

Pseudonymization's effect on data quality: A study under personal information protection act (개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향)

  • Minjeong Kim;Jae Keun Yoo
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.3
    • /
    • pp.381-393
    • /
    • 2024
  • This study investigates the impact of pseudonymization of personal information and its effect on the accuracy of data analysis. We quantitatively evaluated the relationship between the degree of pseudonymization and the accuracy of data analysis using logistic regression models, decision trees, and random forests. Through this, we confirmed that pseudonymizing sensitive information can realize personal information protection without significantly damaging data quality. However, we recognized limitations such as single sample data and consistent application of pseudonymization ratios. To overcome these limitations, additional research on diverse datasets is necessary to strengthen the generalizability of results. Moreover, we propose developing and applying methodologies to find optimal pseudonymization ratios for individual variables. The results from this study provide new insights into maintaining usability of data while achieving regulatory compliance and personal information protection.