• 제목/요약/키워드: Big data storage

검색결과 205건 처리시간 0.021초

바이오센싱 융합 빅데이터 컴퓨팅 아키텍처 (Bio-Sensing Convergence Big Data Computing Architecture)

  • 고명숙;이태규
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권2호
    • /
    • pp.43-50
    • /
    • 2018
  • 생체정보 컴퓨팅은 생체신호 센서와 컴퓨터 정보처리를 융합한 정보시스템에 기초하여 컴퓨팅시스템 뿐만 아니라 빅데이터 시스템에 크게 영향을 미치고 있다. 이러한 생체정보는 지금까지의 텍스트, 이미지, 동영상 등의 전통적인 데이터 형식과는 달리 생체신호의 의미를 부여하는 값은 텍스트 기반으로 표현되고, 중요한 이벤트 순간은 이미지 형식으로 저장하며, 시계열 분석을 통한 데이터 변화 예측 및 분석을 위해서는 동영상 형식 등 비정형데이터를 포함하는 복합적인 데이터 형식을 구성한다. 이러한 복합적인 데이터 구성은 개별 생체정보 응용서비스에서 요구하는 데이터의 특징에 따라 텍스트, 이미지, 영상 형식 등으로 각각 분리되어 요청되거나, 상황에 따라 복잡 데이터 형식을 동시에 요구할 수 있다. 기존 생체정보 컴퓨팅 시스템들은 전통적인 컴퓨팅 구성요소, 컴퓨팅 구조, 데이터 처리 방법 등에 의존하므로 데이터 처리성능, 전송능력, 저장효율성, 시스템안전성 등의 측면에서 많은 비효율성을 내포하고 있다. 본 연구에서는 생체정보 처리 컴퓨팅을 효과적으로 지원하는 생체정보 빅데이터 플랫폼을 구축하기 위해 개선된 바이오센싱 융합 빅데이터 컴퓨팅 아키텍처를 제안한다. 제안 아키텍처는 생체신호관련 데이터의 저장 및 전송 효율성, 컴퓨팅 성능, 시스템 안정성 등을 효과적으로 지원하며, 향후 생체정보 컴퓨팅에 최적화된 시스템 구현 및 생체정보 서비스 구축을 위한 기반을 제공할 수 있다.

빅데이터 분석 적용을 통한 공정 최적화 사례연구: LCD 공정 품질분석을 중심으로 (A Case Study on Product Production Process Optimization using Big Data Analysis: Focusing on the Quality Management of LCD Production)

  • 박종태;이상곤
    • 한국IT서비스학회지
    • /
    • 제21권2호
    • /
    • pp.97-107
    • /
    • 2022
  • Recently, interest in smart factories is increasing. Investments to improve intelligence/automation are also being made continuously in manufacturing plants. Facility automation based on sensor data collection is now essential. In addition, we are operating our factories based on data generated in all areas of production, including production management, facility operation, and quality management, and an integrated standard information system. When producing LCD polarizer products, it is most important to link trace information between data generated by individual production processes. All systems involved in production must ensure that there is no data loss and data integrity is ensured. The large-capacity data collected from individual systems is composed of key values linked to each other. A real-time quality analysis processing system based on connected integrated system data is required. In this study, large-capacity data collection, storage, integration and loss prevention methods were presented for optimization of LCD polarizer production. The identification Risk model of inspection products can be added, and the applicable product model is designed to be continuously expanded. A quality inspection and analysis system that maximizes the yield rate was designed by using the final inspection image of the product using big data technology. In the case of products that are predefined as analysable products, it is designed to be verified with the big data knn analysis model, and individual analysis results are continuously applied to the actual production site to operate in a virtuous cycle structure. Production Optimization was performed by applying it to the currently produced LCD polarizer production line.

그래프 구조를 갖는 서지 빅데이터의 효율적인 온라인 탐색 및 분석을 지원하는 그래픽 인터페이스 개발 (Developing Graphic Interface for Efficient Online Searching and Analysis of Graph-Structured Bibliographic Big Data)

  • 유영석;박범준;조선화;이수안;김진호
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.77-88
    • /
    • 2020
  • 최근 다양한 실세계의 복잡한 관계를 그래프의 형태로 구성하고 분석하는 다양한 연구들이 진행되고 있다. 특히 DBLP와 같은 컴퓨터 분야 문헌 데이터 시스템은 논문의 저자, 그리고 논문과 논문들이 서로 인용 관계로 표현되는 대표적인 그래프 데이터이다. 그래프 데이터는 저장 구조 및 표현이 매우 복잡하므로, 문헌 빅데이터의 검색과 분석, 그리고 시각화는 매우 어려운 작업이다. 본 논문에서는 문헌 빅데이터를 그래프의 형태로 시각화한 그래픽 사용자 인터페이스 도구, 즉 EEUM을 개발하였다. EEUM은 그래프 데이터를 시각적으로 표시하여 연결된 그래프 구조에 따라 문헌 데이터를 브라우징 하는 기능을 제공하며, 문헌 빅데이터에 대한 검색 및 관리, 분석이 가능하도록 구현하였다. 또한 EEUM을 DBLP가 제공하는 문헌 그래프 빅데이터에 적용하여 편리하게 검색, 탐색 및 분석하는 할 수 있음을 시연한다. EEUM을 이용하여 모든 연구 분야에서 영향력 있는 저자나 논문을 쉽게 찾을 수 있으며, 여러 저자와 논문 사이의 모든 관계를 한 눈에 볼 수 있는 등 복잡한 문헌 그래프 빅데이터의 검색 및 분석 도구로 편리하게 사용할 수 있다.

Hadoop을 이용한 스마트 자동차 서비스용 빅 데이터 솔루션 개발 (Addressing Big Data solution enabled Connected Vehicle services using Hadoop)

  • 라이오넬;장종욱
    • 한국정보통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.607-612
    • /
    • 2015
  • 자동차 진단 데이터의 양이 증가함에 따라 자동차 에코시스템의 액터는 스마트 자동차에서 수집된 데이터에 따라 새로운 서비스를 시뮬레이션 하거나 설계하기 위하여 실시간으로 분석을 해야 하는 어려움에 직면하게 된다. 본 논문에서는 자동차에서 생성된 막대한 양의 자동차 내장 진단 데이터를 처리하고 분석하는데 필수적이고 심오한 해석학을 제시하는 빅 데이터 솔루션에 관한 연구를 하였다. Hadoop 및 그 에코시스템은 자동차 소유자에 대한 새로운 서비스 제공을 위해 자동차 에코시스템의 액터에 의해 사용될 수 있는 막대한 데이터 및 전달된 유용한 결과를 처리하기 위해 개발된 것이다. 지능형 교통시스템이 안전성 보장, 속도로 인한 사고로 입는 상해 및 충돌의 비율 감소 등에 관여함에 따라, 자동차 진단 데이터 기반의 빅 데이터 솔루션 개발을 통해 향후 실시간 결과 감시, 여러 스마트 자동차에서의 데이터 수집, 수집된 데이터에 대한 신뢰성 있는 처리 및 용이한 저장을 실현화하게 된다.

KISTI-ML 플랫폼: 과학기술 데이터를 위한 커뮤니티 기반 AI 모델 개발 도구 (KISTI-ML Platform: A Community-based Rapid AI Model Development Tool for Scientific Data)

  • 이정철;안선일
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.73-84
    • /
    • 2019
  • 최근 서비스로서의 머신러닝(MLaaS) 개념은 데이터 자체를 제외하고 네트워크 서버, 스토리지 또는 데이터 과학자 없이도 생산적인 서비스 모델을 구축할 수 있다는 점에서 기계학습을 다루는 대부분의 산업 분야와 연구 그룹들의 많은 관심을 받고 있다. 그러나 과학 분야에서는 양질의 빅데이터를 확보하는 가정 자체가 커다란 도전이 된다. 즉, 연구자 간 연구 결과물의 공유가 쉽지 않을 뿐 아니라 과학기술 데이터의 비정형성 문제를 해결해야하는 문제가 선행된다. 본 논문에서 제안된 KISTI-ML 플랫폼은 과학기술 데이터를 위한 AI 모델 고속 개발 도구로서, 머신러닝에 익숙하지 않은 연구자들을 위해 웹 기반 GUI 인터페이스를 제공하고 연구자는 자신의 데이터를 이용하여 머신러닝 코드를 손쉽게 생성하고 구동할 수 있다. 또한 승인된 커뮤니티 멤버들을 중심으로 데이터셋 및 특징 추출에 사용되는 데이터전처리, 학습 네트워크 설계 등이 포함되는 프로그래밍 코드를 공유할 수 있는 환경을 제공한다.

An Analytic solution for the Hadoop Configuration Combinatorial Puzzle based on General Factorial Design

  • Priya, R. Sathia;Prakash, A. John;Uthariaraj, V. Rhymend
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권11호
    • /
    • pp.3619-3637
    • /
    • 2022
  • Big data analytics offers endless opportunities for operational enhancement by extracting valuable insights from complex voluminous data. Hadoop is a comprehensive technological suite which offers solutions for the large scale storage and computing needs of Big data. The performance of Hadoop is closely tied with its configuration settings which depends on the cluster capacity and the application profile. Since Hadoop has over 190 configuration parameters, tuning them to gain optimal application performance is a daunting challenge. Our approach is to extract a subset of impactful parameters from which the performance enhancing sub-optimal configuration is then narrowed down. This paper presents a statistical model to analyze the significance of the effect of Hadoop parameters on a variety of performance metrics. Our model decomposes the total observed performance variation and ascribes them to the main parameters, their interaction effects and noise factors. The method clearly segregates impactful parameters from the rest. The configuration setting determined by our methodology has reduced the Job completion time by 22%, resource utilization in terms of memory and CPU by 15% and 12% respectively, the number of killed Maps by 50% and Disk spillage by 23%. The proposed technique can be leveraged to ease the configuration tuning task of any Hadoop cluster despite the differences in the underlying infrastructure and the application running on it.

A Deep Learning Approach for Intrusion Detection

  • Roua Dhahbi;Farah Jemili
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.89-96
    • /
    • 2023
  • Intrusion detection has been widely studied in both industry and academia, but cybersecurity analysts always want more accuracy and global threat analysis to secure their systems in cyberspace. Big data represent the great challenge of intrusion detection systems, making it hard to monitor and analyze this large volume of data using traditional techniques. Recently, deep learning has been emerged as a new approach which enables the use of Big Data with a low training time and high accuracy rate. In this paper, we propose an approach of an IDS based on cloud computing and the integration of big data and deep learning techniques to detect different attacks as early as possible. To demonstrate the efficacy of this system, we implement the proposed system within Microsoft Azure Cloud, as it provides both processing power and storage capabilities, using a convolutional neural network (CNN-IDS) with the distributed computing environment Apache Spark, integrated with Keras Deep Learning Library. We study the performance of the model in two categories of classification (binary and multiclass) using CSE-CIC-IDS2018 dataset. Our system showed a great performance due to the integration of deep learning technique and Apache Spark engine.

클라우드 환경에서 안전한 스토리지 접근 제어를 위한 권한 관리 프로토콜 설계 (A Design of Authority Management Protocol for Secure Storage Access Control in Cloud Environment)

  • 민소연;이광형;진병욱
    • 한국산학기술학회논문지
    • /
    • 제17권9호
    • /
    • pp.12-20
    • /
    • 2016
  • 기존의 주력산업의 고도화 및 고부가가치 산업이 창출되고 있는 가운데 클라우드 컴퓨팅 기반의 융합서비스가 등장하였다. 사용자 개인의 밀착서비스부터 산업용 서비스까지 다양한 융합서비스가 제공되고 있으며 국내에서는 클라우드 서비스 기반의 금융, 모바일, 소셜 컴퓨팅, 홈서비스를 중심으로 경제 전반에 걸쳐 기존 산업시장의 원동력이 되고 있다. 그러나 클라우드 스토리지 환경에서 Dos, DDos공격뿐만 아니라 스토리지 서버의 중요 데이터를 타깃으로 한 공격기법들이 발생하고 있으며, APT, 백도어 침투, 특정 대상에 대한 다단계 공격과 같은 감지하기 어려운 보안위협들이 발생하고 있다. 이를 보완하기 위해서 본 논문에서는 사용자들로 하여금 안전한 스토리지 서비스를 제공하는 권한 관리 프로토콜에 관하여 설계하였으며, 클라우드 환경과 빅데이터 기반 기술의 융합사례와 보안위협 및 요구사항에 대해서 연구하였고, 클라우드 컴퓨팅 환경과 빅 데이터 기술의 융합사례와 보안위협 및 보안 요구사항에 대해서 관련연구를 수행하였다. 이를 기반으로 제안된 프로토콜은 기존의 클라우드 환경과 빅데이터 기반 기술에서 발생하는 공격기법에 대해서 안전성을 분석하였고, 세션키 생성부분에서 대략 55%의 향상성을 확인 할 수 있었다.

A Data-Consistency Scheme for the Distributed-Cache Storage of the Memcached System

  • Liao, Jianwei;Peng, Xiaoning
    • Journal of Computing Science and Engineering
    • /
    • 제11권3호
    • /
    • pp.92-99
    • /
    • 2017
  • Memcached, commonly used to speed up the data access in big-data and Internet-web applications, is a system software of the distributed-cache mechanism. But it is subject to the severe challenge of the loss of recently uncommitted updates in the case where the Memcached servers crash due to some reason. Although the replica scheme and the disk-log-based replay mechanism have been proposed to overcome this problem, they generate either the overhead of the replica synchronization or the persistent-storage overhead that is caused by flushing related logs. This paper proposes a scheme of backing up the write requests (i.e., set and add) on the Memcached client side, to reduce the overhead resulting from the making of disk-log records or performing the replica consistency. If the Memcached server fails, a timestamp-based recovery mechanism is then introduced to replay the write requests (buffered by relevant clients), for regaining the lost-data updates on the rebooted Memcached server, thereby meeting the data-consistency requirement. More importantly, compared with the mechanism of logging the write requests to the persistent storage of the master server and the server-replication scheme, the newly proposed approach of backing up the logs on the client side can greatly decrease the time overhead by up to 116.8% when processing the write workloads.

Semantic-based Mashup Platform for Contents Convergence

  • Yongju Lee;Hongzhou Duan;Yuxiang Sun
    • International journal of advanced smart convergence
    • /
    • 제12권2호
    • /
    • pp.34-46
    • /
    • 2023
  • A growing number of large scale knowledge graphs raises several issues how knowledge graph data can be organized, discovered, and integrated efficiently. We present a novel semantic-based mashup platform for contents convergence which consists of acquisition, RDF storage, ontology learning, and mashup subsystems. This platform servers a basis for developing other more sophisticated applications required in the area of knowledge big data. Moreover, this paper proposes an entity matching method using graph convolutional network techniques as a preliminary work for automatic classification and discovery on knowledge big data. Using real DBP15K and SRPRS datasets, the performance of our method is compared with some existing entity matching methods. The experimental results show that the proposed method outperforms existing methods due to its ability to increase accuracy and reduce training time.