• Title/Summary/Keyword: 거대 과학 데이터

Search Result 21, Processing Time 0.034 seconds

Design and Implementation of Distributed Visualization Server for Real-time Visualization of Massive Dataset (거대 데이터의 실시간 가시화를 위한 분산 가시화 서버의 설계 및 구현)

  • Lee, Joong-Youn;Kim, MinAh;Hur, Youngju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.467-470
    • /
    • 2011
  • 일반 PC의 메인 메모리에 올릴 수 없는 거대 용량의 데이터의 경우 가시화를 통한 해석을 수행하는데 어려움이 많다. 본 논문에서는 이러한 거대 용량의 데이터를 실시간으로 처리하기 위한 분산 환경에서의 가시화 서버의 설계를 제안한다. 본 논문에서 제안하는 가시화 서버는 가시화 관리자, 네트워크 관리자, 데이터 관리자로 구분되며 이들 관리자를 통해 복수의 사용자에 대한 가시화 서비스 제공, 거대 데이터의 실시간 동적 데이터 분할 및 할당 및 실시간 가시화를 지원한다.

A Proposal of Evaluation of Large Language Models Built Based on Research Data (연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언)

  • Na-eun Han;Sujeong Seo;Jung-ho Um
    • Journal of the Korean Society for information Management
    • /
    • v.40 no.3
    • /
    • pp.77-98
    • /
    • 2023
  • Large Language Models (LLMs) are becoming the major trend in the natural language processing field. These models were built based on research data, but information such as types, limitations, and risks of using research data are unknown. This research would present how to analyze and evaluate the LLMs that were built with research data: LLaMA or LLaMA base models such as Alpaca of Stanford, Vicuna of the large model systems organization, and ChatGPT from OpenAI from the perspective of research data. This quality evaluation focuses on the validity, functionality, and reliability of Data Quality Management (DQM). Furthermore, we adopted the Holistic Evaluation of Language Models (HELM) to understand its evaluation criteria and then discussed its limitations. This study presents quality evaluation criteria for LLMs using research data and future development directions.

A Big data platform through MBTI personality type classification (MBTI 성격유형 분류를 통한 빅데이터 플랫폼)

  • Jin, Kyung-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.503-505
    • /
    • 2021
  • 정보통신 기술(ICT)의 발달로 이루어진 4 차 산업혁명으로 '빅데이터'의 시대가 도래하고 있다. 소셜 네트워크 서비스(SNS), 사물인터넷(IOT), 인공지능(AI) 등 다양한 장소에서 다양한 형태로 데이터들이 쌓이고 있다. 그중 MBTI 성격유형 검사를 통한 다양한 분석 시스템이 많아지고 있다. 사람들은 재미를 위해 자신의 성향을 입력하고 정해진 MBTI 검사 기준을 통해 결과를 받는다. 이러한 개개인의 성향 데이터를 모으면 거대한 빅데이터 플랫폼을 만들 수 있을 것이라 기대한다. 이에 본 논문은 구체적인 방안을 제시하고자 한다.

Case Study : Visualization of Tera-scale Rotor Simulation Dataset (사례연구 : 테라 스케일 로터 시뮬레이션 데이터 가시화)

  • Lee, Joong-Youn;Kim, MinAh;Hur, Youngju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.811-814
    • /
    • 2010
  • 테라 스케일의 대용량 로터 시뮬레이션 데이터는 그 크기가 매우 크기 때문에 일반 PC에서는 가시화하기에 곤란한 경우가 많다. 또, 로터 시뮬레이션 데이터는 매우 복잡한 구조를 가지고 있기 때문에 초보자가 이 데이터에서 vortex와 같은 중요한 정보를 뽑아서 가시화하는 데에는 많은 어려움이 있어왔다. 본 논문에서는 일반 PC에서 가시화하기 어려운 거대용량의 로터 시뮬레이션 데이터를 고성능 가시화 클러스터와 VTK를 이용해서 빠르게 가시화하고자 한다. 한 대의 PC를 이용해서 가시화했을 경우에 비해 클러스터를 이용해서 병렬처리를 했을 경우 약 20배의 성능 향상을 보였다.

Open Distributed Cloud Computing based on High-Speed Big Data Transfer (고속 빅데이터 전송 기반의 오픈 분산 컴퓨팅 플랫폼 개발 및 연구)

  • Kim, Ki-Hyeon;Moon, Junghoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.38-41
    • /
    • 2021
  • 최근 빅데이터, 인공지능 키워드를 이용한 다양한 연구들이 진행되고 있으며, 인공지능 연구를 통해 자동화 자율화를 위한 연구들이 주를 이루고 있다. 인공지능 연구를 수행하기 위해서는 거대한 데이터를 빠르게 전송해야하며, 인공지능을 손쉽게 수행하기 위한 플랫폼이 필요하다. 하지만 많은 연구기관에서는 빅데이터 전송 속도의 한계가 존재하며, 인공지능 알고리즘 수행을 위한 플랫폼 또한 부족한 것이 현실이다. 이를 해결하기 위해 ScienceDMZ 기술을 활용하여 고속의 빅데이터 전송을 위한 인프라를 구축하고, 엣지 컴퓨팅 기반의 오픈 분산 컴퓨팅 플랫폼을 개발한다. 이 시스템을 통해 사용자들에게 빅데이터를 빠르게 전송하고 전송된 데이터를 이용하여 바로 인공지능 연구를 수행하여 결과를 도출할 수 있는 시스템을 구축하고자 한다. 이 시스템을 이용하여 GPU 분산 컴퓨팅을 수행하였을 때 성능과 GPU 병렬 컴퓨팅을 수행하였을 때의 결과를 비교하여 성능을 검증하고자 한다.

Gadget Arms: Interactive Data Visualization using Hand Gesture in Extended Reality (가젯암: 확장현실을 위한 손 제스처 기반 대화형 데이터 시각화 시스템)

  • Choi, JunYoung;Jeong, HaeJin;Jeong, Won-Ki
    • Journal of the Korea Computer Graphics Society
    • /
    • v.25 no.2
    • /
    • pp.31-41
    • /
    • 2019
  • Extended Reality (XR), such as virtual and augmented reality, has huge potential for immersive data visualization and analysis. In XR, users can interact with data and other users realistically by navigating the shared virtual space, allowing for more intuitive data analysis. However, creating a visualization in XR also poses a challenge because complicated, low-level programming is required, which hinders broad adaptation in visual analytics. This paper proposes an interactive visualization authoring tool based on hand gesture for immersive data visualization-Gadget Arms. The proposed system provides a novel user interaction to create and place visualization in the 3D virtual world. This simple, but intuitive, user interaction enables user designs the entire visualization space in the XR without using a host computer and low-level programming. Our user study also confirmed that the proposed user interaction significantly improves the usability of the visualization authoring tool.

GLOVE: Distributed Shared Memory Based Parallel Visualization Tool for Massive Scientific Dataset (GLOVE: 대용량 과학 데이터를 위한 분산공유메모리 기반 병렬 가시화 도구)

  • Lee, Joong-Youn;Kim, Min Ah;Lee, Sehoon;Hur, Young Ju
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.6
    • /
    • pp.273-282
    • /
    • 2016
  • Visualization tool can be divided by three components - data I/O, visual transformation and interactive rendering. In this paper, we present requirements of three major components on visualization tools for massive scientific dataset and propose strategies to develop the tool which satisfies those requirements. In particular, we present how to utilize open source softwares to efficiently realize our goal. Furthermore, we also study the way to combine several open source softwares which are separately made to produce a single visualization software and optimize it for realtime visualization of massiv espatio-temporal scientific dataset. Finally, we propose a distributed shared memory based scientific visualization tool which is called "GLOVE". We present a performance comparison among GLOVE and well known open source visualization tools such as ParaView and VisIt.

Research on Data-Flow Optimization and Advanced Application Research on KREONET (국가과학기술연구망에서의 첨단연구 적용과 데이터흐름 최적화모델 연구)

  • Noh, Minki;Lee, Chankyun;Jang, Minseok;Seok, Woojin
    • KNOM Review
    • /
    • v.22 no.2
    • /
    • pp.1-11
    • /
    • 2019
  • The paradigm of science and technology and R&D system changes from the existing form of independent research to community research which transmits and stores large-capacity data generated from observation and experiment to the research site through a high-speed network. Network-dependent advanced research is improves form of collaboration, sharing, globalization. For this purpose, not only the integration of science and IT technology, but also the optimized network infrastructure and technology for real-time sharing of the enormous data is necessary. This paper explains the direction of change through the case of KREONET's network-dependent advanced research and analyzes the technology and network resources supported in each research field. Through this, we propose a network optimization model for each advanced research field with the main data flow and satisfy the network required performance by advanced applications on KREONET.

Deployment and Performance Analysis of Data Transfer Node Cluster for HPC Environment (HPC 환경을 위한 데이터 전송 노드 클러스터 구축 및 성능분석)

  • Hong, Wontaek;An, Dosik;Lee, Jaekook;Moon, Jeonghoon;Seok, Woojin
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.9 no.9
    • /
    • pp.197-206
    • /
    • 2020
  • Collaborative research in science applications based on HPC service needs rapid transfers of massive data between research colleagues over wide area network. With regard to this requirement, researches on enhancing data transfer performance between major superfacilities in the U.S. have been conducted recently. In this paper, we deploy multiple data transfer nodes(DTNs) over high-speed science networks in order to move rapidly large amounts of data in the parallel filesystem of KISTI's Nurion supercomputer, and perform transfer experiments between endpoints with approximately 130ms round trip time. We have shown the results of transfer throughput in different size file sets and compared them. In addition, it has been confirmed that the DTN cluster with three nodes can provide about 1.8 and 2.7 times higher transfer throughput than a single node in two types of concurrency and parallelism settings.

Implementation of Ring Buffer based Massive VLBI Data Stream Input/Output over the Wide Area Network (광역 네트워크 상의 링 버퍼 기반 대용량 VLBI 데이터 스트림 입출력 구현)

  • Song, Min-Gyu;Kim, Hyo-Ryung;Kang, Yong-Woo;Je, Do-Heung;Wi, Seog-Oh;Lee, Sung-Mo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.14 no.6
    • /
    • pp.1109-1120
    • /
    • 2019
  • In the field of VLBI, If the quality of the connected network between the VLBI station and the correlation center is ensured, the existing inefficiency of repeatedly storing the observation data in each station and the correlation center can be overcome. In other words, the data center can be unified with the correlation center where data analysis is performed, which can improve data processing speed and productivity. In this paper, we design a massive VLBI data system that directly transmits and stores the observation data stream obtained from the VLBI station to the correlation center via the high - speed network KREONET. Based on this system, VLBI test observations confirmed that the observation data was stored perfectly in the recording system of the correlation center without a single packet loss.