• 제목/요약/키워드: 거대 과학 데이터

검색결과 21건 처리시간 0.039초

거대 데이터의 실시간 가시화를 위한 분산 가시화 서버의 설계 및 구현 (Design and Implementation of Distributed Visualization Server for Real-time Visualization of Massive Dataset)

  • 이중연;김민아;허영주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.467-470
    • /
    • 2011
  • 일반 PC의 메인 메모리에 올릴 수 없는 거대 용량의 데이터의 경우 가시화를 통한 해석을 수행하는데 어려움이 많다. 본 논문에서는 이러한 거대 용량의 데이터를 실시간으로 처리하기 위한 분산 환경에서의 가시화 서버의 설계를 제안한다. 본 논문에서 제안하는 가시화 서버는 가시화 관리자, 네트워크 관리자, 데이터 관리자로 구분되며 이들 관리자를 통해 복수의 사용자에 대한 가시화 서비스 제공, 거대 데이터의 실시간 동적 데이터 분할 및 할당 및 실시간 가시화를 지원한다.

연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언 (A Proposal of Evaluation of Large Language Models Built Based on Research Data)

  • 한나은;서수정;엄정호
    • 정보관리학회지
    • /
    • 제40권3호
    • /
    • pp.77-98
    • /
    • 2023
  • 본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.

MBTI 성격유형 분류를 통한 빅데이터 플랫폼 (A Big data platform through MBTI personality type classification)

  • 진경재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.503-505
    • /
    • 2021
  • 정보통신 기술(ICT)의 발달로 이루어진 4 차 산업혁명으로 '빅데이터'의 시대가 도래하고 있다. 소셜 네트워크 서비스(SNS), 사물인터넷(IOT), 인공지능(AI) 등 다양한 장소에서 다양한 형태로 데이터들이 쌓이고 있다. 그중 MBTI 성격유형 검사를 통한 다양한 분석 시스템이 많아지고 있다. 사람들은 재미를 위해 자신의 성향을 입력하고 정해진 MBTI 검사 기준을 통해 결과를 받는다. 이러한 개개인의 성향 데이터를 모으면 거대한 빅데이터 플랫폼을 만들 수 있을 것이라 기대한다. 이에 본 논문은 구체적인 방안을 제시하고자 한다.

사례연구 : 테라 스케일 로터 시뮬레이션 데이터 가시화 (Case Study : Visualization of Tera-scale Rotor Simulation Dataset)

  • 이중연;김민아;허영주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.811-814
    • /
    • 2010
  • 테라 스케일의 대용량 로터 시뮬레이션 데이터는 그 크기가 매우 크기 때문에 일반 PC에서는 가시화하기에 곤란한 경우가 많다. 또, 로터 시뮬레이션 데이터는 매우 복잡한 구조를 가지고 있기 때문에 초보자가 이 데이터에서 vortex와 같은 중요한 정보를 뽑아서 가시화하는 데에는 많은 어려움이 있어왔다. 본 논문에서는 일반 PC에서 가시화하기 어려운 거대용량의 로터 시뮬레이션 데이터를 고성능 가시화 클러스터와 VTK를 이용해서 빠르게 가시화하고자 한다. 한 대의 PC를 이용해서 가시화했을 경우에 비해 클러스터를 이용해서 병렬처리를 했을 경우 약 20배의 성능 향상을 보였다.

고속 빅데이터 전송 기반의 오픈 분산 컴퓨팅 플랫폼 개발 및 연구 (Open Distributed Cloud Computing based on High-Speed Big Data Transfer)

  • 김기현;문정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.38-41
    • /
    • 2021
  • 최근 빅데이터, 인공지능 키워드를 이용한 다양한 연구들이 진행되고 있으며, 인공지능 연구를 통해 자동화 자율화를 위한 연구들이 주를 이루고 있다. 인공지능 연구를 수행하기 위해서는 거대한 데이터를 빠르게 전송해야하며, 인공지능을 손쉽게 수행하기 위한 플랫폼이 필요하다. 하지만 많은 연구기관에서는 빅데이터 전송 속도의 한계가 존재하며, 인공지능 알고리즘 수행을 위한 플랫폼 또한 부족한 것이 현실이다. 이를 해결하기 위해 ScienceDMZ 기술을 활용하여 고속의 빅데이터 전송을 위한 인프라를 구축하고, 엣지 컴퓨팅 기반의 오픈 분산 컴퓨팅 플랫폼을 개발한다. 이 시스템을 통해 사용자들에게 빅데이터를 빠르게 전송하고 전송된 데이터를 이용하여 바로 인공지능 연구를 수행하여 결과를 도출할 수 있는 시스템을 구축하고자 한다. 이 시스템을 이용하여 GPU 분산 컴퓨팅을 수행하였을 때 성능과 GPU 병렬 컴퓨팅을 수행하였을 때의 결과를 비교하여 성능을 검증하고자 한다.

가젯암: 확장현실을 위한 손 제스처 기반 대화형 데이터 시각화 시스템 (Gadget Arms: Interactive Data Visualization using Hand Gesture in Extended Reality)

  • 최준영;정해진;정원기
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권2호
    • /
    • pp.31-41
    • /
    • 2019
  • 가상 및 증강현실과 같은 확장현실(XR: Extended Reality)은 몰입형 데이터 시각화 및 분석을 위한 거대한 잠재력을 가지고 있다. 확장현실에서 사용자는 3차원 가상 공간을 활용하여 데이터 및 여러 사용자와 사실적으로 상호 작용할 수 있으므로 보다 직관적인 데이터 분석이 가능하다. 그러나 확장현실의 장점을 제대로 활용하기 위한 시각화를 생성하는 것은 복잡한 프로그래밍이 필요하기 때문에 상당히 어려운 일이다. 본 논문에서는 손 제스처만으로 XR을 위한 시각화 전 과정을 수행하고, 모든 3차원 공간을 활용할 수 있는 가젯암(Gadget Arms) 시스템을 제안한다. 이 시스템에서 분석가는 데스크탑 기반 환경이나 복잡한 프로그래밍을 사용할 필요 없이 XR 기기를 착용한 상태에서 직관적으로 전체 시각화 공간을 디자인할 수 있으며, 가상의 손을 임의의 3차원 공간에 자유자재로 위치시킬 수 있는 인터랙션을 통해 거대한 3차원 공간을 효과적으로 활용할 수 있다. 우리는 사용자 연구를 통해 제안된 시스템이 시각화 제작과 공간 활용의 사용성을 크게 향상시시키는 것을 확인하였다.

GLOVE: 대용량 과학 데이터를 위한 분산공유메모리 기반 병렬 가시화 도구 (GLOVE: Distributed Shared Memory Based Parallel Visualization Tool for Massive Scientific Dataset)

  • 이중연;김민아;이세훈;허영주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.273-282
    • /
    • 2016
  • 가시화 도구는 데이터 입출력, 시각적 변환, 상호작용적인 렌더링의 세 구성요소로 구분할 수 있다. 본 논문에서는 거대용량의 과학 데이터를 실시간으로 가시화하기 위해 가시화 도구의 세 구성요소에 대한 요구사항을 분석, 정의하고 이를 만족시키기 위한 방안을 제시하고자 한다. 특히, 효율적인 가시화 도구의 개발을 위해 공개 소프트웨어 도구를 최대한 활용하고자 하였으며, 서로 다른 용도로 개발된 각 공개 소프트웨어 도구를 통합하여 하나의 가시화 도구로 개발하는 방안과 시공간적인 과학 데이터의 실시간 가시화를 위한 최적화 방법에 대해 논한다. 이를 통해 분산공유메모리 기반의 과학 데이터 병렬 가시화 도구인 GLOVE를 제안하였으며, 유동해석 분야 과학 데이터를 이용한 실험을 통해 GLOVE와 다른 데이터 가시화 소프트웨어와의 성능을 비교 분석했다.

국가과학기술연구망에서의 첨단연구 적용과 데이터흐름 최적화모델 연구 (Research on Data-Flow Optimization and Advanced Application Research on KREONET)

  • 노민기;이찬균;장민석;석우진
    • KNOM Review
    • /
    • 제22권2호
    • /
    • pp.1-11
    • /
    • 2019
  • 과학기술·연구개발체계의 패러다임은 기존 단독형 연구수행 형태에서 변화하여 관측과 실험에서 발생한 대용량 데이터를 고속 네트워크를 통해 연구현장에 송수신하고 저장하며, 이를 각 연구자 (기관)의 목적에 맞도록 활용하는 형태로 변화하고 있다. 네트워크형 첨단연구는 협업화, 공유화, 공용화, 글로벌화 하는 형태로 발전하고 있으며, 이를 위해 과학기술과 IT기술의 결합 뿐 아니라, 점점 거대화되는 데이터의 실시간 공유와 활용을 위해 최적화된 네트워크 환경과 기술 간의 융합이 필요하다. 본 논문에서는 국가과학기술연구망 (KREONET)의 네트워크형 첨단 연구의 사례를 통해 변화의 방향을 제시하고, 데이터흐름을 분석한다. 이를 통해 주요 데이터흐름과 용량에 따른 네트워크 최적화 모델을 제시하였으며, 네트워크형 첨단연구에서 요구되는 실시간성 연구수행 성능을 충족하였다.

HPC 환경을 위한 데이터 전송 노드 클러스터 구축 및 성능분석 (Deployment and Performance Analysis of Data Transfer Node Cluster for HPC Environment)

  • 홍원택;안도식;이재국;문정훈;석우진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권9호
    • /
    • pp.197-206
    • /
    • 2020
  • HPC(High Performance Computing) 서비스를 기반으로 한 거대과학 응용분야의 협업연구는 원거리에 떨어져 있는 연구자들 사이에서 대용량 데이터의 빠른 전송을 필요로 한다. 이와 관련하여 최근 미국 내의 주요 슈퍼컴퓨터들을 연계하여 고속 전송하기 위한 연구들이 수행되고 있다. 본 논문에서는 기 구축되어 운영 중인 한국과학기술정보연구원의 누리온 슈퍼컴퓨터 병렬 파일시스템 내의 대용량 데이터를 고속 전송하기 위해서 고성능 과학기술연구망 기반의 데이터 전송 노드(DTN) 클러스터를 구축하고 종단간 왕복지연 시간이 약 130ms에 달하는 원거리 전송 실험을수행한다. 실험을 통해 다른 크기의 파일들로 구성된 실험 군들에 대해 DTN 클러스터링에 따른 전송 성능을 비교하였고, 3대의 멀티 노드로 구성된 DTN 클러스터는 두 종류의 병행성, 병렬성 설정에서 단일 노드 대비 각각 약 1.8, 2.7배의 전송 성능 향상을 가져올 수 있음을 확인하였다.

광역 네트워크 상의 링 버퍼 기반 대용량 VLBI 데이터 스트림 입출력 구현 (Implementation of Ring Buffer based Massive VLBI Data Stream Input/Output over the Wide Area Network)

  • 송민규;김효령;강용우;제도흥;위석오;이성모
    • 한국전자통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1109-1120
    • /
    • 2019
  • VLBI 연구 분야에서 관측소와 상관센터 간 네트워크의 품질이 보장된다면 관측 데이터를 각 관측소와 상관센터에 반복 저장하던 기존의 비효율을 극복할 수 있다. 즉, 데이터 분석 작업이 수행되는 상관센터로 데이터 저장을 일원화할 수 있고 이를 통해 데이터 처리의 신속성, 생산성을 향상시킬 수 있다. 이를 구현하기 위해 본 논문에서는 VLBI 관측소에서 생산되는 관측 데이터 스트림을 초고속 네트워크 KREONET을 경유해 상관센터로 직접 전송, 저장하는 원격 기록 시스템을 설계하였다. 이 시스템을 기반으로 데이터 기록을 실시한 결과 패킷 손실이 최소화된 상태에서 관측 데이터가 상관센터의 기록시스템에 안정적으로 저장된 것을 확인하였다.