• Title/Summary/Keyword: 대용량 자료

Search Result 369, Processing Time 0.025 seconds

Cloud-Based Automation System to Process Data from Astronomy Observation (대용량 천문 관측 자료처리를 위한 클라우드 기반 자동화 시스템)

  • Yeom, Jae-Keun;Yu, Jung-Lok;Yim, Hong-Suh;Kim, Myung-Jin;Park, Jintae;Lee, Hee-Jae;Moon, Hong-Kyu;Choi, Young-Jun;Roh, Dong-Goo;Oh, Young-Seok;Bae, Young-Ho
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.1
    • /
    • pp.45-56
    • /
    • 2017
  • In astronomy, the amount of data generated using wide-field optical telescope has increased exponentially. However, the fixed-size small-scale computing environment and the complexity of data analysis tools, results in difficulties to process the massive observation data collected. To resolve this problem, we propose a cloud-based automation system for the efficient processing of the enormous data gathered. The proposed system consists of a Workflow Execution Manager which manages various workflow templates and controls the execution of workflows instantiated from theses templates, and an Elastic Resource Manager that dynamically adds/deletes computing resources, according to the amount of data analysis requests. To show the effectiveness of our proposed system, we exhaustively explored a board spectrum of experiments, like elastic resources allocation, system load, etc. Finally, we describe the best practice case of DEEP-SOUTH scheduling system as an example application.

Synthesis of 3-D Avatars in Campus Cyber Mall (캠퍼스 사이버 몰의 3차원 아바타 설계)

  • Ju, Jae-Ho;Yang, Yong-Hwan;Kang, Hoon
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.298-302
    • /
    • 2000
  • 본 논문에서는 3차원 채팅과 전자 상거래의 개념을 동시에 만족하는 사이버 몰의 가상 공간을 설계하고 관련된 서버-클라이언트 프로그램을 개발하는 것이 목적이다. 서버에서는 사용자의 3차원 아바타 에이전트 정보 관리 및 인터넷 상에서 사용자의 클라이언트 프로그램에 필요한 자료를 공급하며, 클라이언트에서는 3차원 가상 공간의 텍스쳐 매핑을 통한 GUI를 보여주고 서버와 자료를 교환하여 사용자간의 정보 교환 및 전자 상거래에 필요한 가상 공간을 설계하여 보여준다. 그런데, 3차원 자료는 인터넷의 속도 문제로 인해 실제 대용량의 자료를 처리하는 데 어려운 점이 있다. 따라서, 대용량 자료를 압축하여 VRML로 변환하고 이를 아바타로 사용할 수 있는 변환기를 개발하였다.

  • PDF

Generating Raster DSM from Airborne Laser Scanned Data Using Parallel Processing and Virtual Grid (병렬처리와 가상격자를 이용한 대용량 항공 레이저 스캔 자료의 정규격자 수치표면모델 생성)

  • Han, Soo-Hee;Heo, Joon;Kim, Sung-Sam;Kim, Sung-Hoon
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2008.06a
    • /
    • pp.318-321
    • /
    • 2008
  • 본 연구에서는 대용량의 항공 레이저 스캔 포인트 자료로부터 정규 격자 형태의 수치 표면 모델을 고속으로 생성하기 위하여 가상격자와 병렬처리를 기반으로 한 자료 처리 기법을 제안하였다. 수십$\sim$수백 평방 킬로미터 영역에 대하여 항공 레이저 스캔을 중복적으로 수행할 경우 포인트 수는 수억$\sim$수십억에 이르며 이를 일반적인 시스템에서 처리하는 데에는 한계가 존재한다. 이에 본 연구에서는 병렬처리를 위해 구성한 피씨 클러스터 상에서 자료를 분산시켜 가상격자를 이용하여 처리하는 방식을 제안하였다. 즉, 마스터 노드는 포인트 자료를 읽어 들여 포인트의 평면 좌표 값에 따라 슬래이브 노드로 전송하고 각 슬래이브 노드에서는 전송받은 포인트를 가상 격자에 저장한 후 보간(interpolation)을 수행한다. 보간 방식으로는 IDW(Inverse Distance Weightin)을 사용하였으며 제안한 방식의 효율성을 평가하기 위하여 사용된 슬래이브 노드 수에 대한 처리 시간을 측정하였다.

  • PDF

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

Current trends in high dimensional massive data analysis (고차원 대용량 자료분석의 현재 동향)

  • Jang, Woncheol;Kim, Gwangsu;Kim, Joungyoun
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.6
    • /
    • pp.999-1005
    • /
    • 2016
  • The advent of big data brings the opportunity to answer many open scientic questions but also presents some interesting challenges. Main features of contemporary datasets are the high dimensionality and massive sample size. In this paper, we give an overview of major challenges caused by these two features: (1) noise accumulation and spurious correlations in high dimensional data; (ii) computational scalability for massive data. We also provide applications of big data in various fields including forecast of disasters, digital humanities and sabermetrics.

Developing Program for Processing a Mass DEM Data using Streaming Method (스트리밍 방식을 이용한 대용량 DEM 프로세싱 프로그램의 개발)

  • Lee, Dong-Ha;Lee, Yong-Gyun;Suh, Yong-Cheol
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.17 no.4
    • /
    • pp.61-66
    • /
    • 2009
  • This Paper describes a new program called DEM Generator need to process DEM from LiDAR data or digital map data. It is difficult to generate raster DEM from LiDAR mass point data sets and digital maps too large to fit into memory. The DEM Generator was designed to process DEM and shaded relief image of GeoTiff format in order of streaming meshes; I/O minimize tag, delaunay triangle, natural neighborhood or TIN, temporary files and grid. It is expected that we can be improved the precision of DEM and solved the time consuming problem of DEM generating of a wider area.

  • PDF

An large scale single nucleotide polymorphism analysis method using mutual information and MDR (상호정보량과 MDR을 이용한 대용량 단일염기다형성 연관성 분석)

  • Jeong, Hyun-hwan;Wee, Kyubum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1392-1394
    • /
    • 2010
  • 단일염기다형성 유전형 자료에 대한 유전자형을 얻어내는 기술(genotyping)이 발달함에 따라 분석해야 하는 SNP의 개수가 수십만 개로 증가하였다. 따라서 기존의 연관성 분석(association study)연구 방법을 그대로 적용시키기는 어렵다. 본 논문에서는 상호정보량(mutual information)과 Multifactor dimensionality reduction을 이용하여 대용량의 SNP 유전형자료를 분석하는 방법을 제안하였고, 이 방법을 toluene diisocyanate-induced asthma에 대해 실험해본 결과 높은 판별력을 보이는 모델을 찾을 수 있었다.

Development of Web-based Air Photograph Browser System (웹 GIS 기반의 항공사진 검색 시스템 개발)

  • Kong, Gee-Su;Park, Noh-Jun
    • Proceedings of the KSRS Conference
    • /
    • 2007.03a
    • /
    • pp.88-91
    • /
    • 2007
  • 국립산림과학원 산림조사과에서는 지식정보화사업의 지원 하에 남한 전체 낱장/정사항공 사진 영상 DB툴 구축하고, 항공사진검색시스텀 (aerophoto.kfri.go. kr)을 개발하여 대국민 인터넷 서비스를 제공하고 있다. 본 논문에서는 5TB 대용량 항공사진 원본 영상과 메타자료를 웹 지리정보 서비스에 적합하도록 자료의 변환 방식,소프트웨어와 하드웨어의 최적 구성안, 그리고 응용 검색 시스템의 개발 기능을 소개 한다. 또한,항공사진 웹 검색 시스템은 벡터 지리정보와 항공사진 영상을 각각 전송하여 융합하고 분석하는 기능을 담당하는 클라이언트 모듈을 한정된 네트워크 환경에서 대용량 자료의 검색 속도 향상을 위하여 비동기식 처리 방식으로 개선하였다. 그리고 국가 지리정보 인프라인 정사항공사진 자료를 타 시스템과 연계 활용하기 위한 방안으로 ESRI ArcGIS 의 Plug-in 적용 사례를 제시한다.

  • PDF

A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data (불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신)

  • Bang, Sungwan;Kim, Jaeoh
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.2
    • /
    • pp.177-188
    • /
    • 2022
  • The support vector machine (SVM) has been successfully applied to various classification areas with a high level of classification accuracy. However, it is infeasible to use the SVM in analyzing massive data because of its significant computational problems. When analyzing imbalanced data with different class sizes, furthermore, the classification accuracy of SVM in minority class may drop significantly because its classifier could be biased toward the majority class. To overcome such a problem, we propose the DOC-SVM method, which uses divide-oversampling and conquers techniques. The proposed DOC-SVM divides the majority class into a few subsets and applies an oversampling technique to the minority class in order to produce the balanced subsets. And then the DOC-SVM obtains the final classifier by aggregating all SVM classifiers obtained from the balanced subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

Applications of Cluster Analysis in Biplots (행렬도에서 군집분석의 활용)

  • Choi, Yong-Seok;Kim, Hyoung-Young
    • Communications for Statistical Applications and Methods
    • /
    • v.15 no.1
    • /
    • pp.65-76
    • /
    • 2008
  • Biplots are the multivariate analogue of scatter plots. They approximate the multivariate distribution of a sample in a few dimensions, typically two, and they superimpose on this display representations of the variables on which the samples are measured(Gower and Hand, 1996, Chapter 1). And the relationships between the observations and variables can be easily seen. Thus, biplots are useful for giving a graphical description of the data. However, this method does not give some concise interpretations between variables and observations when the number of observations are large. Therefore, in this study, we will suggest to interpret the biplot analysis by applying the K-means clustering analysis. It shows that the relationships between the clusters and variables can be easily interpreted. So, this method is more useful for giving a graphical description of the data than using raw data.